python爬虫，使用正则表达式爬取人民网新链接，标题，时间

时间：2020-03-21 17:46:49 阅读：155 评论：0 收藏：0 [点我收藏+]

import requests
import re
res = requests.get(‘http://politics.people.com.cn/GB/1024/index.html‘)
content = res.content.decode(‘GB2312‘)
# 从人民网源代码中查看网页的编码方式，在代码开头部分可以找到
# <meta http-equiv="content-type" content="text/html;charset=GB2312"/>
# 即该网站编码方式为GB2312，故上面语句解码使用decode(‘GB2312‘)
print(content)
pattern = "<li><a href=‘(.*?)‘ target=_blank>(.*?)</a> <em>(.*?)</em></li>"
news = re.findall(pattern, content)
for i in news:
    print(i[0],i[1],i[2])

这一小段代码运行后就成功将人民网中新闻的标题，链接，创建时间抓取下来，并保存在列表中，每个列表元素是1个元组，分别保存链接，标题和创建时间。
屏幕显示如下：

/n1/2020/0321/c1024-31642187.html 千方百计加快恢复和稳定就业为就业创业、灵活就业提供更多机会 2020-03-21
/n1/2020/0321/c1024-31642183.html 在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力 2020-03-21
/n1/2020/0320/c1024-31642058.html 李克强：在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力 2020-03-20
/n1/2020/0320/c1024-31642033.html 李克强：千方百计加快恢复和稳定就业为就业创业、灵活就业提供更多机会 2020-03-20

…………

原文：https://www.cnblogs.com/iceberg710815/p/12540012.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)