首页 > 编程语言 > 详细

python爬虫,使用正则表达式爬取人民网新链接,标题,时间

时间:2020-03-21 17:46:49      阅读:155      评论:0      收藏:0      [点我收藏+]
import requests
import re
res = requests.get(‘http://politics.people.com.cn/GB/1024/index.html‘)
content = res.content.decode(‘GB2312‘)
# 从人民网源代码中查看网页的编码方式,在代码开头部分可以找到
# <meta http-equiv="content-type" content="text/html;charset=GB2312"/>
# 即该网站编码方式为GB2312,故上面语句解码使用decode(‘GB2312‘) print(content) pattern = "<li><a href=‘(.*?)‘ target=_blank>(.*?)</a> <em>(.*?)</em></li>" news = re.findall(pattern, content) for i in news: print(i[0],i[1],i[2])

这一小段代码运行后就成功将人民网中新闻的标题,链接,创建时间抓取下来,并保存在列表中,每个列表元素是1个元组,分别保存链接,标题和创建时间。
屏幕显示如下:

/n1/2020/0321/c1024-31642187.html 千方百计加快恢复和稳定就业 为就业创业、灵活就业提供更多机会 2020-03-21
/n1/2020/0321/c1024-31642183.html 在精准防控疫情的同时积极有序推进复工复产 稳住和支持市场主体增强经济回升动力 2020-03-21
/n1/2020/0320/c1024-31642058.html 李克强:在精准防控疫情的同时积极有序推进复工复产 稳住和支持市场主体增强经济回升动力 2020-03-20
/n1/2020/0320/c1024-31642033.html 李克强:千方百计加快恢复和稳定就业 为就业创业、灵活就业提供更多机会 2020-03-20

…………

python爬虫,使用正则表达式爬取人民网新链接,标题,时间

原文:https://www.cnblogs.com/iceberg710815/p/12540012.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!