首页 > 编程语言 > 详细

python爬虫学习之每日抓取新增微博

时间:2019-05-21 23:46:53      阅读:138      评论:0      收藏:0      [点我收藏+]

爬虫学习的一点心得

任务:每日新增微博指定信息抓取

抓取:requests

解析:xpath,正则表达式

存储:MongDB

遇到的问题:

1. xpath 解析时,如果有一个标签中有2个属性,2个属性之间用and相连,如果其中一个属性不一样,后面不用跟等号

      selector.xpath(‘//div[@class="c" and @id]‘)
2.将每个微博的作者和发布时间合并成一个字符,插入到redis的一个集合
cmcc_sets中,当插入成功表示,该微博为新增微博需要下载到MongoDB中,如果未插入成功,则表示该微博已经下载过,无需重复插入

技术分享图片

 

python爬虫学习之每日抓取新增微博

原文:https://www.cnblogs.com/tian2B/p/10903199.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!