爬虫学习的一点心得
任务:每日新增微博指定信息抓取
抓取:requests
解析:xpath,正则表达式
存储:MongDB
遇到的问题:
1. xpath 解析时,如果有一个标签中有2个属性,2个属性之间用and相连,如果其中一个属性不一样,后面不用跟等号
selector.xpath(‘//div[@class="c" and @id]‘)
2.将每个微博的作者和发布时间合并成一个字符,插入到redis的一个集合
cmcc_sets中,当插入成功表示,该微博为新增微博需要下载到MongoDB中,如果未插入成功,则表示该微博已经下载过,无需重复插入
原文:https://www.cnblogs.com/tian2B/p/10903199.html