首页 > 其他 > 详细

分布式爬虫

时间:2020-06-01 15:55:28      阅读:37      评论:0      收藏:0      [点我收藏+]

概念:我们需要搭建一个分布式的集群,让其对一组资源进行分布联合爬取

作用:提升爬取数据的效率

 

如何实现分布式:

安装一个scrapy-redis的组件

原生的scrapy是不可以实现分布式爬虫的,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫

scrapy-redis组件作用:

可以给原生的scrapy框架提供可以被共享的管道和调度器


 

实现流程:

创建一个工程

创建一个基于CrawlSpider的爬虫文件

修改当前的爬虫文件

导包:from scrapy_redis.spiders import RedisCrawlSpider

将allowed_domains和start_urls注释掉

添加一个新属性:redis_key = ‘sun‘ 可以被共享的调度器队列的名称

编写数据解析相关的操作

将当前爬虫类的父类修改成RedisCrawlSpider

修改配置文件settings

分布式爬虫

原文:https://www.cnblogs.com/nanjo4373977/p/13025255.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!