概念:我们需要搭建一个分布式的集群,让其对一组资源进行分布联合爬取
作用:提升爬取数据的效率
如何实现分布式:
安装一个scrapy-redis的组件
原生的scrapy是不可以实现分布式爬虫的,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫
scrapy-redis组件作用:
可以给原生的scrapy框架提供可以被共享的管道和调度器
实现流程:
创建一个工程
创建一个基于CrawlSpider的爬虫文件
修改当前的爬虫文件
导包:from scrapy_redis.spiders import RedisCrawlSpider
将allowed_domains和start_urls注释掉
添加一个新属性:redis_key = ‘sun‘ 可以被共享的调度器队列的名称
编写数据解析相关的操作
将当前爬虫类的父类修改成RedisCrawlSpider
修改配置文件settings
原文:https://www.cnblogs.com/nanjo4373977/p/13025255.html