分布式爬虫

时间：2020-06-01 15:55:28 阅读：37 评论：0 收藏：0 [点我收藏+]

概念：我们需要搭建一个分布式的集群，让其对一组资源进行分布联合爬取

作用：提升爬取数据的效率

如何实现分布式：

安装一个scrapy-redis的组件

原生的scrapy是不可以实现分布式爬虫的，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫

scrapy-redis组件作用：

可以给原生的scrapy框架提供可以被共享的管道和调度器

实现流程：

创建一个工程

创建一个基于CrawlSpider的爬虫文件

修改当前的爬虫文件

导包：from scrapy_redis.spiders import RedisCrawlSpider

将allowed_domains和start_urls注释掉

添加一个新属性：redis_key = ‘sun‘ 可以被共享的调度器队列的名称

编写数据解析相关的操作

将当前爬虫类的父类修改成RedisCrawlSpider

修改配置文件settings

原文：https://www.cnblogs.com/nanjo4373977/p/13025255.html

踩

(0)

评论一句话评论（0）

分享档案

更多>