scrapy学习1

时间：2019-06-18 09:27:31 阅读：140 评论：0 收藏：0 [点我收藏+]

1.安装

我的环境是ubuntu18.04，安装就比较简单：

sudo pip3 install scrapy

2. scrapy结构

2.1 scrapy Engine(引擎)：负责spider, itemPipeline, downloader, scheduler 中间的通讯，信号，数据传递等

2.2 scheduler(调度器): 它负责接受引擎发送过来的request请求，并按照一定的方式进行整理排列，入队。

2.3 downloader(下载器)：负责下载scrapy Engine发送的所有request请求，并将其获取到的responses交给scrapy Engine(引擎)

由引擎交给spider来处理

2.4 spider(爬虫)：它负责处理所有response,从中分析提取数据，获取item字段需要的数据，并将需要跟进的url提交给引擎，

再次进入scheduler(调度器)

2.5 item Pipeline(管道)：它负责处理spider中获取到item, 并进行后去处理（详细分析，过滤，存储）的地方

2.6 downloader Middlewares(下载中间件)：你可以当作是一个可以自定义扩展下载功能的组件

2.7 spider Middlewares(spider中间件)：可以理解为是一个自定扩展和操作引擎和spider中间通信的功能组件，如（

进入spider的response;和从spider出去的response）

原文：https://www.cnblogs.com/xianqingsong/p/11042894.html

踩

(0)

评论一句话评论（0）

分享档案

更多>