scrapy的介绍、组件、数据流

时间：2018-10-24 00:45:07 阅读：231 评论：0 收藏：0 [点我收藏+]

技术分享图片

scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。

scrapy使用了twisted异步网络框架来处理网络通讯，来加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求

scrapy的工作流程：

1、首先spiders（爬虫）将需要发送请求的url（requests）经scrapyengine（引擎）交给scheduler（调度器）

2、scheduler（排序，入队）处理后，经scarpyengine，downloadermiddlewares交给downloader

3、downloader向互联网发送请求，并接受下载响应（response）。将响应（response）经scrapyengine，spidermiddlewares交给spiders

4、spiders处理response，提取数据并将数据经scrapyengine交给itempipeline保存（可以在本地，可以是数据库）

5、提取url重新经scrapyengine交给scheduler进行下一个循环。直到url请求程序停止结束

技术分享图片

所以框架给我们了其他内容我们要写的就是spider、 scrapy engine 、item pipeline 这三个内容

原文：https://www.cnblogs.com/hy123456/p/9840447.html

踩

(0)

评论一句话评论（0）

分享档案

更多>