scrapy基本知识

时间：2020-06-26 10:27:21 阅读：85 评论：0 收藏：0 [点我收藏+]

1. Scrapy使用了Twisted异步网络库来处理网络通讯，整体架构：

技术分享图片

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine（Scrapy引擎），Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline（项目管道）。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载器，然后下载器向服务器发送服务请求，得到响应后将下载的网页内容交与蜘蛛来处理，尔后蜘蛛会对网页进行详细的解析。
蜘蛛分析的结果有两种：一种是得到新的URL，之后再次请求调度器，开始进行新一轮的爬取，不断的重复上述过程；另一种是得到所需的数据，之后会转交给项目管道继续处理。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理，最后由Pipeline输出到文件中，或者存入数据库等。

scrapy startproject XXX可以产生一个项目

原文：https://www.cnblogs.com/kongrui/p/13193790.html

踩

(0)

评论一句话评论（0）

分享档案

更多>