Scrapy库的安装与使用

时间：2019-06-17 22:36:17 阅读：126 评论：0 收藏：0 [点我收藏+]

安装部分

命令行执行：

安装： pip install scrapy

安装后小测：执行scrapy -h

Scrapy爬虫框架结构：

爬虫框架：爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合。

Scrapy：5+2结构

5个模块

Spiders 用户编写（配置）解析Downloader返回的响应，产生爬取项，产生额外的爬取请求。

Item pipelines 用户编写（配置）以流水线来处理Spider产生的爬取项，可能的操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。

Engine 已有实现控制数据流，触发事件，不需要用户修改

Downloader 已有实现根据请求来下载网页，不需要用户修改

Scheduler 已有实现对所有请求进行调度，不需要用户修改

2个中间件

Downloader Middleware: 实施Engine、Scheduler和Downloader之间进行用户可配置的控制。修改、丢弃、新增请求或响应。用户可以编写配置代码，也可以不更改。

Spider Middleware：目的：对请求和爬取项的再处理。功能：修改、丢弃、新增请求或爬取项。用户可以编写配置代码。

Requests vs. Scrapy

相同点：

两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线。

两者可用性都好，文档丰富，入门简单。

两者都没有处理js、提交表单、应对验证码等功能（可扩展）。

不同点：

技术分享图片

非常小的需求，requests

不太小的请求，Scrapy

定制程度很高的需求（不考虑规模），自搭框架，requests>Scrapy。

Scrapy命令行

scrapy -h

Scrapy命令行格式：

scrapy <commad> [options][args]

Scrapy常用命令：

技术分享图片

原文：https://www.cnblogs.com/wangziyan/p/11042286.html

踩

(0)

评论一句话评论（0）

分享档案

更多>