首页 > 其他 > 详细

Scrapy库的安装与使用

时间:2019-06-17 22:36:17      阅读:121      评论:0      收藏:0      [点我收藏+]

安装部分

命令行执行:

安装:  pip install scrapy

安装后小测:  执行scrapy -h

 

Scrapy爬虫框架结构:

爬虫框架:爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合。

 

Scrapy:5+2结构  

5个模块

Spiders 用户编写(配置) 解析Downloader返回的响应,产生爬取项,产生额外的爬取请求。

Item pipelines 用户编写(配置) 以流水线来处理Spider产生的爬取项,可能的操作包括:清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。

Engine 已有实现       控制数据流,触发事件,不需要用户修改

Downloader 已有实现     根据请求来下载网页,不需要用户修改

Scheduler 已有实现    对所有请求进行调度,不需要用户修改

2个中间件

Downloader Middleware: 实施Engine、Scheduler和Downloader之间进行用户可配置的控制。修改、丢弃、新增请求或响应。用户可以编写配置代码,也可以不更改。

Spider Middleware:目的:对请求和爬取项的再处理。功能:修改、丢弃、新增请求或爬取项。用户可以编写配置代码。

 

Requests vs. Scrapy

相同点:

两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线。

两者可用性都好,文档丰富,入门简单。

两者都没有处理js、提交表单、应对验证码等功能(可扩展)。

不同点:

技术分享图片

 非常小的需求,requests

不太小的请求,Scrapy

定制程度很高的需求(不考虑规模),自搭框架,requests>Scrapy。

 

Scrapy命令行

scrapy -h

Scrapy命令行格式:

scrapy <commad> [options][args]

Scrapy常用命令:

技术分享图片

 

Scrapy库的安装与使用

原文:https://www.cnblogs.com/wangziyan/p/11042286.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!