scapy模块

时间：2019-09-10 21:17:48 阅读：122 评论：0 收藏：0 [点我收藏+]

scrapy环境安装

- scrapy,pyspider
- 什么是框架?如何学习框架?
- 就是一个集成了各种功能且具有很强通用性(可以被应用在各种不同的需求中)的一个项目模板.
- 我们只需要学习框架中封装好的相关功能的使用即可

- scrapy集成了哪些功能:
- 高性能的数据解析操作,持久化存储操作,高性能的数据下载的操作.....

Linux安装:

　　pip3 install scrapy

- whindows环境的安装:
a. pip3 install wheel

技术分享图片

b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

技术分享图片

c. 进入下载目录，执行 pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl #.whl文件安装需要wheel工具，所以要下载wheel。.whl文件在b哪个网址中

d. pip3 install pywin32

e. pip3 install scrapy

技术分享图片

生成指定名字爬虫文件

技术分享图片

它给我们创建的爬虫文件，里面创建了一个类，文件名加spider为类名。继承的是模块点爬虫类

技术分享图片

开始urls可以放多个url，允许的域名做了限定那么只能访问这个域名下的。因为我们做的是爬虫，爬取很多链接，通常都专属允许的域名。下面还有个解析方法

技术分享图片

- 执行工程:scrapy crawl spiderName

对两个url分别进行请求，每次请求都会调用parse方法，请求的响应数据在response里面。

技术分享图片

爬取之前先请求这个文件，看我们是否有权限爬取

技术分享图片

原文：https://www.cnblogs.com/machangwei-8/p/11502604.html

踩

(0)

评论一句话评论（0）

分享档案

更多>