首页 > 其他 > 详细

[爬虫框架scrapy]爬虫文件的创建

时间:2020-05-24 16:44:41      阅读:49      评论:0      收藏:0      [点我收藏+]

新建爬虫项目非常有必要,虽然可以自己手动创建但还是最好用官方推荐的方法来新建爬虫

  1. 终端输入scrapy -h查看scrapy 命令的用法
  2. 技术分享图片
  3. 输入scrapy startproject Youspider 新建一个爬虫
  4. 技术分享图片
  5. 可以看到下一步该干嘛scrapy 都帮你提示好了
  6. 终端输入cd Youspider
  7. 在这目录下创建爬虫文件,注意爬虫名不可与爬虫项目同名且该名字是唯一的
  8. 终端输入scrapy genspider youspider www.baidu.com
  9. 创建成功,youspider为爬虫名字,www.baidu.com为要爬取网站的域名

技术分享图片

用pycharm可以看到爬虫文件如上

  1. youspider为爬虫文件,我们大部分时间都会编辑这个文件
  2. items为定义结构化数据,我们定义要爬取的字段
  3. middlewares为中间件,我们一般会在这里修改请求头,代理ip,cookie等
  4. pipelines为管道文件,爬虫会返回要爬取的数据,交给管道处理要爬取的数据
  5. setting为配置文件,控制爬虫线程数,爬取速度,定义全局请求头,开启中间件,开启管道,开启扩展等
  6. scrapy.cfg这个在部署爬虫时会用到

[爬虫框架scrapy]爬虫文件的创建

原文:https://www.cnblogs.com/liangritian/p/12951174.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!