首页 > 其他 > 详细

【Scrapy(一)】 Scrapy爬虫的基础执行流程

时间:2020-09-19 18:37:25      阅读:56      评论:0      收藏:0      [点我收藏+]

技术分享图片

 

 

 

 技术分享图片

 

 

技术分享图片

 

 

 

技术分享图片

 

 

 

安装scrapy模块 :

  pip install scrapy 

创建scrapy项目

  1.scrapy startprojecty 项目名称 

  注意:如果创建失败,可以先卸载原有的scrapy模块,使用pip3 intall scrapy 进行安装

      技术分享图片

  技术分享图片

 

  2.生成一个爬虫

  scrapy genspider 爬虫名 要爬取的域名    eg: scrapy genspider itcast  itcast.cn 

  如下图:

  技术分享图片

 

 

   技术分享图片

 

 

 

  3.启动爬虫 scrapy crawl itcast 

    注意:启动爬虫的位置是在项目目录中 ,也就是在如下图

  技术分享图片

 

 

 

   

 注意事项:

  1.爬虫中定义的parse()方法和Pipline中定义的 process_item()方法的方法名不能修改

  技术分享图片

 

 

   技术分享图片

 

 

   2.Pipline中的return 返回值是将数据传递给下一个Pipline,如果取消return 关键字,则下一个Pipline接受到的数据为None

  技术分享图片

 

 

   3.可以定义多个Pipline,多个Pipline的执行循序在settings.py文件中配置     ,配置的数字越小,Pipline越先执行

       技术分享图片  

       技术分享图片      4. yield 不能传递列表 只能传递Reqeust BaseItem dict None (原因,传递列表意义不大,数据一次性加载到内存,占用内存较高)

  技术分享图片

 

 

 

   

  

【Scrapy(一)】 Scrapy爬虫的基础执行流程

原文:https://www.cnblogs.com/july-sunny/p/13697144.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!