首页 > 其他 > 详细

Scrapy 教程(四)-命令

时间:2019-05-17 10:42:36      阅读:179      评论:0      收藏:0      [点我收藏+]

scrapy 没有界面,需要命令行来操作。

 

非常简单,总共也就十四五个命令,分为全局命令和项目命令。

 

全局命令

在哪都能用

 

常用命令

scrapy startproject name    创建项目/工程
scrapy genspider taobao taobao.com    创建爬虫

不太常用

查看爬虫配置/参数  
scrapy settings --get  DOWNLOAD_DELAY    下载延迟
scrapy settings --get  BOT_NAME    爬虫名字


启动爬虫
scrapy runspider scrapy_cn.py        执行爬虫脚本
scrapy crawl  spider    [这个也是启动爬虫,是项目命令,需要创建工程]

下载源码
# 看看有没有异步之类的
scrapy fetch https://hao.360.com/?llqxqd
scrapy fetch https://hao.360.com/?llqxqd >E:/3.html    下载并保存源码(WINDOWS)
scrapy view https://hao.360.com/?llqxqd    下载并直接用浏览器打开

shell 工具
scrapy shell https://hao.360.com/?llqxqd

版本查看
scrapy version

 

项目命令

在项目目录才能用

scrapy crawl  spider         启动爬虫(需要进入app目录)  
scrapy check                   检测爬虫
scrapy list                       显示有多少爬虫(以name为准)

 

技术分享图片

 

命令行参数

为了增强scrapy的灵活性,在命令行中可以设置参数,这使得构建好的爬虫能够执行不同的任务。

 

实例代码

def start_requests(self):
        url = ‘http://lab.scrapyd.cn/‘
        tag = getattr(self, ‘tag‘, None)  # 获取tag值,也就是爬取时传过来的参数
        if tag is not None:          # 判断是否存在tag,若存在,重新构造url
            url = url + ‘tag/‘ + tag     # 构造url若tag=爱情,url= "http://lab.scrapyd.cn/tag/爱情"
        yield scrapy.Request(url, self.parse)  

 

命令行参数设置

scrapy crawl argsSpider -a tag=爱情

 

Scrapy 教程(四)-命令

原文:https://www.cnblogs.com/yanshw/p/10851220.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!