首页 > 其他 > 详细

scrapy项目架构与配置文件

时间:2020-04-10 19:20:17      阅读:78      评论:0      收藏:0      [点我收藏+]

scrapy项目架构

-project   # 项目名
  -project # 跟项目一个名,文件夹
    -spiders    # spiders:放着爬虫  genspider生成的爬虫,都放在这下面
      -__init__.py
      -chouti.py # 抽屉爬虫
      -cnblogs.py # cnblogs 爬虫
    -items.py     # 类似django中的models.py文件 ,里面写一个个的模型类
    -middlewares.py  # 中间件(爬虫中间件,下载中间件),中间件写在这
    -pipelines.py   # 写持久化的地方(持久化到文件,mysql,redis,mongodb)
    -settings.py    # 配置文件
  -scrapy.cfg       # Scrapy 上线部署时的配置文件

scrapy配置文件

settings.py

# 是否遵循爬虫协议,强行运行
ROBOTSTXT_OBEY = False   

# 请求头中的USER_AGENT
USER_AGENT = Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36
    
# 这样配置,程序错误信息才会打印,
LOG_LEVEL=ERROR 

爬虫程序文件

class ChoutiSpider(scrapy.Spider):
    name = chouti   # 它是每个爬虫程序唯一的名字,用来区分不同的Spider
    allowed_domains = [https://dig.chouti.com/]  # 允许爬取的域名
    start_urls = [https://dig.chouti.com/]   # 起始爬取的位置,爬虫一启动,会先向它发请求

    def parse(self, response):  # 解析response对象,响应回来自动执行parser,在这个方法中做解析
        print(---------------------------,response)

 

scrapy项目架构与配置文件

原文:https://www.cnblogs.com/baohanblog/p/12675200.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!