首页 > 其他 > 详细

SpiderTool - pyspider(待续)

时间:2020-03-12 18:17:31      阅读:84      评论:0      收藏:0      [点我收藏+]

准备

  • 安装

    $sudo apt-get install pyspider
  • 报错及处理

    [安装及排错 - pyspider]

  • 启动

    $pyspider
  • 访问

    浏览器访问localhost:5000

  • 创建新项目

    • 右上角Create 按钮
      • Project Name项目名称
      • Start URL启动链接(爬虫项目第一个访问的页面链接)
  • 基础结构

    #!/usr/bin/env python
    # -*- encoding: utf-8 -*-
    # Created on 2020-03-12 16:23:35
    # Project: test
    
    from pyspider.libs.base_handler import *
    
    class Handler(BaseHandler):
        crawl_config = {
        }
    
        @every(minutes=24 * 60)
        def on_start(self):
            self.crawl('http://www.baidu.com', callback=self.index_page)
    
        @config(age=10 * 24 * 60 * 60)
        def index_page(self, response):
            for each in response.doc('a[href^="http"]').items():
                self.crawl(each.attr.href, callback=self.detail_page)
    
        @config(priority=2)
        def detail_page(self, response):
            return {
                "url": response.url,
                "title": response.doc('title').text(),
            }

进阶

待续

SpiderTool - pyspider(待续)

原文:https://www.cnblogs.com/yangjunh/p/SpiderTool-pyspider.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!