首页 > 其他 > 详细

scrapy爬虫框架(三)

时间:2020-02-17 00:39:39      阅读:96      评论:0      收藏:0      [点我收藏+]

scrapy爬虫框架(三)

使用导出器来优化存储方式

使用JsonItemExporter模块

pipelines.py

from scrapy.exporters import JsonItemExporter


class QsbkspiderPipeline(object):
    def __init__(self):  # 初始化方法
        # 使用二进制来写入,因此“w”-->"wb"
        self.fp = open("duanzi2.json", "wb")
        self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
        self.exporter.start_exporting()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def open_spider(self, spider):
        print("爬虫开始了!")

    def close_spider(self, spider):
        self.exporter.finish_exporting()
        self.fp.close()
        print("爬虫结束了!")

技术分享图片

技术分享图片

使用JsonLinesItemExporter模块

区别就在json文件中,同时这种写法语法更少;

from scrapy.exporters import JsonLinesItemExporter


class QsbkspiderPipeline(object):
    def __init__(self):  # 初始化方法
        # 使用二进制来写入,因此“w”-->"wb"
        self.fp = open("duanzi3.json", "wb")
        self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
        # self.exporter.start_exporting()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def open_spider(self, spider):
        print("爬虫开始了!")

    def close_spider(self, spider):
        # self.exporter.finish_exporting()
        self.fp.close()
        print("爬虫结束了!")

技术分享图片

scrapy爬虫框架(三)

原文:https://www.cnblogs.com/senup/p/12319290.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!