豆瓣爬虫Scrapy“抄袭”改写

时间：2020-02-28 10:43:27 阅读：731 评论：0 收藏：0 [点我收藏+]

主要是把项目从docker里面扒拉出来，但是扒拉完好像又没有什么用，放在docker里面运行多好。

源码下载
下面主要记一下改动的地方吧。

配置：在database.py中改掉自己的数据库配置。
表结构，直接运行可以通过。代码见链接内容。
异步存储还是不会改。

文件名

把spider中的类名改成和文件名相同，好像不碍事。

代理

settings.py中找到

DOWNLOADER_MIDDLEWARES = {
 'douban.middlewares.ProxyMiddleware': 543,
}

并打开注释；

pipelines.py找到

class ProxyMiddleware(object):
 def process_request(self, request, spider):
     # curl https://m.douban.com/book/subje 大专栏  豆瓣爬虫Scrapy“抄袭”改写ct/26628811/ -x http://127.0.0.1:8081
     request.meta['proxy'] = 'http://127.0.0.1:5010'
     # request.meta['proxy'] = 'http://10.0.0.164:1080'

并将端口号改为5010.

这里的改动主要是因为我比较熟悉jhao104搭建的代理池并且稳定性还不错。

其他的好像只字未改。

目前这样做的好处是我可以自由调用我自己配置好的数据库，并且如果想要重新放入docker中仍然可以这样做。

仍然存在的几点疑问

如果通过start_url获取到更多的URL。
代理究竟是如何工作的？pipelines中的代码好像仅仅是返回了一个地址而已。
数据库的异步存储如何进一步改写。

豆瓣爬虫Scrapy“抄袭”改写

原文：https://www.cnblogs.com/lijianming180/p/12375834.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)