python抓取知识星球精选帖,制作为pdf文件

时间：2019-05-11 18:35:06 阅读：168 评论：0 收藏：0 [点我收藏+]

本文同步自http://javaexception.com/archives/90

背景:

这两年知识付费越来越热，我也加入了不少知识星球，总觉得信息有些过载了。一天不看，就有500+的内容显示未读，弄的自己格外的焦虑。感觉这样非常不好，就想要找办法解决,比如把精华帖抓取下来制作成pdf文件，这样自己随时可以翻阅，或者拿出整块的时间阅读，不用担心遗漏。记得年初的时候做过一番尝试，在Github上看到几个不错的项目，关于抓取知识星球帖子内容的开源项目，测试了几个，选中了一个非常不错的项目，当然了自己对这个项目的代码做了一点点小调整，fork了一份，地址是https://github.com/xingstarx/crawl-zsxq。

解决办法:

由于知识星球官方对反爬比较严，有一些反制手段，这个项目的代码也需要不断的迭代更新，这是一个攻防对抗的过程。

具体如何执行就不讲了，可以看这个项目的readme。按照上面的描述，准备python环境，以及相关的依赖，然后修改对应的header里面的关键参数，那么就可以将程序跑起来了。

常见的问题:

这里额外说一下程序跑起来的过程中，会碰到的一些问题。

1.header信息修改的有问题，这块可以通过chrome浏览器的开发者工具解决，或者是charles抓包工具解决，不懂的可以google下

2.执行crawl.py的时候，如果提示ssl等之类的问题，那么关掉charles之类的抓包工具

3.如果爬取的文件特别多，特别大，几百上千个文件，还包含图片的，这种最好分步骤操作，比如先把html下载下来，接着分为3-5部分，每次取出1/3或者1/5的量执行make_pdf函数，这个可能需要修改下代码，可以参考https://github.com/xingstarx/crawl-zsxq/issues/1。

另外这个开源项目是为了方便自己的，还是不要用于盗版，作恶可不好，还是多尊重知识，尊重版权啊。

项目地址:

https://github.com/xingstarx/crawl-zsxq

python抓取知识星球精选帖,制作为pdf文件

原文：https://www.cnblogs.com/xing-star/p/10849441.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)