首页 > 其他 > 详细

水木社区爬虫项目介绍

时间:2018-11-30 23:24:07      阅读:251      评论:0      收藏:0      [点我收藏+]

1、 爬虫

1、 用urllib.request库请求一个url的内容。
2、 用 beautifulsoup解析request库请求得到的内容。
3、 在网页上右键-检查,阅读html代码,归纳出想爬到信息属于html树形结构的哪一部分。
4、 用beautifulsoup的next_element.next_sibling等方法定位到想要的文本。
5、 把beatuifulsoup对象中想要的部分写入文件中。

2、 分词

1、 把文件按时间手动切分成几个。
2、 用正则表达式过滤出中文。
3、 用jieba分词。
4、 记录词频。
5、 用停用词表去除停用词。
6、选出top100.

水木社区爬虫项目介绍

原文:https://www.cnblogs.com/gaoyb348/p/10046822.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!