首页 > 其他 > 详细

Wikipedia Extractor处理维基百科数据

时间:2021-04-01 23:22:42      阅读:23      评论:0      收藏:0      [点我收藏+]

1. 下载维基百科数据:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

2. 去Github上下载Wikipedia Extractor,直接下载zip即可

3. 解压,进入目录可以看到有一个setup.py

 使用python setup.py install 进行安装

4. 安装后使用wikiextractor -b 3000M -o extracted\ zhwiki-latest-pages-articles.xml.bz2进行处理即可

Wikipedia Extractor处理维基百科数据

原文:https://www.cnblogs.com/dongshuaishuai/p/14607978.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!