首页 > 其他 > 详细

上海外国语大学语料分析工具开发简记

时间:2019-12-20 13:37:44      阅读:92      评论:0      收藏:0      [点我收藏+]

说明

机缘巧合,做了一个语料分析小工具,帮助汉语专业的学生批量导出数据,快速统计谓宾动词占比等,数据来源使用北京语言大学的bbc语料库(目前此语料库已转为北语校内使用,无法从校外访问)。

爬虫

写了一个小爬虫放到了自己服务器上,日夜兼程,将数万条数据存到了自己服务器的数据库里。

  • 爬虫V1.0,简单分页爬取数据,得到数据后存到数据库内;部署后发现若快速访问北语语料库,对方网站很容易500,导致我的爬虫长时间宕机和重复爬取。
  • 爬虫V1.1,设置定时,降低访问频率,添加任务断点和崩溃重启;部署后计算时间,发现需要20个小时才能爬取完成10w条数据,时间太长。
  • 爬虫V2.0,开两个爬虫进程,每个进程开两个线程,爬虫完成或崩溃后发邮件提醒;部署后将爬取时间由20个小时缩减到了5个小时,一觉醒来爬取完毕。

阿里飞冰

第一次使用阿里飞冰组件库,发现很好用,写代码的过程很流畅,构建、打包编译效果都很好,这个脚手架还是很完善的,适合敏捷开发用,组件库的UI效果也很好。

页面截图

技术分享图片
技术分享图片

上海外国语大学语料分析工具开发简记

原文:https://www.cnblogs.com/bbman/p/12072303.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!