首页 > 其他 > 详细

如何提取关键字计算相似度

时间:2014-02-27 13:49:42      阅读:415      评论:0      收藏:0      [点我收藏+]

第一步,计算词频。

bubuko.com,布布扣

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

bubuko.com,布布扣

或者

bubuko.com,布布扣

第二步,计算逆文档频率。

这时,需要一个语料库(corpus),用来模拟语言的使用环境。

bubuko.com,布布扣

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

第三步,计算TF-IDF。

bubuko.com,布布扣

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

如何提取关键字计算相似度,布布扣,bubuko.com

如何提取关键字计算相似度

原文:http://www.cnblogs.com/csxf/p/3569480.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!