如何提取关键字计算相似度

时间：2014-02-27 13:49:42 阅读：416 评论：0 收藏：0 [点我收藏+]

第一步，计算词频。

bubuko.com,布布扣

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

bubuko.com,布布扣

或者

bubuko.com,布布扣

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

bubuko.com,布布扣

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF。

bubuko.com,布布扣

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

原文：http://www.cnblogs.com/csxf/p/3569480.html

踩

(0)

评论一句话评论（0）

分享档案

更多>