特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术

时间：2015-12-05 21:02:14 阅读：273 评论：0 收藏：0 [点我收藏+]

TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF是指在一个文档中出现的词的频率，词的次数初一所有的词数　

而IDF是所有的文档中出现该词的次数越多，则权重就越小。。逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

最后的相关性的计算

，上述相关性计算的公式就由词频的简单求和变成了加权求和，即 TF1*IDF1 +　TF2*IDF2 +... + TFN*IDFN。。

原文：http://www.cnblogs.com/fxd-address/p/5022140.html

踩

(0)

评论一句话评论（0）

分享档案

更多>