首页 > 其他 > 详细

IG/CHI/MI

时间:2020-01-04 12:32:34      阅读:104      评论:0      收藏:0      [点我收藏+]

1. IG(Information Gain,信息增益)

  信息增益,某个特征技术分享图片的信息增益就是指有该特征和没有该特征时,为整个分类系统所能提供的信息量的差别,即信息增益就是不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值。

技术分享图片

其中技术分享图片表示技术分享图片类文档在语料中出现的概率,技术分享图片表示语料中包含特征技术分享图片的文档的概率,技术分享图片表示文档包含特征技术分享图片时属于技术分享图片类的条件概率,技术分享图片表示语料中不包含特征技术分享图片的文档的概率,技术分享图片表示文档不包含特征技术分享图片时属于技术分享图片类的条件概率,技术分享图片是类别数。

可以看出,一个特征的信息增益其实就是有无该特征时它对整个分类系统的重要度,值越高说明该特征越重要。

2. CHI(技术分享图片统计量,卡方检验)

  卡方检验是用来衡量观察实际值技术分享图片和理论值技术分享图片的差异程度,如果大到一定程度,就认为不太可能是偶然或者策略不准确产生的,也就是说两者实际是相关的。在这儿,衡量的是特征技术分享图片和类别技术分享图片的相关联程度。我们假设技术分享图片为语料中的文档总数,技术分享图片表示属于技术分享图片类且包含特征的文档频率,技术分享图片表示不属于技术分享图片类且但包含特征技术分享图片的文档频率,技术分享图片表示属于类但不包含特征技术分享图片的文档频率,技术分享图片是既不属于类也不包含技术分享图片的文档频率,那么

技术分享图片

对于全局来说,有如下两种计算方式

技术分享图片

技术分享图片

可以看出,某个特征技术分享图片的CHI值越大,说明它与该类技术分享图片越相关。

3. MI(Mutial Information)

  互信息在这里就是计算特征技术分享图片和类别技术分享图片之间的互信息。

技术分享图片

对于全局来说,同样有如两种计算方式

 技术分享图片

技术分享图片

符号含义同上,可以看出,互信息越大,特征技术分享图片和类别技术分享图片之间的共现程度就越大。

4. 参考文献

  《文本上的算法》

IG/CHI/MI

原文:https://www.cnblogs.com/LuckPsyduck/p/12148099.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!