首页 > 其他 > 详细

机器学习(三十六)— KL散度不对称讨论

时间:2021-06-09 21:24:39      阅读:25      评论:0      收藏:0      [点我收藏+]

问题:如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什么现象?

还是看定义吧。
技术分享图片
直观来说,这是对随机变量的每个取值上,技术分享图片这个值的加权平均。这里加权的权值是技术分享图片 (其实就是算了个期望)。

技术分享图片大的地方,想让KL散度小,我们需要让技术分享图片的值尽量也大;而当技术分享图片本身小的时候,技术分享图片对整个KL的影响却没有那么大(因为log项本身因为分子就很小,再加上乘以了很小的技术分享图片)。直观来说就是,在P的概率密度大的地方,它应该尽量和Q概率密度大的区域保持一致以保证KL散度小,而在P概率密度很小的地方,P和Q的差别对KL的影响很小。

画图来说(懒得画了),就是P高的地方应该和Q的形状尽量一致,但P低的地方就无所谓了。 的解释可能更接近信息论受众的理解,我这里试着给一个概率的理解:
* KL(P||Q) 很大,意味着在P事件大概率时,Q事件不一定有大概率;
* KL(Q||P) 很小,意味着当Q事件有大概率时,P事件同样有大概率。
造成这种现象的一种可能的成因是:Q是造成P的多种原因之一,所以当Q发生时(高概率),P也发生(高概率);而P还有其他的成因,所以当P发生时,Q不一定会发生。当然理解成从属/包含关系也是另一种可行的思路:Q是P的子集,所以Q发生时P一定发生,而P发生时,有可能是P\Q中的某些事件发生了,所以Q不一定发生。

 

参考文献:知乎回答

机器学习(三十六)— KL散度不对称讨论

原文:https://www.cnblogs.com/eilearn/p/14868579.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!