机器学习（三十六）— KL散度不对称讨论

时间：2021-06-09 21:24:39 阅读：31 评论：0 收藏：0 [点我收藏+]

问题：如果分布P和Q，KL(P||Q)很大而KL(Q||P)很小表示什么现象？

还是看定义吧。
$技术分享图片$
直观来说，这是对随机变量的每个取值上， $技术分享图片$ 这个值的加权平均。这里加权的权值是 $技术分享图片$ （其实就是算了个期望）。

在 $技术分享图片$ 大的地方，想让KL散度小，我们需要让 $技术分享图片$ 的值尽量也大；而当 $技术分享图片$ 本身小的时候， $技术分享图片$ 对整个KL的影响却没有那么大（因为log项本身因为分子就很小，再加上乘以了很小的 $技术分享图片$ ）。直观来说就是，在P的概率密度大的地方，它应该尽量和Q概率密度大的区域保持一致以保证KL散度小，而在P概率密度很小的地方，P和Q的差别对KL的影响很小。

画图来说（懒得画了），就是P高的地方应该和Q的形状尽量一致，但P低的地方就无所谓了。的解释可能更接近信息论受众的理解，我这里试着给一个概率的理解：
* KL(P||Q) 很大，意味着在P事件大概率时，Q事件不一定有大概率；
* KL(Q||P) 很小，意味着当Q事件有大概率时，P事件同样有大概率。
造成这种现象的一种可能的成因是：Q是造成P的多种原因之一，所以当Q发生时（高概率），P也发生（高概率）；而P还有其他的成因，所以当P发生时，Q不一定会发生。当然理解成从属/包含关系也是另一种可行的思路：Q是P的子集，所以Q发生时P一定发生，而P发生时，有可能是P\Q中的某些事件发生了，所以Q不一定发生。

参考文献：知乎回答

机器学习（三十六）— KL散度不对称讨论

原文：https://www.cnblogs.com/eilearn/p/14868579.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)