还是看定义吧。
直观来说,这是对随机变量的每个取值上,这个值的加权平均。这里加权的权值是
(其实就是算了个期望)。
在大的地方,想让KL散度小,我们需要让
的值尽量也大;而当
本身小的时候,
对整个KL的影响却没有那么大(因为log项本身因为分子就很小,再加上乘以了很小的
)。直观来说就是,在P的概率密度大的地方,它应该尽量和Q概率密度大的区域保持一致以保证KL散度小,而在P概率密度很小的地方,P和Q的差别对KL的影响很小。
参考文献:知乎回答
原文:https://www.cnblogs.com/eilearn/p/14868579.html