首页 > 其他 > 详细

迁移学习手册_记录笔记_2_度量准则

时间:2020-05-09 02:18:56      阅读:223      评论:0      收藏:0      [点我收藏+]

4 基础知识

Domain:领域,数据和生成这些数据的概率分布。

Task: 任务,是学习的目标。
任务主要由两部分组成:标签和标签对应的函数。

技术分享图片

思路:相似性是核心,度量准则是重要手段。

常见的几种距离:

  1. 欧式距离:定义在两个向量(空间中的两个点) 上,

    \(d = \sqrt { ( x - y ) ^ { \top } ( x - y ) }\)

  2. 闵可夫斯基距离:两个向量(点)的p 阶距离,

    \(d = \left( \| \mathbf { x } - \mathbf { y } \| ^ { p } \right) ^ { 1 / p }\)

  3. 马氏距离:定义在两个向量(两个点) 上,这两个数据在同一个分布里,

    \(d = \sqrt { ( x - y ) ^ { \top } \Sigma ^ { - 1 } ( x - y ) }\)\(\Sigma\)是这个分布的协方差。

相似度 注意作用的对象!!

  1. 余弦相似度,衡量两个向量的相关性(夹角的余弦),

    \(\cos ( \mathbf { x } , \mathbf { y } ) = \frac { \mathbf { x } \cdot \mathbf { y } } { | \mathbf { x } | \cdot | \mathbf { y } | }\)

  2. 互信息,定义在两个概率分布X, Y上,

    \(I ( X ; Y ) = \sum _ { x \in X } \sum _ { y \in Y } p ( x , y ) \log \frac { p ( x , y ) } { p ( x ) p ( y ) }\)

  3. 皮尔逊相关系数,衡量两个随机变量的相关性。随机变量X, Y的Pearson相关系数为:

    \(\rho _ { X , Y } = \frac { \operatorname { Cov } ( X , Y ) } { \sigma _ { X } \sigma _ { Y } }\)

    理解:协方差矩阵除以标准差之积。
    范围:[-1, 1],绝对值越大表示(正/负)相关性越大。

  4. Jaccard相关系数,对两个集合X, Y ,判断他们的相关性,借用集合的手段:

    \(J = \frac { X \cap Y } { X \cup Y }\)

    理解:两个集合的交集除以并集。
    扩展:Jaccard 距离=1 - J。

KL 散度与 JS 距离

  1. KL散度,相对熵,非对称,衡量两个概率分布 P(x),Q(x) 的距离:

    \(D _ { K L } ( P \| Q ) = \sum _ { i = 1 } P ( x ) \log \frac { P ( x ) } { Q ( x ) }\)

  2. JS距离,对称度量:

    \(J S D ( P \| Q ) = \frac { 1 } { 2 } D _ { K L } ( P \| M ) + \frac { 1 } { 2 } D _ { K L } ( Q \| M )\)

    \(M = \frac { 1 } { 2 }( P + Q )\)

最大均值差异MMD

度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法。两个随机变量的MMD平方距离为:

\(M M D ^ { 2 } ( X , Y ) = \left\| \sum _ { i = 1 } ^ { n _ { 1 } } \phi \left( \mathbf { x } _ { i } \right) - \sum _ { j = 1 } ^ { n _ { 2 } } \phi \left( \mathbf { y } _ { j } \right) \right\| _ { \mathcal { H } } ^ { 2 }\)

就是求两堆数据在RKHS 中的均值的距离。

现在还有多核MMD。

Principal Angle

也是将两个分布映射到高维空间(格拉斯曼流形) 中,在流形中两堆数据就可以看成两个点。Principal angle 是求这两堆数据的对应维度的夹角之和。
对于两个矩阵X, Y,计算方法:首先正交化(用PCA) 两个矩阵,然后:

\(P A ( \mathbf { X } , \mathbf { Y } ) = \sum _ { i = 1 } ^ { \min ( m , n ) } \sin \theta _ { i }\)

A-distance

用来估计不同分布之间的差异性。A-distance 被定义为建立一个线性分类器来区分两个数据领域的hinge 损失(也就是进行二类分类的hinge 损失)。
它的计算方式是,我们首先在源域和目标域上训练一个二分类器h,使得这个分类器可以区分样本是来自于哪一个领域。我们用err(h) 来表示分类器的损失,

\(\mathcal { A } \left( \mathcal { D } _ { s } , \mathcal { D } _ { t } \right) = 2 ( 1 - 2 \operatorname { err } ( h ) )\)

通常被用来计算两个领域数据的相似性程度。

Hilbert-Schmidt Independence Criterion

\(H S I C ( X , Y ) = \operatorname { trace } ( H X H Y )\)

希尔伯特-施密特独立性系数,用来检验两组数据的独立性

Wasserstein Distance

\(W _ { 1 } ( \mathbb { P } , \mathbb { Q } ) = \sup _ { \| f \| _ { L } \leq 1 } \mathbb { E } _ { x \sim \mathbb { P } } [ f ( x ) ] - \mathbb { E } _ { x \sim \mathbb { Q } } [ f ( x ) ]\)

用来衡量两个概率分布之间距离的度量方法。

迁移学习手册_记录笔记_2_度量准则

原文:https://www.cnblogs.com/Wiikk/p/12853515.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!