补充知识:在主成分分析过程中,会用到矩阵乘法的结合律。
已知数据集(训练集)
其中:
。
定义目标函数:
问题1:当等于多少时,
最小。
解:针对
求导,并令导数等于零
解得:
___________________________________________________________________________________________________________________________________
我们扩展一下上面的问题,定义以下目标函数:
其中:
,
为已知单位向量,即:
。
问题2:求当等于多少时,
最小。
解:
针对
求导,并令导数等于零。
,
那么:
。
—————————————————————————————————————————————————————————————————————————————
我们接着提出这样的问题,上述的目标函数不变,如果,和
都不可知。
问题3:当等于多少时,
最小。通过问题2,我们已经计算出
。
然后把带入
整理得到:
【穿插一点小知识,可越过阅读,注意:这里出现了一个概念:协方差矩阵,即上式中我用红色标出的那一部分,以下还可以再处理一下协方差矩阵(写成和的形式),便于在Mapreduce思想中处理。我们用符号代表协方差矩阵。即:
因为我们用的是该矩阵的特征向量,除以后,特征向量不变。所以很多书上也可以这样定义协方差矩阵:
】
令最小,那么产生了以下最优化问题:
我们用拉格朗日乘子法解上面的最大值问题 ,定义拉格朗日函数:
针对求导,并令导数等于零:
则:可以得出是
的特征向量,
是
的特征值,且:
因为我们要求最大,所以即要求
最大。那么得出
是对应
的最大特征值的特征向量。完毕
—————————————————————————————————————————————————————————————————————————————
我们继续扩展上面的问题:定义目标函数,
类似于上面的求解过程,只给出结果,过程就不敲了,只给出结论:
,其中
是协方差矩阵的特征值
对应的特征向量,且
。
学习笔记_linux——linux基础,布布扣,bubuko.com
原文:http://blog.csdn.net/q1144658074/article/details/23661165