主成分:假设在三维空间中的一系列数据分布在一个二维平面上,如果使用正常的自然坐标系表示,那么需要三个坐标来表示,但是如果将坐标轴通过变换,使得数据所在的平面与$xOy$平面重合,则可以通过$x‘$,$y‘$两个维度表示原始数据,并且没有任何的损失,如此便完成了数据的降维。
比如,$a_1\left(1,1,2 \right), a_2\left(3,-2,1 \right), a_3\left(2,3,5 \right), a_4\left(5,-1,4 \right)$位于平面$z = x+y$上,如果使用普通坐标系进行表示,则需要$x,y,z$三个坐标轴表示。
但是如果利用坐标轴变换 $x‘ = x$, $y‘ = y-z$, 则可以使用$x‘,y‘$两个坐标轴表示:$a_1‘\left(1,-1 \right), a_2‘\left(3,-3 \right), a_3‘\left(2,-2 \right), a_4‘\left(5,-5 \right)$
主成分分析通过将原始数据映射到一个低维超平面来降低数据的维度。其主要思想源于信号处理领域,即在信号处理领域,认为信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比。信噪比越大意味着数据的质量越好。反之,信噪比越小意味着数据的质量越差。因此,主成分分析方法主要通过将高维数据映射到一个特殊的低维超平面,在此超平面上,数据的方差最大。
原文:https://www.cnblogs.com/wzhao-cn/p/11271164.html