如果向量 \(\vec{v}\) 是方阵 \(A\) 的特征向量,那么有:
\[
A\nu = \lambda \nu
\]
\(\lambda\)为特征向量\(\vec{v}\)对应的特征值。特征值分解是将一个矩阵分解为如下形式:
\[
A=Q\sum Q^{-1}
\]
其中,\(Q\) 是这个矩阵 \(A\) 的特征向量组成的矩阵,\(\sum\) 是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵 \(A\) 的信息可以由其特征值和特征向量表示。
将矩阵 \(A\) 的转置乘以 \(A\) ,并对 \(AA^T\) 求特征值,有如下形式:
\[ (A^TA)V = \lambda V \]
这里\(V\)就是上面的右奇异向量,另外还有:
\[
\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i
\]
这里的 \(\sigma\) 就是奇异值,\(u\) 就是上面说的左奇异向量。奇异值 \(\sigma\) 跟特征值类似,在矩阵 \(\sum\) 中也是从大到小排列。
\(\sigma\) 的减少特别的快,在很多情况下,前 \(10\%\) 甚至 \(1\%\) 的奇异值的和就占了全部的奇异值之和的 \(99\%\) 以上了。也就是说,我们也可以用前 \(r\)( \(r\) 远小于 \(m、n\) )个的奇异值来近似描述矩阵,即部分奇异值分解:
\[
A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T
\]
右边的三个矩阵相乘的结果将会是一个接近于 \(A\) 的矩阵,在这儿,\(r\) 越接近于 \(n\) ,则相乘的结果越接近于 \(A\) 。
原文:https://www.cnblogs.com/solvit/p/11362903.html