Principal Component Analysis

时间：2020-05-07 17:00:04 阅读：52 评论：0 收藏：0 [点我收藏+]

原创转载请注明出处：https://www.cnblogs.com/agilestyle/p/12844059.html

主成分分析算法

主成分分析利用正交变换将可能存在相关性的原始属性转换成一组线性无关的新属性，并通过选择重要的新属性实现降维。

为什么降维

在机器学习中数据被表示为向量当数据的维度很小时，可以直接对数据进行分析和挖掘，但是在实际操作，数据的维数可能是上万维，甚至几十万维，这时候机器学习的资源消耗是不可接受的。再者，数据的特征中往往有重叠的部分，或者线性相关的部分；因此，需要找到一种合理的方法，在减少需要分析的指标的同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。

根据凡事抓主要矛盾的原则，对举足轻重的属性要给予足够的重视，无关紧要的属性则可以忽略不计，这在机器学习中就体现为降维的操作。

数据降维

降维就是一种对高维度特征数据的预处理方法。
降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。
在实际的生产和应用中，降维在一定的信息损失范围内，可以节省大量的时间和成本。
降维也成为应用非常广泛的数据预处理方法。
降维也有助于实现数据可视化。

主成分分析是一种主要的降维方法，它利用正交变换将一组可能存在相关性的变量转换成一组线性无关的变量，这些线性无关的变量就是主成分。多属性的大样本无疑能够提供更加丰富的信息，但也不可避免地增加了数据处理的工作量。更重要的是，多数情况下不同属性之间会存在相互依赖的关系，如果能够充分挖掘属性之间的相关性，属性空间的维度就可以降低。

在现实生活中少不了统计个人信息的场合，而在个人信息的表格里通常会包括“学历”和“学位”两个表项。因为学位和学历代表着两个独立的过程，因此单独列出是没有问题的。但在我国现行的惯例下，这两者通常会一并取得。两者之间的相关性足以让我们根据一个属性的取值去推测另一个属性的取值，因此只要保留其中一个就够了。

但这样的推测也不是永远准确。如果毕业论文的答辩没有通过，就会出现只有学历而没有学位的情形；对于在职研究生来说，只有学位没有学历的情形也不稀奇。这说明如果将学历和学位完全等同，就会在这些特例上出现错误，也就意味着信息的损失。这是降维操作不可避免的代价。

以上的例子只是简单的定性描述，说明了降维的出发点和可行性。在实际的数据操作中，主成分分析解决的就是确定以何种标准确定属性的保留还是丢弃，以及度量降维之后的信息损失。

主成分分析步骤

数据规范化：对 m 个样本的相同属性值求出算术平均数，再用原始数据减去平均数，得到规范化后的数据；
协方差矩阵计算：对规范化后的新样本计算不同属性之间的协方差矩阵，如果每个样本有 n 个属性，得到的协方差矩阵就是 n 维方阵；
特征值分解：求解协方差矩阵的特征值和特征向量，并将特征向量归一化为单位向量；
降维处理：将特征值按照降序排序，保留其中最大的 k 个，再将其对应的 k 个特征向量分别作为列向量组成特征向量矩阵；
数据投影：将减去均值后的 m×n 维数据矩阵和由 k 个特征向量组成的 n×k 维特征向量矩阵相乘，得到的 m×k 维矩阵就是原始数据的投影。

经过这几步简单的数学运算后，原始的 n 维特征就被映射到新的 k 维特征之上。这些相互正交的新特征就是主成分。需要注意的是，主成分分析中降维的实现并不是简单地在原始特征中选择一些保留，而是利用原始特征之间的相关性重新构造出新的特征；降维不是删除维度；主成分分析是将高维的数据通过线性变换投影到低维空间。

Reference

https://time.geekbang.org/column/article/2197

Principal Component Analysis

原文：https://www.cnblogs.com/agilestyle/p/12844059.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)