CH3-数据预处理

时间：2020-07-28 21:43:55 阅读：89 评论：0 收藏：0 [点我收藏+]

ch3 数据预处理

好的数据带来好的数据挖掘质量，trash in trash out，没有好的数据，就没有有用的知识。我们用准确性、完整性、一致性、时效性、可信性、可解释性来评估数据质量

数据清洗：填写缺失值、光滑噪声数据、识别离群点，纠正数据的不一致性
数据集成：将来自多个数据源的数据整合成一致的数据，比如A表中生日是1999-01-01,B表中是01-01-1999,那就要进行整合。
数据归约：将数据集进行简化，让信息的损失程度最小。主要包括1、维度规约，减少数据集的维度（PCA）2、数量规约，利用参数（回归、对数）或非参数（直方图、聚类、抽样）方法，只存模型参数而不存放数据3、数据压缩：对数据进行变幻，压缩空间
数据变换：将数据变换成适用于挖掘的形式、例如可以将数据规范化，如规范到[0,1]区间、将数据离散化（把许多数值映射到区间上，比如直方图）。概念分层（用较高层的概念（对于年龄属性，如青年, 中年和老年）替换较低层的概念（如，年龄的数值值））

缺失值：注意缺失不意味着有错误（没有驾照的人当然没有驾照号码），我们要观察属性的空置条件规则

噪声数据：测量中的随机误差和方差、我们用分箱（周围的值进行替换）、回归（利用函数拟合去除误差）、分析离群点。

注意数据集的唯一性规则、连续性规则、空置规则

实体识别问题（两个表中的属性是相同的吗？每个属性的含义、名字、取值范围，空值规则,取值范围等等）：

冗余问题：一个属性（比如年收入），可以被另外的属性推出（月收入），则这个属性可能多余，我们利用相关分析检测

另外还有数值冲突等问题需要考虑，书中没有深入

小波变换：是一种线性信号处理技术，当用于数据向量D 时，将它转换成不同的数值向量小波系数D’。两个向量具有相同的长度。小波变换后的数据可以裁减。仅存放一小部分最强的小波系数，就能保留近似的压缩数据。比较适合高维数据

PCA(主成分分析)：不同的属性有不同的区分度（方差），越重要的属性越能区分物体，更少产生重复。所以属性有好坏。PCA把坐标平面的点向坐标轴投影，相当于降维，投影方向（相当于属性）有好坏。最优情况为最大特征向量。我们使用PCA就是去掉方差较小的属性来降低数据的维度。比较适合稀疏数据

属性子集选择：数据维度太多了，我们可以去找数据的子集，减少数据集的属性，使得结论更容易理解，数据量更小。我们通常利用贪心算法，利用局部最优逼近最优解。

此外还可以利用直方图、聚类、抽样等方法

将数据变换成适用于挖掘的形式

原文：https://www.cnblogs.com/lingxueqian/p/13392671.html

踩

(0)

评论一句话评论（0）

分享档案

更多>