首页 > 其他 > 详细

CH3-数据预处理

时间:2020-07-28 21:43:55      阅读:89      评论:0      收藏:0      [点我收藏+]

ch3 数据预处理

为什么要进行数据预处理:

好的数据带来好的数据挖掘质量,trash in trash out,没有好的数据,就没有有用的知识。我们用准确性、完整性、一致性、时效性、可信性、可解释性来评估数据质量

数据预处理主要任务

  1. 数据清洗:填写缺失值、光滑噪声数据、识别离群点,纠正数据的不一致性

  2. 数据集成:将来自多个数据源的数据整合成一致的数据,比如A表中生日是1999-01-01,B表中是01-01-1999,那就要进行整合。

  3. 数据归约:将数据集进行简化,让信息的损失程度最小。主要包括1、维度规约,减少数据集的维度(PCA)2、数量规约,利用参数(回归、对数)或非参数(直方图、聚类、抽样)方法,只存模型参数而不存放数据3、数据压缩:对数据进行变幻,压缩空间

  4. 数据变换:将数据变换成适用于挖掘的形式、例如可以将数据规范化,如规范到[0,1]区间、将数据离散化(把许多数值映射到区间上,比如直方图)。概念分层(用较高层的概念(对于年龄属性,如青年, 中年和老年)替换较低层的概念(如,年龄的数值值))

数据清洗

缺失值:注意缺失不意味着有错误(没有驾照的人当然没有驾照号码),我们要观察属性的空置条件规则

噪声数据:测量中的随机误差和方差、我们用分箱(周围的值进行替换)、回归(利用函数拟合去除误差)、分析离群点。

注意数据集的唯一性规则、连续性规则、空置规则

数据集成

实体识别问题(两个表中的属性是相同的吗?每个属性的含义、名字、取值范围,空值规则,取值范围等等):

冗余问题:一个属性(比如年收入),可以被另外的属性推出(月收入),则这个属性可能多余,我们利用相关分析检测

  • 标称数据:卡方检验((假设检验)反证法、假设A和B独立,如果卡方大于拒绝假设的值,则二者有相关性)

  • 数值数据:相关系数

另外还有数值冲突等问题需要考虑,书中没有深入

数据规约

  • 维度规约

  • 数量规约

  • 数据压缩

小波变换:是一种线性信号处理技术,当用于数据向量D 时,将它转换成不同的数值向量小波系数D’。两个向量具有相同的长度。小波变换后的数据可以裁减。仅存放一小部分最强的小波系数,就能保留近似的压缩数据。比较适合高维数据

PCA(主成分分析):不同的属性有不同的区分度(方差),越重要的属性越能区分物体,更少产生重复。所以属性有好坏。PCA把坐标平面的点向坐标轴投影,相当于降维,投影方向(相当于属性)有好坏。最优情况为最大特征向量。我们使用PCA就是去掉方差较小的属性来降低数据的维度。比较适合稀疏数据

属性子集选择:数据维度太多了,我们可以去找数据的子集,减少数据集的属性,使得结论更容易理解,数据量更小。我们通常利用贪心算法,利用局部最优逼近最优解。

  1. 逐步向前选择:该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每一次迭代,将原属性集剩下的属性中的最好的属性添加到该集合中。

  1. 逐步向后删除:该过程由整个属性集开始。在每一步,删除掉尚在属性集中的最坏属性。

  1. 向前选择和向后删除的结合:向前选择和向后删除方法可以结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。

  2. 决策树:利用决策树算法:把前面三步规约后的属性集放在决策树上,将数据导入,划分成类。

此外还可以利用直方图、聚类、抽样等方法

数据变换

将数据变换成适用于挖掘的形式

  • 规范化:没有最大最小值时,可以用z-scroe

  • 概念分层:利用数值个数尽心概念分层不一定正确

CH3-数据预处理

原文:https://www.cnblogs.com/lingxueqian/p/13392671.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!