好的数据带来好的数据挖掘质量,trash in trash out,没有好的数据,就没有有用的知识。我们用准确性、完整性、一致性、时效性、可信性、可解释性来评估数据质量
数据清洗:填写缺失值、光滑噪声数据、识别离群点,纠正数据的不一致性
数据集成:将来自多个数据源的数据整合成一致的数据,比如A表中生日是1999-01-01,B表中是01-01-1999,那就要进行整合。
数据归约:将数据集进行简化,让信息的损失程度最小。主要包括1、维度规约,减少数据集的维度(PCA)2、数量规约,利用参数(回归、对数)或非参数(直方图、聚类、抽样)方法,只存模型参数而不存放数据3、数据压缩:对数据进行变幻,压缩空间
数据变换:将数据变换成适用于挖掘的形式、例如可以将数据规范化,如规范到[0,1]区间、将数据离散化(把许多数值映射到区间上,比如直方图)。概念分层(用较高层的概念(对于年龄属性,如青年, 中年和老年)替换较低层的概念(如,年龄的数值值))
缺失值:注意缺失不意味着有错误(没有驾照的人当然没有驾照号码),我们要观察属性的空置条件规则
噪声数据:测量中的随机误差和方差、我们用分箱(周围的值进行替换)、回归(利用函数拟合去除误差)、分析离群点。
注意数据集的唯一性规则、连续性规则、空置规则
实体识别问题(两个表中的属性是相同的吗?每个属性的含义、名字、取值范围,空值规则,取值范围等等):
冗余问题:一个属性(比如年收入),可以被另外的属性推出(月收入),则这个属性可能多余,我们利用相关分析检测
标称数据:卡方检验((假设检验)反证法、假设A和B独立,如果卡方大于拒绝假设的值,则二者有相关性)
数值数据:相关系数
另外还有数值冲突等问题需要考虑,书中没有深入
维度规约
数量规约
数据压缩
小波变换:是一种线性信号处理技术,当用于数据向量D 时,将它转换成不同的数值向量小波系数D’。两个向量具有相同的长度。小波变换后的数据可以裁减。仅存放一小部分最强的小波系数,就能保留近似的压缩数据。比较适合高维数据
PCA(主成分分析):不同的属性有不同的区分度(方差),越重要的属性越能区分物体,更少产生重复。所以属性有好坏。PCA把坐标平面的点向坐标轴投影,相当于降维,投影方向(相当于属性)有好坏。最优情况为最大特征向量。我们使用PCA就是去掉方差较小的属性来降低数据的维度。比较适合稀疏数据
属性子集选择:数据维度太多了,我们可以去找数据的子集,减少数据集的属性,使得结论更容易理解,数据量更小。我们通常利用贪心算法,利用局部最优逼近最优解。
逐步向前选择:该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每一次迭代,将原属性集剩下的属性中的最好的属性添加到该集合中。
逐步向后删除:该过程由整个属性集开始。在每一步,删除掉尚在属性集中的最坏属性。
向前选择和向后删除的结合:向前选择和向后删除方法可以结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
决策树:利用决策树算法:把前面三步规约后的属性集放在决策树上,将数据导入,划分成类。
此外还可以利用直方图、聚类、抽样等方法
将数据变换成适用于挖掘的形式
规范化:没有最大最小值时,可以用z-scroe
原文:https://www.cnblogs.com/lingxueqian/p/13392671.html