本节内容:
0:数据挖掘的常用方法
1:什么是聚类----聚类是无监督学习
2:聚合和分类的区别---事先定义的类型标记
3:聚类结果的影响有哪些---量纲、行为准则、距离
4:聚类分析的分类--根据x或特征值
5:聚类分析的一般步骤
6:聚类分析的案例
7:聚类的原理--距离和相似度才划分聚类
0:数据挖掘的常用方法
"物以类聚,人以群分"。对事务进行分类,是人们认识事务的出发点,也是人们认识世界的一种重要手段。
无监督学习也称聚类分析,无监督学习源于许多研究领域,受到很多应用的推动。如:
在复杂网络分析中,人们希望发现具有内在紧密联系的社团 在图像分析中,人们希望将图像分割成具有类似性质的区域 在文本处理中,人们希望发现具有相同主题的文本子集 ..... 这些情况都可以在适当的条件下归为聚类分析。
无监督学习和分类不同,没有事先定义的类型标记。
--聚类所说的类不是事先给定的,而是根据数据的相似度和距离来划分
--聚类的数目和结构都没有事先假定
聚类分析的用途:
聚类方法的目的是寻找数据中
【1】潜在的自然分组结构 a structure of "natural" grouping
【2】感兴趣的关系 relationsship
1:量纲(一般我们需要对数据进行标准化)
2:聚类的行为准则
3:距离测度
根据样本的的X进行分类,或者是根据对X的n个特征值进行分类
七、聚类的原理
原理:距离、相似度
明视距离:
相似度:
原文:https://www.cnblogs.com/hero799/p/12080173.html