30(1).原型聚类---k-means

时间：2019-11-23 12:13:11 阅读：69 评论：0 收藏：0 [点我收藏+]

原型聚类prototype-based clustering假设聚类结构能通过一组原型刻画。

常见的原型聚类有：

一、k-means算法

1.1 给定样本集$D=\{X_1,X_2,...,X_N \}$，假设一个划分为$C=\{C_1,C_2,...,C_K\}$，定义该划分的平方误差为：

$err=\sum_{k=1}^K \sum_{x=1,X_i \in C_k} ||X_i - u_k||_2^2$，其中$u_k = \frac{1}{|C_k|} \sum_{X_i \in C_k}X_i$是簇$C_k$的均值向量。

$err$刻画了簇类样本围绕簇均值向量的紧密程度，其值越小，则簇内样本相似度越高。

k-means算法的优化目标为：最小化$err$。即：$min_C \sum_{k=1}^K \sum_{X_i \in C_k} ||X_i - u_k||_2^2$

1.2 k-means的优化目标需要考察$D$的所有可能的划分，这是一个NP难的问题。实际上k-means采用贪心策略，通过迭代优化来近似分解。

首先假设一组均值向量。
然后根据假设的均值向量给出了$D$的一个划分。
再根据这个划分来计算真实的均值向量：
1. 如果真实的均值向量等于假设的均值向量，则说明假设正确。根据假设均值向量给出的$D$的一个划分确实是原问题的解。
2. 如果真实的均值向量不等于假设的均值向量，则可以将真实的均值向量作为新的假设均值向量，继续迭代求解。

1.3 给定一组假设的均值向量，如何计算出$D$的一个簇划分？

k-means算法的策略是：样本离哪个簇的均值向量最近，则该样本就划归到那个簇。

1.4 k-means算法：

输入：样本集$D=\{X_1,X_2,...,X_N \}$，聚类簇数$K$

输出：簇划分$C=\{C_1,C_2,...,C_K \}$

算法步骤：

1.5 k-means优点：

1.6 k-means缺点：

1.7 k-means性质

原文：https://www.cnblogs.com/nxf-rabbit75/p/11915779.html

踩

(0)

评论一句话评论（0）

分享档案

更多>