选择距离测试样本最近的k个样本,出现频数最大的样本的类别就是该测试样本的类别。
优点:简单、快速、易于实现;
缺点:计算量大,数据不平衡时预测偏差比较大;
数据不平衡时,距离测试样本最近的k个样本中,可能大数量类别样本最多,这样导致预测错误。
解决:使用权值,近的权值大,远的权值小;
先将样本集按距离进行分组,然后计算出质心,找到离测试样本最近的质心,然后在这个组里面进行KNN算法。
适用于样本容量大的情况。
过小容易过拟合,过大容易欠拟合。一般是选较小的值,采用交叉验证进行调优。
原文:https://www.cnblogs.com/pacino12134/p/11333172.html