首页 > 其他 > 详细

KNN

时间:2019-08-11 01:30:45      阅读:108      评论:0      收藏:0      [点我收藏+]

一、原理

选择距离测试样本最近的k个样本,出现频数最大的样本的类别就是该测试样本的类别。

二、优缺点

优点:简单、快速、易于实现;

缺点:计算量大,数据不平衡时预测偏差比较大;

三、不平衡问题怎么解决?

数据不平衡时,距离测试样本最近的k个样本中,可能大数量类别样本最多,这样导致预测错误。

解决:使用权值,近的权值大,远的权值小;

四、计算量大怎么解决?

先将样本集按距离进行分组,然后计算出质心,找到离测试样本最近的质心,然后在这个组里面进行KNN算法。

适用于样本容量大的情况。

五、K是如何选取的?

过小容易过拟合,过大容易欠拟合。一般是选较小的值,采用交叉验证进行调优。

 

KNN

原文:https://www.cnblogs.com/pacino12134/p/11333172.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!