首页 > 其他 > 详细

随机森林

时间:2020-09-10 12:54:09      阅读:55      评论:0      收藏:0      [点我收藏+]

 

主体思想:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。

1. 随机选择样本

给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集。

2. 随机选择特征

总量为M的特征向量中,随机选择m个特征,其中m可以等于sqrt(M),然后计算m个特征的增益,选择最优特征(属性)。

计算m个特征的ID3或者C4.5或者基尼系数,然后选择一个最大增益的特征作为划分下一个子节点的走向。

随机选择特征是无放回的选择

 

优点:
它能够处理很高维度(feature很多)的数据,并且不用做特征选择;
由于随机选择样本导致的每次学习决策树使用不同训练集,所以可以一定程度上避免过拟合

缺点:
在某些噪音较大的分类或回归问题上会过拟合;
对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的







随机森林

原文:https://www.cnblogs.com/hapyygril/p/13643854.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!