主体思想:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。
给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集。
总量为M的特征向量中,随机选择m个特征,其中m可以等于sqrt(M),然后计算m个特征的增益,选择最优特征(属性)。
计算m个特征的ID3或者C4.5或者基尼系数,然后选择一个最大增益的特征作为划分下一个子节点的走向。
随机选择特征是无放回的选择
优点:
它能够处理很高维度(feature很多)的数据,并且不用做特征选择;
由于随机选择样本导致的每次学习决策树使用不同训练集,所以可以一定程度上避免过拟合;
缺点:
在某些噪音较大的分类或回归问题上会过拟合;
对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的
原文:https://www.cnblogs.com/hapyygril/p/13643854.html