随机森林

时间：2020-09-10 12:54:09 阅读：55 评论：0 收藏：0 [点我收藏+]

主体思想：随机森林利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候投票决定测试样本的最终类别。

给定一个训练样本集，数量为N，我们使用有放回采样到N个样本，构成一个新的训练集。

总量为M的特征向量中，随机选择m个特征，其中m可以等于sqrt(M)，然后计算m个特征的增益，选择最优特征（属性）。

计算m个特征的ID3或者C4.5或者基尼系数，然后选择一个最大增益的特征作为划分下一个子节点的走向。

随机选择特征是无放回的选择

优点：
它能够处理很高维度（feature很多）的数据，并且不用做特征选择；
由于随机选择样本导致的每次学习决策树使用不同训练集，所以可以一定程度上避免过拟合；

缺点：
在某些噪音较大的分类或回归问题上会过拟合；
对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的

原文：https://www.cnblogs.com/hapyygril/p/13643854.html

踩

(0)

评论一句话评论（0）

分享档案

更多>