关于随机森林进行多分类的一个思考

时间：2020-11-18 14:48:06 阅读：133 评论：0 收藏：0 [点我收藏+]

机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别输出的类别的众树而定，它有着许多的有点，能很好地处理多分类问题。

基本算法

原始训练集为N，应用bootstrap法有放回的随机抽取k个新的自助样本集，并由构建k棵决策树。每次未被抽到的样本组成了k个袋外数据；
设有M个变量，在每一棵树的每个节点处随机抽取m(m<M)个变量，从m中选择一个最具有分辨能力的变量，变量的阈值通过检查每一个分类点确定。
每棵树最大限度的生长，不做任何修剪（普通的决策树算法需要剪枝）。
将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行判断与分类，其分类结果按决策树分类器的投票决定。

优点

对于很多种资料，它可以产生高准确度的分类器。
它可以处理大量的输入变量。
可以在决定类别时，评估变量的重要性。
它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。
它提供一个实验方法，可以去侦测variable interactions。
对于不平衡的分类资料集来说，它可以平衡误差。
它计算各例中的近亲度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。
它可以延伸应用在未标记的资料上，即使用非监督式聚类方法。也可以侦测偏离者和观看资料。
学习过程速度很快。
能够处理很高维度的数据，并且不用做特征选择。
创建随机森林的时候，对generlization error使用的是无偏估计。
容易扩展到并行方法

缺点

在某些噪音较大的分类或回归问题上会过拟合
对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，也就是说随机森林在这种数据上产生的属性权值是不可信的。

简要描述

随机森林，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵之间是没有关联的，在得到森林之后，当有一个新的输入样本进入的时候，让森林中的每一棵决策树分别进行判断，对其进行分类，最后预测为被选择的最多的那一类。
建立决策树的过程中，需要注意两点：采样与完全分裂。首先是两个随机采样的过程，random forest对输入的数据进行行列的采样；这里的采样，可能存在重复的样本。假设有N个样本，那么采样的样本也为N个，在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。然后进行列采样，从M个feature中选择m（m<M）个,之后就是对采样后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面所有的样本都指向同一个分类。一般很多的决策树算法都有一个很重要的步骤-剪枝，这里不需要这样做，因为之前的两个随机采样的过程保证了随机性，就算不减枝，也不会出现over-fitting。

需要注意的是： 每一棵决策树相对是较弱的，但是将多棵决策树结合起来就十分强大。可以这样比喻随机森林算法：每一棵决策树就是一个精通某一个窄领域的专家（从M个feature中选择m个让每一棵决策树进行学习），这样在随机森林中就有很多个精通不同领域的专家，对一个新的输入数据，可以从不同的角度去分析，最终由各方面的专家进行投票，得到最终结果。

RF、XGB、GBDT、LigthGBM 对缺失值的敏感性；

RF：不敏感，它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度

XGB：不敏感，算法中对缺失值进行了处理，对缺失特征值分裂时，左右节点都分裂，最终看哪个损失更小就分到哪边，所以对缺失值不敏感

GBDT：对缺失值没有对应处理，敏感

ligthGBM: 不敏感，和Xgboost是一样的。每次分割的时候，分别把缺失值放在左右两边各计算一次，然后比较两种情况的增益，择优录取

随机森林做多分类：

自己的理解：

多分类：根据基尼系数最小的分裂原则，看叶子节点中，占比最高的是哪一个类别就分为哪个类别，最后多棵树的分类结果进行投票

回归：均方误差损失最小化原则，就是叶子节点的均值作为回归值，最终多棵树再次求平均

参考：https://wustchuichui.github.io/2016/04/06/Random-forest/

关于随机森林进行多分类的一个思考

原文：https://www.cnblogs.com/Allen-rg/p/13999119.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)