了解boosting和bagging之前,先了解一下什么是集成学习,三个臭皮匠顶个诸葛亮。在分类的表现上就是,多个弱分类器组合变成强分类器。
bagging:从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果,至于为什么叫bootstrap aggregation,因为它抽取训练样本的时候采用的就是bootstrap的方法!
Bagging代表算法-RF(随机森林)
其中的Random就是指
1.训练样本选择方面的Random:Bootstrap方法随机选择子样本
2.特征选择方面的Random:属性集中随机选择k个属性,每个树节点分裂时,从这随机的k个属性,选择最优的(如何选择最优又有各种最大增益的方法,待查)。
Boosting
核心:Boosting是一种框架算法,用来提高弱分类器准确度的方法,这种方法通过构造一个预测函数序列,然后以一定的方式将他们组合成为一个准确度较高的预测函数,还有就是,Boosting算法更加关注错分的样本,这点和Active Learning的寻找最有价值的训练样本有点遥相呼应的感觉
原文:https://www.cnblogs.com/xinkevinzhang/p/14118596.html