这三种算法的主要区别就在于对不纯度的定义不同:
CART算法:Gini指数
ID3算法:熵,熵(entropy)是一种不确定度的度量,在这里也可以用来表示不纯度,不纯度的降低就是熵增益,又叫做信息增益。
但是,单纯只用信息增益来进行划分会出现问题:偏向选择“具有多值属性”的划分,为了解决这个问题,出现了C4.5算法。
C4.5算法:利用信息增益率来代替ID3中的信息增益。
机器学习--决策树
原文:http://www.cnblogs.com/ivywenyuan/p/4372302.html