决策树算法ID3,C4.5和CART的特点、异同?

  统计/机器学习 监督式学习    浏览次数:1960        分享
2

决策树主要的三种算法,ID3、C4.5和CART。

它们有哪些明显的异同和特点呢?

谢谢!


 

panling   2017-11-22 13:24



   3个回答 
7

ID3 :信息增益Information Gain作为特征选取指标,多叉树,特征必须离散变量。 

C4.5 :也以信息增益率作为特征选取指标,多叉树,特征也可以是连续变量。

CART: 以基尼系数gini index作为特征选取指标,二叉树,可用于分类,此外也可以用于回归。


SofaSofa数据科学社区DS面试题库 DS面经

WinJ   2017-11-24 10:51

CART是基尼系数gini index吗?难道不是gini imprurity - ljljlj   2017-12-10 07:09
gini系数是gini coefficient,index一般指的是impurity。不过不管怎么说,CART用的是gini impurity。 - 蓝色北方   2017-12-14 10:42
5

ID3奠定了决策树的理论基础,采用信息增益作为标准,但性能不好、计算消耗大,而且仅适用于分类标签,过拟合情况也严重 。

信息增益的计算中,熵仅作为减数进行加减计算,计算结果的偏差比较大 。


C4.5改进为采用增益率,性能消耗有所减小,可以适用于连续标签,但是过拟合情况还是有 。信息增益率的计算中,熵不仅作为减数进行加减计算,还作为分母,因此计算结果实质上更多考虑熵的作用,偏差相对较小。


CART进一步改进使用基尼(不纯性),应用更广,不仅可用于决策树,还可以用于回归,实践中在此基础上的优化更多。CART在python的机器学习标准包sklearn里已经被实现。


SofaSofa数据科学社区DS面试题库 DS面经

AlphaCat   2017-12-03 13:04

1

CART可以用来做回归、也可以用来做分类。但是ID3,C4.5不行。

CART必须是二叉树。ID3和C4.5可以是多叉树。


SofaSofa数据科学社区DS面试题库 DS面经

曾经是科比   2018-02-09 12:42



  相关主题

Extra Tree算法   1回答

python里实现一个简单的决策树   1回答

gbdt为什么需要泰勒公式展开进行节点分裂计算   2回答

怎么得到randomforestregressor里每棵树的预测结果?   1回答

如果采用非等权重的方法集成一个随机森林,会表现得更好嘛?   1回答

怎么理解RandomForest中的max_features?   1回答

python sklean中的决策树是用的哪一种决策树算法?   2回答

决策树的深度和数据特征个数的关系   1回答

随机森林回归   1回答

为什么随机森林比决策树更robust?   1回答

怎么理解随机森林的oob error?   2回答

随机森林警告:A column-vector y was passed when a 1d array was expected   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!