决策树算法ID3,C4.5和CART的特点、异同?

  统计/机器学习 监督式学习
1

决策树主要的三种算法,ID3、C4.5和CART。

它们有哪些明显的异同和特点呢?

谢谢!


 

panling   2017-11-22 13:24



   2个回答 
4

ID3 :信息增益Information Gain作为特征选取指标,多叉树,特征必须离散变量。 

C4.5 :也以信息增益率作为特征选取指标,多叉树,特征也可以是连续变量。

CART: 以基尼系数gini index作为特征选取指标,二叉树,可用于分类,此外也可以用于回归。


WinJ   2017-11-24 10:51

CART是基尼系数gini index吗?难道不是gini imprurity - ljljlj   2017-12-10 07:09
1

ID3奠定了决策树的理论基础,采用信息增益作为标准,但性能不好、计算消耗大,而且仅适用于分类标签,过拟合情况也严重 。

信息增益的计算中,熵仅作为减数进行加减计算,计算结果的偏差比较大 。


C4.5改进为采用增益率,性能消耗有所减小,可以适用于连续标签,但是过拟合情况还是有 。信息增益率的计算中,熵不仅作为减数进行加减计算,还作为分母,因此计算结果实质上更多考虑熵的作用,偏差相对较小。


CART进一步改进使用基尼(不纯性),应用更广,不仅可用于决策树,还可以用于回归,实践中在此基础上的优化更多。CART在python的机器学习标准包sklearn里已经被实现。


AlphaCat   2017-12-03 13:04



相关问题

Gradient tree boosting和random forest (随机森林) 有什么区别和联系   1回答

剪枝是什么意思   1回答

决策树是如何得到量化的概率,不只是0或1的标签?   2回答

决策树可以做多元分类吗?   1回答

随机森林(random forest)和支持向量机(SVM)各有什么优劣   1回答

决策树剪枝有什么策略或者注意事项?   0回答

决策树的熵是什么?怎么用熵来选分叉?   1回答

Extra Tree算法   1回答

python sklean中的决策树是用的哪一种决策树算法?   1回答

python里实现一个简单的决策树   1回答

随机森林如何调参?   3回答

sklearn随机森林设置每棵树的权重   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!