为什么决策树中用熵而不是基尼不纯度来作为划分依据?

  统计/机器学习 特征选择 模型验证    浏览次数: 148
0

决策树通常用熵而不是基尼不纯度来作为划分依据来选择特征,这是为什么?

熵和基尼不纯比有什么明显的优势呢?

 

何立诚   2018-10-15 11:42



   2个回答 
3

熵和基尼相互之间从分类效果上说并没有所谓的优势和劣势,基尼计算起来有优势。

有一篇对它们进行理论比较的文章Theoretical Comparison between the Gini Index and Information Gain Criteria

论文最后的结论是

“We found  that they disagree only in 2%, which explains why most previously published empirical results concluded that it is not  possible to decide which one of the two tests to prefer”

只有2%的情况下,它们两个找到了不同的划分,这也解释了为什么过去的种种实验结果无法判断孰优孰劣了。

SofaSofa数据科学社区 DS面经 问答 实战

蘑菇蘑菇   2018-10-24 13:47

2

并不存在这样的说法。

决策树既可以用熵也可以用基尼,而且本来它们也是很接近的,$p_j$表示样本中标签$j$的占比,样本中一共有$m$中标签,那么

$$\text{熵}=-\sum_{i=1}^m p_j\log p_j$$

$$\text{基尼}=1-\sum_{i=1}^m p^2_j$$

所以我们看出主要的区别就是基尼中把$\log p_j$换成了$p_j$,相比于熵,基尼反而有计算量小的优势(不用算$\log$)。

SofaSofa数据科学社区 DS面经 问答 实战

strong.man   2018-10-16 12:06



  相关主题

随机森林每次用多少个特征?   2回答

对于树模型,需不需要特征筛选   1回答

怎么理解决策树是模型自己在做interaction?   2回答

对于数值特征,决策树是如何决定阈值的?   3回答

随机森林给出的变量的Importance是怎么来的   2回答

gbdt如何对连续特征离散化   1回答

对于组合特征怎么理解?   1回答

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?   1回答

回归树是以什么标准来选特征的?   1回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

partial dependence是什么意思?   1回答

怎么理解随机森林的oob error?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!