Gini指数、Gini系数、Gini不纯是一回事吗?

  统计/机器学习 监督式学习 开放问题 损失函数    浏览次数:11552        分享
2

Gini指数(Gini index)、Gini系数(Gini coefficient)、Gini不纯(Gini impurity)是一回事吗?

决策树算法CART中用的是哪一个?

经常搞不清楚这三者,还有经济学中的基尼系数,它和这三个又有什么关系?


 

花生糖   2017-12-28 23:10



   2个回答 
10

决策树算法CART中用的是哪一个?

用的是Gini impurity,也就是基尼不纯。


Gini impuirty是什么?

假设这个数据集里有$k$种不同标签,第$i$个标签所占的比重为$p_i$,那么Gini impurity为

$$1-\sum_{i=1}^k p^2_i,$$

它描述了一个数据集中标签分布的纯度,类似于entropy。


Gini coefficient是什么?

Gini coefficnet针对于二元分类问题。对于二元分类问题,我们的预测结果会有对应的ROC AUC,那么

$$\text{GiniCoefficient}=2AUC-1$$ 


经济学中的基尼系数是什么?和上面的GiniCoefficient是一回事吗?

是的,本质是一回事。经济学中GiniCoefficient用累计分布来衡量一个地区财富的分配的合理程度。当$G=0$,说明财富均匀分配。

分类问题中,GiniCoefficient用累积分布衡量正负两种标签的分配合理程度。当$G=0$,说明正负标签的预测概率均匀分配,模型相当于是随机排序,所以$AUC=0.5$。


Gini index是什么?

这是一个尴尬的问题,因为很多时候有人把gini index等价于gini impurity,但有人有时候把它用作gini coefficient。你自己看懂别人的上下文就好了,自己可以避免使用,防止让别人误会。


SofaSofa数据科学社区DS面试题库 DS面经

染盘   2018-01-07 16:58

2

CART是用的gini impurity


SofaSofa数据科学社区DS面试题库 DS面经

whanq   2018-01-09 09:12



  相关讨论

cross entropy是什么意思?

softmax模型和最大熵模型是否是一回事?

最小描述长度和香农熵有什么关系?

离散随机变量的熵满足的不等式如何证明?

求问:Cart分类树为什么是基尼指数最小化准则

决策树的熵是什么?怎么用熵来选分叉?

python里怎么计算一个数组的熵(entropy)?

pytorch 的交叉熵损失总是报错,同样的结构改成MSELoss就没有问题

为什么决策树中用熵而不是基尼不纯度来作为划分依据?

keras里sparse_categorical_crossentropy和categorical_crossentropy什么不同?

  随便看看

机器学习中的奥卡姆剃刀原理是什么意思

python(matplotlib)中如何把折线图和柱状图画在一起?

两个独立的正态随机变量的乘积服从什么分布?

tf.placeholder(tf.float32, shape=(None, 1024))中的None是什么意思

怎么计算(估计)ROC AUC的置信区间?