Gini指数、Gini系数、Gini不纯是一回事吗?

  统计/机器学习 监督式学习 开放问题 损失函数    浏览次数: 1124
2

Gini指数(Gini index)、Gini系数(Gini coefficient)、Gini不纯(Gini impurity)是一回事吗?

决策树算法CART中用的是哪一个?

经常搞不清楚这三者,还有经济学中的基尼系数,它和这三个又有什么关系?


 

花生糖   2017-12-28 23:10



   2个回答 
10

决策树算法CART中用的是哪一个?

用的是Gini impurity,也就是基尼不纯。


Gini impuirty是什么?

假设这个数据集里有$k$种不同标签,第$i$个标签所占的比重为$p_i$,那么Gini impurity为

$$1-\sum_{i=1}^k p^2_i,$$

它描述了一个数据集中标签分布的纯度,类似于entropy。


Gini coefficient是什么?

Gini coefficnet针对于二元分类问题。对于二元分类问题,我们的预测结果会有对应的ROC AUC,那么

$$\text{GiniCoefficient}=2AUC-1$$ 


经济学中的基尼系数是什么?和上面的GiniCoefficient是一回事吗?

是的,本质是一回事。经济学中GiniCoefficient用累计分布来衡量一个地区财富的分配的合理程度。当$G=0$,说明财富均匀分配。

分类问题中,GiniCoefficient用累积分布衡量正负两种标签的分配合理程度。当$G=0$,说明正负标签的预测概率均匀分配,模型相当于是随机排序,所以$AUC=0.5$。


Gini index是什么?

这是一个尴尬的问题,因为很多时候有人把gini index等价于gini impurity,但有人有时候把它用作gini coefficient。你自己看懂别人的上下文就好了,自己可以避免使用,防止让别人误会。


染盘   2018-01-07 16:58

2

CART是用的gini impurity


whanq   2018-01-09 09:12



  相关主题

logloss的取值范围是多少?一般好的分类器能达到多少?   4回答

Hamming Loss汉明损失的计算公式是什么?   1回答

如何理解GBDT里面“损失函数的负梯度在当前模型的值,可以作为残差的估计”?   0回答

怎么理解surrogate loss function代理损失函数?   2回答

cross entropy是什么意思?   1回答

二元分类为什么不能用MSE做为损失函数?   5回答

在SVM中获知一个分类机/回归机需要有多训练点?   0回答

python求logloss   1回答

hinge loss的公式是什么?   1回答

逻辑回归的损失函数是怎么来的   2回答

用SGD计算逻辑回归时的迭代公式是什么?   2回答

huber loss是什么?什么时候用?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!