Gini指数、Gini系数、Gini不纯是一回事吗?

  统计/机器学习 监督式学习 开放问题 损失函数
2

Gini指数(Gini index)、Gini系数(Gini coefficient)、Gini不纯(Gini impurity)是一回事吗?

决策树算法CART中用的是哪一个?

经常搞不清楚这三者,还有经济学中的基尼系数,它和这三个又有什么关系?


 

花生糖   2017-12-28 23:10



   2个回答 
8

决策树算法CART中用的是哪一个?

用的是Gini impurity,也就是基尼不纯。


Gini impuirty是什么?

假设这个数据集里有$k$种不同标签,第$i$个标签所占的比重为$p_i$,那么Gini impurity为

$$1-\sum_{i=1}^k p^2_i,$$

它描述了一个数据集中标签分布的纯度,类似于entropy。


Gini coefficient是什么?

Gini coefficnet针对于二元分类问题。对于二元分类问题,我们的预测结果会有对应的ROC AUC,那么

$$\text{GiniCoefficient}=2AUC-1$$ 


经济学中的基尼系数是什么?和上面的GiniCoefficient是一回事吗?

是的,本质是一回事。经济学中GiniCoefficient用累计分布来衡量一个地区财富的分配的合理程度。当$G=0$,说明财富均匀分配。

分类问题中,GiniCoefficient用累积分布衡量正负两种标签的分配合理程度。当$G=0$,说明正负标签的预测概率均匀分配,模型相当于是随机排序,所以$AUC=0.5$。


Gini index是什么?

这是一个尴尬的问题,因为很多时候有人把gini index等价于gini impurity,但有人有时候把它用作gini coefficient。你自己看懂别人的上下文就好了,自己可以避免使用,防止让别人误会。


染盘   2018-01-07 16:58

2

CART是用的gini impurity


whanq   2018-01-09 09:12



相关问题

Hamming Loss汉明损失的计算公式是什么?   1回答

怎么理解surrogate loss function代理损失函数?   2回答

cross entropy是什么意思?   1回答

logloss的取值范围是多少?一般好的分类器能达到多少?   4回答

python求logloss   1回答

Ridge,Lasso,ElasticNet的目标函数分别是什么?   1回答

逻辑回归的损失函数是怎么来的   1回答

多分类问题有没有类似LogLoss的模型评判标准?   1回答

泊松回归(poission regression)的损失函数是什么?   1回答

huber loss是什么?什么时候用?   1回答

最小二乘回归和线性回归   2回答

python里有没有huber loss的线性回归   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!