怎么用KS值来评价二元分类器?

  统计/机器学习 监督式学习 模型验证    浏览次数:1025        分享
2

我印象中KS值(Kolmogorov-Smirnov)是用来判断两个连续分布的相似度的,那怎么用KS值来评价二元分类器?

 

myodd   2019-01-06 15:09



   1个回答 
6

是的,你说的没错,KS是用来判断两个连续分布的。

所以我们用KS来比较二元分类模型的时候,我们用的是模型的概率输出。类似于auc一下,我们不能直接用预测标签,而是用预测的概率。这样我们就有了两组连续数值:一组是真实值为+的预测概率值,一组是真实值为-的预测概率值,然后对两组预测值分别画出cdf,两个cdf的最大距离就是KS-score。

如果模型预测出来的结果完全线性可分,那么KS-score就是1。

上图的例子里,蓝色曲线是真实标签$y=0$的预测样本的输出概率的CDF,绿色曲线是真实标签$y=1$的预测样本的输出概率的CDF,红色是它们距离最远的点,这个距离就是这个分类模型的KS score。

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2019-01-21 14:23



  相关主题

多元分类可以用accuracy吗?   2回答

F1值会受到不平衡数据的影响吗?   2回答

二元分类问题中经常提到的TP,TN,FN,FP都是什么意思?   3回答

k近邻算法(k-NN)怎么选k   2回答

logistic回归有哪些指标可以评价模型效果?   2回答

多元分类的混淆矩阵   1回答

precision-recall曲线下面积有什么意义?   3回答

多元分类问题有没有F1?   1回答

机器学习里的ppv是什么意思?   1回答

利用交叉验证调参后还需要用完整的数据集重新训练吗?   2回答

什么是混淆矩阵(confusion matrix)   2回答

用python求二元分类的混淆矩阵   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!