Tree Shap value for xgboost

  统计/机器学习 监督式学习 特征选择    浏览次数:108        分享
0

求大神详解 Tree Shap value的知识点,点亮技能树!


背景:众所周知,xgboost包自带三种看variable importance的方法:增益(看方差减少),权重(看分节点数),覆盖率(看分节点数在通过观测点上的加权)。然而很多数据上这三种算法出来的排序结果差异非常大。所以后来普遍引入了Tree Shap的概念来构造variable importance。


我在网上尝试搜索tree shap,但是并没有非常系统的内容介绍,只搜到这样的一张图


 

sz080212   2019-04-04 14:25



   1个回答 
1

我抛砖引玉下。

SHAP的概念是从Shapley value引申来的。Shapley value是博弈论里的一个概念,大概意思是说N个人共同协作,赚了M元,这M元该如何分配。每个人分配到的“钱”就是每个人的shapley value。

对于一个模型来说,我们需要理解和解释每个特征的作用,差不多就是想知道每个特征赚了多少“钱”。这里“钱”是指每个样本的预测值和整体均值之间的差。

在上面的那个图里,relationship这个特征的SHAP值从-2到2,说明这个特征对预测结果的推动大概在-2到2之间。当Relationship本身数值比较高的时候,通常起到正向作用。

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2019-04-05 06:42



  相关主题

xgboost里的每棵树是不是等权重的?   2回答

在random forest和xgboost这类集成树模型中是如何计算_feature_importance的   1回答

GBDT和XGBoost使用的都是回归树,原理上是怎么支持解决分类问题的?   1回答

xgboost中的决策树的复杂度是怎么定义的?   2回答

对于xgboost,还有必要做很多特征工程吗?   3回答

怎么利用permutation importance来解释xgboost模型的特征?   2回答

xgboost为什么会有seed?随机性体现在哪里?   0回答

xgboost中的参数min_child_weight是什么意思?   1回答

stack多个xgboost效果并不理想   6回答

如果用xgboost模型,那么还需要先做feature selection吗?   3回答

xgboost展开到二阶导数有什么好处啊   1回答

xgboost的FIT问题   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!