partial dependence是什么意思?

  统计/机器学习 监督式学习 特征选择    浏览次数:6844        分享
1

partial dependence是什么意思?有什么用?据说可以看特征和target的关系,然后选择特征,是这样的吗?

 

桐桐酱   2018-09-23 12:39



   1个回答 
8

我们用xgboost或者random forest的时候,一般都说这些是黑箱模型,我们可以得到特征的重要性(feature importance之类的),但是很难理解每个特征和目标值的关系;而线性模型就很好的解释性。


Partial Dependence就是用来解释某个特征和目标值y的关系的,一般是通过画出Partial Dependence Plot(PDP)来体现。

PDP是依赖于模型本身的,所以我们需要先训练模型(比如训练一个random forest模型)。假设我们想研究$y$和特征$X_1$的关系,那么PDP就是一个关于$X_1$和模型预测值的函数。我们先拟合了一个随机森林模型$\text{RF}(X)$,然后用$X_{i}^k$表示训练集中第$k$个样本的第$i$个特征,那么PDP的函数就是

$$f(X_1)=\frac{1}{n}\sum_{k=1}^n\text{RF}(X_1, X_{2}^k,X_{3}^k,\cdots,X_{n}^k)$$

也就是说PDP在$X_1$的值,就是把训练集中第一个变量换成$X_1$之后,原模型预测出来的平均值。

根据$X_1$的不同取值,$f(X_1)$就可以练成折线,这个折线就是Partial Dependence Plot,横轴是$X_1$,纵轴就是Partial Dependence。

下图就是一个例子


SofaSofa数据科学社区DS面试题库 DS面经

木子周   2018-10-31 09:18

请问这个partial dependence值代表了什么?谢谢您 - 舒畅   2021-09-22 13:43
请问图上这个partial dependence值代表了什么?它的高低代表什么?谢谢您 - 飞时过   2021-09-22 13:44


  相关讨论

不同模型下的特征重要性是不同的吗?

使用uci的社区犯罪率做回归,怎么选择因变量呢

shap值为负是什么意思,可以删掉的意思吗

SHAP可以解释二元分类模型吗?

在分类问题中,有什么方法可以得到特征的重要性?

分类问题 特征怎么选择

特征组合的重要性排序

对于组合特征怎么理解?

wrapper特征选择法是什么意思?

什么情况下需要做特征选择?

  随便看看

什么是SMOTE sampling方法?

怎么理解surrogate loss function代理损失函数?

二维numpy.array转为一维的numpy.array或者list

什么是混淆矩阵(confusion matrix)

python(matplotlib)中如何把折线图和柱状图画在一起?