partial dependence是什么意思?

  统计/机器学习 监督式学习 特征选择    浏览次数:7350        分享
1

partial dependence是什么意思?有什么用?据说可以看特征和target的关系,然后选择特征,是这样的吗?

 

桐桐酱   2018-09-23 12:39



   1个回答 
8

我们用xgboost或者random forest的时候,一般都说这些是黑箱模型,我们可以得到特征的重要性(feature importance之类的),但是很难理解每个特征和目标值的关系;而线性模型就很好的解释性。


Partial Dependence就是用来解释某个特征和目标值y的关系的,一般是通过画出Partial Dependence Plot(PDP)来体现。

PDP是依赖于模型本身的,所以我们需要先训练模型(比如训练一个random forest模型)。假设我们想研究$y$和特征$X_1$的关系,那么PDP就是一个关于$X_1$和模型预测值的函数。我们先拟合了一个随机森林模型$\text{RF}(X)$,然后用$X_{i}^k$表示训练集中第$k$个样本的第$i$个特征,那么PDP的函数就是

$$f(X_1)=\frac{1}{n}\sum_{k=1}^n\text{RF}(X_1, X_{2}^k,X_{3}^k,\cdots,X_{n}^k)$$

也就是说PDP在$X_1$的值,就是把训练集中第一个变量换成$X_1$之后,原模型预测出来的平均值。

根据$X_1$的不同取值,$f(X_1)$就可以练成折线,这个折线就是Partial Dependence Plot,横轴是$X_1$,纵轴就是Partial Dependence。

下图就是一个例子


SofaSofa数据科学社区DS面试题库 DS面经

木子周   2018-10-31 09:18

请问这个partial dependence值代表了什么?谢谢您 - 舒畅   2021-09-22 13:43
请问图上这个partial dependence值代表了什么?它的高低代表什么?谢谢您 - 飞时过   2021-09-22 13:44


  相关讨论

使用uci的社区犯罪率做回归,怎么选择因变量呢

不同模型下的特征重要性是不同的吗?

在分类问题中,有什么方法可以得到特征的重要性?

shap值为负是什么意思,可以删掉的意思吗

SHAP可以解释二元分类模型吗?

分类问题 特征怎么选择

特征组合的重要性排序

什么情况下需要做特征选择?

wrapper特征选择法是什么意思?

对于组合特征怎么理解?

  随便看看

ARIMA模型中的三个参数(p, d, q)都是什么意思?

把tf.Tensor转换为numpy array

随机森林如何调参?

逻辑回归模型中变量的系数怎么理解?

pandas.DataFrame里的loc和iloc什么区别?