partial dependence是什么意思?

  统计/机器学习 监督式学习 特征选择    浏览次数:1522        分享
1

partial dependence是什么意思?有什么用?据说可以看特征和target的关系,然后选择特征,是这样的吗?

 

桐桐酱   2018-09-23 12:39



   1个回答 
8

我们用xgboost或者random forest的时候,一般都说这些是黑箱模型,我们可以得到特征的重要性(feature importance之类的),但是很难理解每个特征和目标值的关系;而线性模型就很好的解释性。


Partial Dependence就是用来解释某个特征和目标值y的关系的,一般是通过画出Partial Dependence Plot(PDP)来体现。

PDP是依赖于模型本身的,所以我们需要先训练模型(比如训练一个random forest模型)。假设我们想研究$y$和特征$X_1$的关系,那么PDP就是一个关于$X_1$和模型预测值的函数。我们先拟合了一个随机森林模型$\text{RF}(X)$,然后用$X_{i}^k$表示训练集中第$k$个样本的第$i$个特征,那么PDP的函数就是

$$f(X_1)=\frac{1}{n}\sum_{k=1}^n\text{RF}(X_1, X_{2}^k,X_{3}^k,\cdots,X_{n}^k)$$

也就是说PDP在$X_1$的值,就是把训练集中第一个变量换成$X_1$之后,原模型预测出来的平均值。

根据$X_1$的不同取值,$f(X_1)$就可以练成折线,这个折线就是Partial Dependence Plot,横轴是$X_1$,纵轴就是Partial Dependence。

下图就是一个例子


SofaSofa数据科学社区DS面试题库 DS面经

木子周   2018-10-31 09:18



  相关主题

使用uci的社区犯罪率做回归,怎么选择因变量呢   2回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

分类问题 特征怎么选择   1回答

什么情况下需要做特征选择?   1回答

wrapper特征选择法是什么意思?   1回答

对于组合特征怎么理解?   1回答

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?   1回答

如果一列特征有90%以上的数值都是0,这个特征还有用吗?   2回答

python中如何产生交互项?   2回答

python使用MFCC特征训练GMMHMM模型   2回答

向前逐步选择法和向后逐步选择法的结果是一样的吗?   2回答

AIC可以是负数吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!