partial dependence是什么意思?

  统计/机器学习 监督式学习 特征选择    浏览次数: 156
1

partial dependence是什么意思?有什么用?据说可以看特征和target的关系,然后选择特征,是这样的吗?

 

桐桐酱   2018-09-23 12:39



   1个回答 
4

我们用xgboost或者random forest的时候,一般都说这些是黑箱模型,我们可以得到特征的重要性(feature importance之类的),但是很难理解每个特征和目标值的关系;而线性模型就很好的解释性。


Partial Dependence就是用来解释某个特征和目标值y的关系的,一般是通过画出Partial Dependence Plot(PDP)来体现。

PDP是依赖于模型本身的,所以我们需要先训练模型(比如训练一个random forest模型)。假设我们想研究$y$和特征$X_1$的关系,那么PDP就是一个关于$X_1$和模型预测值的函数。我们先拟合了一个随机森林模型$\text{RF}(X)$,然后用$X_{i}^k$表示训练集中第$k$个样本的第$i$个特征,那么PDP的函数就是

$$f(X_1)=\frac{1}{n}\sum_{k=1}^n\text{RF}(X_1, X_{2}^k,X_{3}^k,\cdots,X_{n}^k)$$

也就是说PDP在$X_1$的值,就是把训练集中第一个变量换成$X_1$之后,原模型预测出来的平均值。

根据$X_1$的不同取值,$f(X_1)$就可以练成折线,这个折线就是Partial Dependence Plot,横轴是$X_1$,纵轴就是Partial Dependence。

下图就是一个例子


SofaSofa数据科学社区 DS面经 问答 实战

木子周   2018-10-31 09:18



  相关主题

在分类问题中,有什么方法可以得到特征的重要性?   2回答

对于组合特征怎么理解?   1回答

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?   1回答

AIC可以是负数吗?   1回答

python中如何产生交互项?   2回答

在进行数值编码时出现错误,怎么解决?   1回答

训练样本中每个维度是否独立对回归结果的影响   2回答

python使用MFCC特征训练GMMHMM模型   2回答

关于K均值聚类的权重问题   2回答

随机森林每次用多少个特征?   2回答

怎么理解决策树是模型自己在做interaction?   2回答

对于树模型,需不需要特征筛选   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!