关于方差膨胀因子(VIF)的问题

  统计/机器学习 回归分析 描述性统计    浏览次数: 3819
6

在回归里看到了方差膨胀因子,方差膨胀因子怎么计算?具体有什么用?

 

Pokemon   2017-04-04 23:19



   2个回答 
13

方差膨胀因子(Variance Inflation Factor,VIF)是用来检测回归模型中自变量的多重共线性(Multi-Colinearity)的。

我们可以用相关系数来比较一个自变量与另一个自变量的相关性。如果我们想判断一个自变量与其他剩下所有的自变量的多重共线性,我们就可以用VIF。


比如我们一共有5个自变量,$X_1, X_2, X_3, X_4, X_5$。我们把$X_1$当作观测值,把剩下的变量$X_2, X_3, X_4, X_5$当作自变量,进行线性回归。

$$X_1 = c_{1,0}+c_{1,2}X_2+c_{1,3}X_3+c_{1,4}X_4+c_{1,5}X_5+e_1$$

我们用$R^2_1$上表示面这个回归的$R^2$。$X_1$的方差膨胀因子

$$VIF_1=\frac{1}{1-R^2_1},$$

相应地,变量$X_k$的方差膨胀因子

$$VIF_k=\frac{1}{1-R^2_k},$$

其中$R^2_k$是把$X_k$当作观测值,把剩下的变量当作自变量的回归的$R^2$。

我们知道$R^2$越接近1,拟合越好。这里$VIF_k$等于1说明没有共线性,越接近1,$X_k$的多重共线性越小。$VIF_k$越大,$X_k$与其他变量的多重共线性越大。



SofaSofa数据科学社区 DS面经 问答 实战

黄前志   2017-04-11 10:30

原来如此,谢谢! - Pokemon   2017-04-12 10:39
2

关于上面的说的解答有一个问题,如果说 Rk2  越接近1 代表拟合的越好,那不是越说明其他的变量可以更好的线性替代第k个变量么?那难道不应该是第k个变量的多重共线性更严重么?这样看来岂不是VIF越大(R2越小)反而应该共线性越小么?(因为说明其他变量拟合该变量的效果不好,不能被线性替代),谁来解释一下?

SofaSofa数据科学社区 DS面经 问答 实战

sz080212   2017-07-31 16:28

误人子弟了,之前漏掉1-了。现在修改过了。谢谢指正! - 黄前志   2017-07-31 22:13


  相关主题

线性回归的容忍度Tolerance是什么意思?   1回答

怎么理解库克距离(Cook's distance)?   1回答

标准误和标准差有什么区别?   1回答

Median Absolute Deviation的定义是什么?   1回答

为什么样本方差是除以n-1   4回答

估计标准差的标准差?   1回答

统计里的IQR是什么意思?   1回答

python中百分位数的逆运算   1回答

python里计算百分位数   2回答

用python计算协方差   1回答

如何向没有统计知识背景的人解释“什么是标准差”?   1回答

EDA一般包括哪些步骤?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!