回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?

  统计/机器学习 回归分析 描述性统计    浏览次数: 1865
4

我自己观察到的现象是,自变量和因变量的相关系数越大,在线性回归中这个自变量的系数就越大。它们是正相关的关系吗?

 

道画师   2017-04-06 14:55



   3个回答 
11

对于一元简单线性回归

$$Y=\beta X + \beta_0 + \epsilon$$

我们知道

$$\beta = \frac{\text{Cov}(X,Y)}{\text{Var}(X)}=\text{Cor}(X,Y)\frac{\sigma_Y}{\sigma_X}$$

可以看出$\beta$的确是和$\text{Cor}(X,Y)$正相关的(标准差$\sigma_X$和$\sigma_Y$都是正数)。

如果我们把自变量$X$和因变量$Y$都先进行标准化处理,使得$\sigma_X=\sigma_Y=1$,那么回归系数$\beta$就等于$X$和$Y$的皮尔逊相关系数了。



SofaSofa数据科学社区 DS面经 问答 实战

高代兄   2017-04-15 10:41

3

确实学习的参数正比于输入和输出皮尔逊相关系数。

用列向量矩阵表示的最小二乘公式   

$$\hat{y}^T=X_{new}^T(XX^T)^{-1}Xy^T$$

$\Sigma_{XX}=XX^T$是covariance matrix,是半正定的实对称方阵,可做eigendecomposition, $XX^T=Q\Lambda Q^T$。其中$Q$是$\Sigma_{XX}$的eigen vector,把输入$X$投影到相互独立的eigen space,对角线矩阵$\Lambda$表示每个eigen vector轴上的variance,

covariance matrix逆是partial covariance matrix,  $(XX^T)^{-1}=Q\Lambda^{-1} Q^T=QD(QD)^T$,其中对角线矩阵$D=D^T, DD^T=\Lambda^{-1}$

$$\hat{y}^T=(X_{new}^TQD)(X^TQD)^Ty^T$$

令 $Z^T=X^TQD$

$$\hat{y}^T=Z_{new}^T Zy^T$$

$$\hat{y}^T=Z_{new}^T\Sigma_{Zy}$$

数据流程是:$X$经过独立化算子$Q$和标准化算子$D$得到新特征$Z$,最小二乘模型学习的是$\Sigma_{Zy}$。如果$y$经过标准化($\sigma_y=1$),则学习的系数就是$Corr(Z,y)$。

一个理想情况是$X$本身个特征独立并输入输出都经过标准化,$X=Z$,则$w=corr(X,y)$。

----------------------------

这满足以最小二乘为代表的基于随机变量相关性的机器学习方法的流程:先把数据压缩成互不相关的信号(要求编码向量$Z$正交),再学习编码和输出的相关性($\Sigma_Zy$),最后把新编码$Z_{new}$解码到输出空间。autuencode也符合这个流程。



SofaSofa数据科学社区 DS面经 问答 实战

Zealing   2018-10-10 01:49

2

自变量和因变量的相关系数和正规化后的回归系数是相等,它们的平方就等于$R^2$

SofaSofa数据科学社区 DS面经 问答 实战

TTesT   2018-11-04 15:44



  相关主题

有序分类变量的相关系数   2回答

一个连续变量和一个二元变量的相关系数怎么求?   2回答

Python计算两个数组的相关系数   3回答

为什么说皮尔逊相关系数是刻画了线性相关性?   2回答

如何对两个名义分类变量的关联性进行可视化展示?   2回答

两个变量不相关但是也不独立   2回答

相关系数的p值是怎么算的?   2回答

对两个相关系数做显著性的假设检验?   1回答

超几何分布几何分布的关联?   0回答

序列的autocorrelation(自相关系数)的计算公式   1回答

相关系数很小的变量一定要删掉吗?   1回答

关于Python中 theano的相关问题   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!