我自己观察到的现象是,自变量和因变量的相关系数越大,在线性回归中这个自变量的系数就越大。它们是正相关的关系吗?
3个回答
对于一元简单线性回归
$$Y=\beta X + \beta_0 + \epsilon$$
我们知道
$$\beta = \frac{\text{Cov}(X,Y)}{\text{Var}(X)}=\text{Cor}(X,Y)\frac{\sigma_Y}{\sigma_X}$$
可以看出$\beta$的确是和$\text{Cor}(X,Y)$正相关的(标准差$\sigma_X$和$\sigma_Y$都是正数)。
如果我们把自变量$X$和因变量$Y$都先进行标准化处理,使得$\sigma_X=\sigma_Y=1$,那么回归系数$\beta$就等于$X$和$Y$的皮尔逊相关系数了。
确实学习的参数正比于输入和输出皮尔逊相关系数。
用列向量矩阵表示的最小二乘公式
$$\hat{y}^T=X_{new}^T(XX^T)^{-1}Xy^T$$
$\Sigma_{XX}=XX^T$是covariance matrix,是半正定的实对称方阵,可做eigendecomposition, $XX^T=Q\Lambda Q^T$。其中$Q$是$\Sigma_{XX}$的eigen vector,把输入$X$投影到相互独立的eigen space,对角线矩阵$\Lambda$表示每个eigen vector轴上的variance,
covariance matrix逆是partial covariance matrix, $(XX^T)^{-1}=Q\Lambda^{-1} Q^T=QD(QD)^T$,其中对角线矩阵$D=D^T, DD^T=\Lambda^{-1}$
$$\hat{y}^T=(X_{new}^TQD)(X^TQD)^Ty^T$$
令 $Z^T=X^TQD$
$$\hat{y}^T=Z_{new}^T Zy^T$$
$$\hat{y}^T=Z_{new}^T\Sigma_{Zy}$$
数据流程是:$X$经过独立化算子$Q$和标准化算子$D$得到新特征$Z$,最小二乘模型学习的是$\Sigma_{Zy}$。如果$y$经过标准化($\sigma_y=1$),则学习的系数就是$Corr(Z,y)$。
一个理想情况是$X$本身个特征独立并输入输出都经过标准化,$X=Z$,则$w=corr(X,y)$。
----------------------------
这满足以最小二乘为代表的基于随机变量相关性的机器学习方法的流程:先把数据压缩成互不相关的信号(要求编码向量$Z$正交),再学习编码和输出的相关性($\Sigma_Zy$),最后把新编码$Z_{new}$解码到输出空间。autuencode也符合这个流程。