训练样本中每个维度是否独立对回归结果的影响

  统计/机器学习 回归分析 特征选择 开放问题    浏览次数: 517
0

对于一个回归问题,使用最小二乘/岭回归/支持向量回归等回归方式,有一个样本的群用于训练,其中一个样本为$X_m=(Z_1,Z_2,\cdots,Z_n,Y_m)$,    其中$(Z_1,Z_2,\cdots,Z_n)$$X_m$的输入,$Y_m$为输出。问题是,如果输入$Z_1,Z_2,\cdots,Z_n$之间不是相互独立的,即输入向量的各维度之间有线性或非线性相关关系,这样训练得到的结果可信么?或者说,训练样本中各维度之间的独立性对回归结果的会有怎样的影响呢?

 

CE_PAUL   2018-10-18 08:52



   2个回答 
2

你说的这个叫做多重共线性。一般可以用Pearson相关系数或者方差膨胀因子法来检验。

对于最小二乘回归,多重共线性最直接的影响就是会导致$X^TX$不可逆,无法求解。

如果通过数值方法求解,得到的系数的解释性不会更好,而且方差会比较大。这一点对于你提到的模型算是共性。

在存在多重共线性的情况下,Lasso要比Ridge好。

SofaSofa数据科学社区 DS面经 问答 实战

zl_pku   2018-10-18 09:35

谢谢! - CE_PAUL   2018-10-19 18:30
1

最小二乘回归已经考虑了输入随机变量间相关的问题。令所有都为列向量,训练输入$X$是$d\times n$矩阵,训练输出$y$是$1\times n$,测试输入$X_{test}$是$d\times m$矩阵。对$X$做SVD有$X=USV^T$。

$$\hat{y_{test}}^T=X_{test}^T(XX^T)^{-1}Xy^T$$

$$=X_{test}^T(USV^TVSU^T)^{-1}Xy^T$$

$$=X_{test}^TUS^{-1} (X^TUS^{-1})^Ty^T$$

令$Z=S^{-1}U^TX=\Phi X$,则

$$\hat{y_{test}}^T=Z_{test}^TZy^T$$

$$=Z_{test}^T\Sigma_{Zy}$$

$Z$是$X$在新特征空间($X$ 的clomun space)的坐标,$U$是去相关性,$S^{-1}$是做$Z$的标准化。因为基向量$U_{i*}$与$U_{j*}$相互垂直,所以新特征$Z$相互独立,$corr(Z_i,Z_j)=0$。$\Sigma_{Zy}$是最小二乘模型真正学习到的$Z$和$y$之间的相似矩阵,也就是$Z$和$y$之间的线性转化矩阵。

思路是:自变量相关,很难研究自变量$X$和因变量$y$间独立线性关系。把自变量$X$转换为独立变量$Z$,并学习$Z$和$y$的线性转换关系$\Sigma_{Zy}$。有点像输入图像->FFT->Filtering>IFFT->输出图像的套路。(其实$X_i$和$y$的独立的相关性可以用partial correlation表示。)

SofaSofa数据科学社区 DS面经 问答 实战

Zealing   2018-10-18 13:17

十分谢谢! - CE_PAUL   2018-10-19 18:44


  相关主题

AIC可以是负数吗?   1回答

对于组合特征怎么理解?   1回答

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?   1回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

partial dependence是什么意思?   1回答

在进行数值编码时出现错误,怎么解决?   1回答

python中如何产生交互项?   2回答

关于K均值聚类的权重问题   2回答

python使用MFCC特征训练GMMHMM模型   2回答

随机森林给出的变量的Importance是怎么来的   2回答

怎么理解决策树是模型自己在做interaction?   2回答

对于数值特征,决策树是如何决定阈值的?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!