数据的标准化(Z-score标准化)是否会改变训练得到的超平面系数向量?

  统计/机器学习 回归分析 监督式学习 数据预处理    浏览次数:335        分享
0

在进行回归分析时,有输入训练数据集 和输出 训练数据集 Y ,需要学习得到回归超平面的系数向量 x ,得到关系:

Ax=Y        A:M×N,x:N×1,Y:M×1

一般需要对训练数据进行Z-score标准化,即

A(i,j)=[A(i,j)-mean(A(:,j))]/std(A:,j)

Y(i)=[Y(i)-mean(Y)]/std(Y)


请问这样的Z-score操作会对超平面的系数向量 x 的结果产生影响么即若我们不进行Z-score标准化操作的话,得到的 x 的值是否会和数据进行了Z-score操作之后的结果不一样Z-score标准化是否只是对数据点在其空间内进行了平移,使其回归超平面的位置经过原点,而并不会改变得到的回归超平面的系数向量即“斜率”的大小呢

 

CE_PAUL   2019-02-26 11:20



   1个回答 
1

当然会改变斜率的。

你可以就想想一维的情况:

$x\sim \mathcal N(3, 1^2)$,假设它们完美拟合回归公式为$y=2x+2$,那么$y \sim \mathcal N(8, 2^2)$

假如我们同时对$x$和$y$进行标准化,得到

$\hat x\sim \mathcal N(0, 1)$以及$\hat y\sim \mathcal N(0, 1)$,此时回归方程为$\hat y = \hat x$。不仅经过原点,而且斜率也变了。

(题主可以试着用$\LaTeX$,现在题目看起来有点累)

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2019-02-26 14:05

好的谢谢答主,我学习一下LaTeX。ummm,还希望追问一下,就是既然改变了斜率,这样得到的结果在进行预测的时候可用性是不是受到了限制?或者所以说在进行预测时,输入变量和输出变量都要和训练点进行Z-score标准化之后才可以用于预测,得到的预测结果(即拟合量) 也需要进行逆操作才能得到真实的预测值? - CE_PAUL   2019-02-26 16:57
是的,输入输出都要经过同样的变换。得到预测结果也需要转换回去才能得到最终预测值。 - strong.man   2019-02-26 22:41
好的,多谢多谢 - CE_PAUL   2019-02-27 12:34


  相关主题

线性回归的变量归一化的问题   1回答

对进行回归分析之前,如何处理不同类型的变量?   1回答

statsmodels里的ols怎么处理分类变量?   1回答

拟合数据的Z-score规范化怎么进行操作?   2回答

离散变量和连续变量可以一起放入机器学习的分类器中吗?   1回答

数据一样,y却不一样的样本该怎么处理?   2回答

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答

线性回归的bagging   2回答

逻辑回归最终的所有结果都是0的原因   3回答

GBDT+LR的工作原理?   4回答

逻辑回归的前提假设是什么?   2回答

adaboost做回归预测的时候,是怎么调整样本权重的?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!