为什么岭回归和最小二乘支持向量回归有一样二次规划形式却有不同解

  统计/机器学习 回归分析 开放问题    浏览次数:5285        分享
1

岭回归(RS)和最小二乘支持向量回归(LS_SVR)的凸二次回归问题其实是一样的,就是岭回归的正则化参数是乘在惩罚项(权重向量/斜率 的内积)上,而最小二乘支持向量机的正则化参数是乘在误差项上的,在这样的情况下为什么会出现当训练点数大于维度数时岭回归的计算量小于最小二乘支持向量回归呢?

希望知道关系:Y=XTω,其中X是一个N*M矩阵,由M个N维列向量组成

RS: ω=(XXTI)-1XY

LS_SVR: 当映射函数φ(X)=X时,公式为,ω=X(XTX+γ-1I)-1Y

可以发现RS需要对一个N*N矩阵求逆,LS_SVR需要对一个M*M矩阵求逆,一般而言M大于N,所以LS_SVR的计算量将显著大于RS的计算量。但是他们的二次规划问题的形式是一样的,只是正则化参数(可以看成一个常系数)乘的位置不一样,怎么会造成最后的求解公式结果不一样呢?难道只是因为求解方法不一样?因为LS_SVR是拉格朗日乘数法而RS是直接对待求权重求偏导?

 

CE_PAUL   2018-10-25 13:52



   2个回答 
4

你提到的

Ridge

$$(XX^T+\alpha I)^{-1}X$$

和最小二乘SVM回归的

$$X(X^TX+\gamma^{-1}I)^{-1}$$

当$\alpha=\gamma^{-1}$的时候,就是完全等价的吧,你把两个逆矩阵分别左乘右乘一下,就得到一样的了

Ridge

$$X(X^TX+\gamma^{-1}I)$$

LS SVR

$$(XX^T+\alpha I)X$$

SofaSofa数据科学社区DS面试题库 DS面经

WinJ   2018-10-26 14:36

不是的,X'X和XX'得到的方阵大小不一样的,而且矩阵乘法没有交换律,针对LS_SVR而言,X在开头的话中间的那个逆不能直接乘到左边去呀 - CE_PAUL   2018-10-26 23:43
上面这个答案没有用交换律吧,我觉得没问题 - Nagozi   2018-10-27 03:43
因为在LS SVR的公式里面还有个Y啊不是么,右乘一个逆会导致不可计算吧,除非使用交换律先计算逆矩阵与原矩阵得到单位阵,但是相当于是(A^(-1)YA)不能写作(A^(-1)AY),而且Y作为一个列向量,(A^(-1)YA)这个式子本身就不能计算吧 - CE_PAUL   2018-10-27 15:09
$A=(XX^T+\alpha I)^{−1}X$,$B=X(X^TX+\gamma^{−1}I)^{−1}$;如果$A=B$,那么$Ay=By$ - WinJ   2018-10-27 15:28
谢谢..我再看看 - CE_PAUL   2018-10-27 17:59
多谢哈,隔了几天回来看看懂了,十分谢谢,所以我在想,这两个方法其实结果是一样的,但是涉及到逆矩阵的求解,其中逆矩阵的大小是不一样的,这是不是意味着在映射函数为简单线性的时候,采用RS会更加利于计算 - CE_PAUL   2018-10-29 17:45
3

当去掉正则项后,从数学上二者是等价的。比如$X=USV^T$,

$$w_{RS}=(XX^T)^{-1}XY=(US^{-1}V^TVS^{-1}U^T)USV^TY=US^{-1}V^TY$$

$$w_{LS_SVR}=X(X^TX)^{-1}Y=USV^T(VS^{-1}U^TUS^{-1}V^T)Y=US^{-1}V^TY$$

显然二者相等。但是在实际数值计算上二者并不相等,因为$XX^T$或$X^TX$可能不可逆,需要加正则项让他们可逆,求出稳定(stable)的逆矩阵解。至于$XX^T$和$X^TX$谁求逆更稳定,理论不太清楚。我的感觉是越小的矩阵越容易求逆。比如$X$是$N\times M$,如果$N<M$,则应该用RS。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-10-30 02:19

十分感谢! - CE_PAUL   2018-10-31 19:27


  相关讨论

LS-SVM的核函数选取问题

与基于一般形式的支持向量回归相比,最小二乘支持向量回归更准确?

线性支持向量机和中心化中截距的问题

lssvm核函数 matlab

SVM模型的可解释性如何?

如果支持向量机做回归任务,支持向量是什么?

为什么说LR适合大样本,SVM适合小样本?

SVM和LR适合稀疏数据吗?

在SVM中获知一个分类机/回归机需要有多训练点?

SVM的支持向量最少有几个?

  随便看看

假设检验中的p值是什么意思?为什么越小越好?

统计学中的自变量和因变量分别是什么意思?

推荐系统有哪些常用的评价标准

为什么矩阵的二范数和向量的二范数的定义不同?

cvr和ctr的区别是什么?