Lasso是对数值大的系数压缩大还是数值小的系数压缩大?

  统计/机器学习 回归分析 监督式学习 特征选择    浏览次数: 249
0

比如我有两个变量$X_1$, $X_2$,做完线性回归之后发现它们的系数分别为

$$\beta_1=10, \beta_2=1$$

现在我对这个线性回归加$L_1$的惩罚项,也就是说模型变成了LASSO。

按照LASSO的原理,$\beta_1$和$\beta_2$应该变小。那么谁变小的幅度更大呢?还是说它们是等比例的变小?

 

gjxs   2018-09-05 12:05



   2个回答 
6

LASSO的loss有两项分别是likelihood和prior。Loss对于$\beta$的gradient也分成两项。来至于likelihood的gradient和问题本身相关,很难比较$grad_{\beta_1}$和$grad_{\beta_2}$的大小。我们只能比较来至于prior的gradient。

$d(|\beta|)/d\beta=sign(\beta)$

也就是说来至于prior的改变量的绝对值是一个常数$C$($C=\alpha*\lambda$,$\alpha$是learning rate,$\lambda$是拉格朗日乘数,用于平衡likelihood和prior)。假如$C=0.1,\beta_1=10,\beta_2=1$,那么$\beta_1$和$\beta_2$只通过prior能变成0的最少步数分别是100步和10步。

如果是RIDGE,来至于prior的gradient

$d(|\beta|^2)/d\beta=2\beta$

随着$\beta$的减小,改变的速度也会下降。

SofaSofa数据科学社区 DS面经 问答 实战

Zealing   2018-09-07 09:27

2

Ridge回归是等比例衰减

lasso的话要分情况,有一种情况是还直接变为0.

SofaSofa数据科学社区 DS面经 问答 实战

jd910910   2018-09-06 17:19



  相关主题

惩罚系数不变,特征变大,是不是更容易被Lasso去除?   1回答

lasso path是什么意思?   1回答

为什么LASSO可以做特征选择,而Ridge却不行?   3回答

请问 L1 到底为什么具有稀疏性   4回答

什么时候该用LASSO,什么时候该用Ridge?   2回答

LASSO是无偏的还是有偏的?   2回答

Lasso的自由度是多大?   1回答

Ridge回归的解析解是什么?   3回答

关于lasso和ridge的区别   1回答

L2-norm为什么会让模型变得更加简单?   3回答

反复多次Lasso进行特征选择?   1回答

Ridge,Lasso,ElasticNet的目标函数分别是什么?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!