请问 L1 到底为什么具有稀疏性

  统计/机器学习 监督式学习 特征选择    浏览次数: 335
0

网上很多画图的,说函数相交于坐标轴上。


那请问谁可以从代数角度解释一下,为什么L1 就能稀疏呢?

    L(x) = f(x) + λ|w|

 

flcc   2018-08-21 11:38



   4个回答 
4

1.你的图有错误,横轴和纵轴应该是$w_1$,$w_2$,不是 $x$。


2.loss function是参数 $w$的函数,不是输入数据$x$的函数。

$L(w)=\underset{w}{\mathrm{argmin}}(f_x(w)+\lambda|w|_n)$,$n=1,2$

$f_x(w)$是似然函数项,比如是$|X^Tw-y|^2$

3.左图中LASSO $w_1=0$,$w_2\neq0$,而右图中Ridge $w_1\neq0$,$w_2\neq0$,明显LASSO中非0的参数$w$更少,更稀疏。

Zealing   2018-08-22 22:32

如果想更深入了解L1 norm的稀疏性,可以看https://statistics.stanford.edu/sites/default/files/2004-09.pdf 证明了L1最小值等价于L0最小值,而L0 norm指参数的非零个数。显然L0越小越稀疏(非零参数个数少)。 - Zealing   2018-09-07 13:43
L1并不能保证稀疏,毕竟likelihood也要影响解。只能说当多个解的likelihood cost相同时,L1倾向于选择最稀疏的解。 - Zealing   2018-09-08 22:54
0

参考:

为什么LASSO具有稀疏性

L1和L2的区别是什么?为什么L1是稀疏的?

Ridge和LASSO的区别

新同学   2018-08-21 12:43

没看懂,可以麻烦你通俗的解释一下吗? - flcc   2018-08-21 14:19
具体哪里没看懂呢,我觉得那三个链接里的几个答案都挺具体的 - 新同学   2018-08-22 22:19
没有一个从代数角度解释L1 为什么可以稀疏,都是人云亦云 - flcc   2018-09-07 11:40
0

参数更新的时候,L1求导值为+1或-1,假如说经常出现+1的话,k=k-α*1那么参数就会很快下降到0;L2求导的话值为w(权重,一般为小数),k=k-α*w,这样的话下降时不断减去一个越来越小的小数,只能慢慢趋近于0而无法到达0。

个人理解,求大佬指正。

GEASS   2018-09-07 21:16

如果K比较小,减到负数了呢 - flcc   2018-09-08 18:31
0

有人知道吗?

flcc   2018-09-10 16:37



  相关主题

为什么LASSO可以做特征选择,而Ridge却不行?   3回答

lasso path是什么意思?   1回答

Lasso是对数值大的系数压缩大还是数值小的系数压缩大?   2回答

关于lasso和ridge的区别   1回答

L2-norm为什么会让模型变得更加简单?   3回答

什么时候该用LASSO,什么时候该用Ridge?   2回答

LASSO是无偏的还是有偏的?   2回答

Ridge,Lasso,ElasticNet的目标函数分别是什么?   1回答

XGBoost为什么可以通过叶子节点的权值w的L2模平方来控制树的复杂度?   1回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

partial dependence是什么意思?   0回答

对于组合特征怎么理解?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!