请问 L1 到底为什么具有稀疏性

  统计/机器学习 监督式学习 特征选择    浏览次数:6374        分享
0

网上很多画图的,说函数相交于坐标轴上。


那请问谁可以从代数角度解释一下,为什么L1 就能稀疏呢?

    L(x) = f(x) + λ|w|

 

flcc   2018-08-21 11:38



   4个回答 
5

1.你的图有错误,横轴和纵轴应该是$w_1$,$w_2$,不是 $x$。


2.loss function是参数 $w$的函数,不是输入数据$x$的函数。

$L(w)=\underset{w}{\mathrm{argmin}}(f_x(w)+\lambda|w|_n)$,$n=1,2$

$f_x(w)$是似然函数项,比如是$|X^Tw-y|^2$

3.左图中LASSO $w_1=0$,$w_2\neq0$,而右图中Ridge $w_1\neq0$,$w_2\neq0$,明显LASSO中非0的参数$w$更少,更稀疏。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-08-22 22:32

如果想更深入了解L1 norm的稀疏性,可以看https://statistics.stanford.edu/sites/default/files/2004-09.pdf 证明了L1最小值等价于L0最小值,而L0 norm指参数的非零个数。显然L0越小越稀疏(非零参数个数少)。 - Zealing   2018-09-07 13:43
L1并不能保证稀疏,毕竟likelihood也要影响解。只能说当多个解的likelihood cost相同时,L1倾向于选择最稀疏的解。 - Zealing   2018-09-08 22:54
1

参考:

为什么LASSO具有稀疏性

L1和L2的区别是什么?为什么L1是稀疏的?

Ridge和LASSO的区别

SofaSofa数据科学社区DS面试题库 DS面经

新同学   2018-08-21 12:43

没看懂,可以麻烦你通俗的解释一下吗? - flcc   2018-08-21 14:19
具体哪里没看懂呢,我觉得那三个链接里的几个答案都挺具体的 - 新同学   2018-08-22 22:19
没有一个从代数角度解释L1 为什么可以稀疏,都是人云亦云 - flcc   2018-09-07 11:40
0

参数更新的时候,L1求导值为+1或-1,假如说经常出现+1的话,k=k-α*1那么参数就会很快下降到0;L2求导的话值为w(权重,一般为小数),k=k-α*w,这样的话下降时不断减去一个越来越小的小数,只能慢慢趋近于0而无法到达0。

个人理解,求大佬指正。

SofaSofa数据科学社区DS面试题库 DS面经

GEASS   2018-09-07 21:16

如果K比较小,减到负数了呢 - flcc   2018-09-08 18:31
0

有人知道吗?

SofaSofa数据科学社区DS面试题库 DS面经

flcc   2018-09-10 16:37



  相关讨论

lasso path是什么意思?

为什么LASSO可以做特征选择,而Ridge却不行?

post lasso是什么意思?

惩罚系数不变,特征变大,是不是更容易被Lasso去除?

Lasso是对数值大的系数压缩大还是数值小的系数压缩大?

关于lasso和ridge的区别

L2-norm为什么会让模型变得更加简单?

询问LASSO特征选择与频次图绘制

反复多次Lasso进行特征选择?

sklearn里的LassoCV和Lasso有什么区别?怎么用?

  随便看看

numpy.array从行向量转为列向量

dataframe每行或者每列中缺失值(na, nan, null)的个数

向量梯度下降优化的最佳步长?

推荐系统有哪些常用的评价标准

不用洛必达法则证明sin x比上x的极限是1