L1正则化和L2正则化的区别?L1为啥具有稀疏性?

  统计/机器学习    浏览次数:6578        分享
0

机器学习萌新一枚。

只知道正则化可以用来调节系数权重,处理过拟合

求大佬告知其中的区别,以及L1为啥具有稀疏性?

 

鱼遇雨欲语与余   2018-03-23 09:52



   5个回答 
4

在线性模型里

L1对应的是LASSO

L2对应的是Ridge

我来做个搬运工吧

为什么L1能够用来选择特征,L2却不能

L1和L2分别是什么意思



SofaSofa数据科学社区DS面试题库 DS面经

DuckU   2018-03-23 10:27

L1为啥具有稀疏性? - betten   2018-03-28 17:35
请参考我上面回答中的第一个链接。 - DuckU   2018-03-28 20:32
3

L2正则相当于是高斯先验

L1正则相当于是拉普拉斯先验


SofaSofa数据科学社区DS面试题库 DS面经

Arsjun   2018-03-23 11:49

正则项是L1norm(x)时,x满足拉普拉斯分布,比较稀疏 正则项是L2norm(x)时,x满足高斯分布,不是太稀疏 - Zealing   2018-03-23 12:53
L1为啥具有稀疏性? - betten   2018-03-28 17:36
3

L1正则化是一范式,而L2正则化是二范式。简单来说在线性模型中,L1的惩罚系数是关于w的一次方,L2的惩罚系数是关于w的平方,类似于$|w|$和$\frac{1}{2}|w|^{2}$

SofaSofa数据科学社区DS面试题库 DS面经

大黄大黄大黄   2018-03-23 22:29

L1为啥具有稀疏性? - betten   2018-03-28 17:36
3

直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏, 

SofaSofa数据科学社区DS面试题库 DS面经

yong   2018-08-03 12:06

2

还有就是同样的数,值小的时候,L1范式与l2范式差异不大,值大的时候,L2范式与L1差异大,也就是L2对大数的惩罚力度更大


SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-03-23 16:54

L1为啥具有稀疏性? - betten   2018-03-28 17:36


  相关讨论

正则项里的L1,L2是什么意思?

L0 norm 正则是什么意思?

L1范数回归与TV正则化哪个的回归效果更好?

为什么很少用L0范数惩罚正则项?

如何理解“迭代步骤本身就是一个正则化的过程”

为什么正则项通常都是用L1或者L2,而不是其他的?

最小角回归是天然的LASSO化?正则化参数怎么体现?

如何简单理解正则化

Lasso和岭回归的正则项包含截距(常数项)吗?

xgboost有正则项为什么还会过拟合呢?

  随便看看

机器学习基础

kNN算法有哪些缺点?

训练神经网络中经常提到的epoch是什么意思

怎么让DataFrame按照某一列绝对值从小到按排列?

激活函数RELU在0点的导数是多少?