L1正则化和L2正则化的区别?L1为啥具有稀疏性?

  统计/机器学习    浏览次数: 754
0

机器学习萌新一枚。

只知道正则化可以用来调节系数权重,处理过拟合

求大佬告知其中的区别,以及L1为啥具有稀疏性?

 

betten   2018-03-23 09:52



   5个回答 
4

在线性模型里

L1对应的是LASSO

L2对应的是Ridge

我来做个搬运工吧

为什么L1能够用来选择特征,L2却不能

L1和L2分别是什么意思



DuckU   2018-03-23 10:27

L1为啥具有稀疏性? - betten   2018-03-28 17:35
请参考我上面回答中的第一个链接。 - DuckU   2018-03-28 20:32
3

L2正则相当于是高斯先验

L1正则相当于是拉普拉斯先验


Arsjun   2018-03-23 11:49

正则项是L1norm(x)时,x满足拉普拉斯分布,比较稀疏 正则项是L2norm(x)时,x满足高斯分布,不是太稀疏 - Zealing   2018-03-23 12:53
L1为啥具有稀疏性? - betten   2018-03-28 17:36
3

L1正则化是一范式,而L2正则化是二范式。简单来说在线性模型中,L1的惩罚系数是关于w的一次方,L2的惩罚系数是关于w的平方,类似于$|w|$和$\frac{1}{2}|w|^{2}$

大黄大黄大黄   2018-03-23 22:29

L1为啥具有稀疏性? - betten   2018-03-28 17:36
2

还有就是同样的数,值小的时候,L1范式与l2范式差异不大,值大的时候,L2范式与L1差异大,也就是L2对大数的惩罚力度更大


陈十一   2018-03-23 16:54

L1为啥具有稀疏性? - betten   2018-03-28 17:36
2

直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏, 

yong   2018-08-03 12:06



  相关主题

正则项里的L1,L2是什么意思?   1回答

L0 norm 正则是什么意思?   1回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答

无监督学习(比如K Means)里怎么加正则项来防止过拟合   3回答

如何简单理解正则化   1回答

XGBoost损失函数中正则项的理解   1回答

为什么过拟合不好?   6回答

线下训练集和测试集防过拟合   1回答

决策树模型有什么特点以及如何防止过拟合?   2回答

Random Forest 过拟合有什么好办法?   3回答

L2-norm为什么会让模型变得更加简单?   3回答

关于lasso和ridge的区别   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!