L1正则化和L2正则化的区别?L1为啥具有稀疏性?

  统计/机器学习    浏览次数: 1348
0

机器学习萌新一枚。

只知道正则化可以用来调节系数权重,处理过拟合

求大佬告知其中的区别,以及L1为啥具有稀疏性?

 

betten   2018-03-23 09:52



   5个回答 
4

在线性模型里

L1对应的是LASSO

L2对应的是Ridge

我来做个搬运工吧

为什么L1能够用来选择特征,L2却不能

L1和L2分别是什么意思



SofaSofa数据科学社区 DS面经 问答 实战

DuckU   2018-03-23 10:27

L1为啥具有稀疏性? - betten   2018-03-28 17:35
请参考我上面回答中的第一个链接。 - DuckU   2018-03-28 20:32
3

L2正则相当于是高斯先验

L1正则相当于是拉普拉斯先验


SofaSofa数据科学社区 DS面经 问答 实战

Arsjun   2018-03-23 11:49

正则项是L1norm(x)时,x满足拉普拉斯分布,比较稀疏 正则项是L2norm(x)时,x满足高斯分布,不是太稀疏 - Zealing   2018-03-23 12:53
L1为啥具有稀疏性? - betten   2018-03-28 17:36
3

L1正则化是一范式,而L2正则化是二范式。简单来说在线性模型中,L1的惩罚系数是关于w的一次方,L2的惩罚系数是关于w的平方,类似于$|w|$和$\frac{1}{2}|w|^{2}$

SofaSofa数据科学社区 DS面经 问答 实战

大黄大黄大黄   2018-03-23 22:29

L1为啥具有稀疏性? - betten   2018-03-28 17:36
2

还有就是同样的数,值小的时候,L1范式与l2范式差异不大,值大的时候,L2范式与L1差异大,也就是L2对大数的惩罚力度更大


SofaSofa数据科学社区 DS面经 问答 实战

陈十一   2018-03-23 16:54

L1为啥具有稀疏性? - betten   2018-03-28 17:36
2

直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏, 

SofaSofa数据科学社区 DS面经 问答 实战

yong   2018-08-03 12:06



  相关主题

正则项里的L1,L2是什么意思?   1回答

L0 norm 正则是什么意思?   1回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答

Lasso和岭回归的正则项包含截距(常数项)吗?   2回答

如何简单理解正则化   2回答

XGBoost损失函数中正则项的理解   1回答

无监督学习(比如K Means)里怎么加正则项来防止过拟合   3回答

为什么过拟合不好?   8回答

线下训练集和测试集防过拟合   1回答

决策树模型有什么特点以及如何防止过拟合?   2回答

Random Forest 过拟合有什么好办法?   3回答

一个凸函数加上L2正则项之后,它还凸的吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!