为什么正则项通常都是用L1或者L2,而不是其他的?

  统计/机器学习 回归分析 监督式学习 开放问题    浏览次数: 128
0

为什么正则项通常都是用L1或者L2,而不是其他的?比如L0.5,L0。


既然它们也是正则项,那么肯定也能起到防止过拟合的作用。但是通常我们都不会去尝试L0,L0.5,包括一切Lp,p<1。


谢谢您的回答

 

robert   2018-06-08 05:36



   1个回答 
1

L0是非零个数,最稀疏,但是NP hard问题,不容易求解。L1对应Laplace分布,L2对应高斯分布,比较容易理解。至于Lp,p<1,可能求解很难,所以不常用。

L0一般用L1替代。

Zealing   2018-06-08 13:07



  相关主题

L0 norm 正则是什么意思?   1回答

正则项里的L1,L2是什么意思?   1回答

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   4回答

无监督学习(比如K Means)里怎么加正则项来防止过拟合   3回答

如何简单理解正则化   1回答

什么时候该用LASSO,什么时候该用Ridge?   2回答

LASSO是无偏的还是有偏的?   0回答

L2-norm为什么会让模型变得更加简单?   3回答

为什么过拟合不好?   6回答

Ridge,Lasso,ElasticNet的目标函数分别是什么?   1回答

线下训练集和测试集防过拟合   1回答

为什么LASSO可以做特征选择,而Ridge却不行?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!