为什么正则项通常都是用L1或者L2,而不是其他的?

  统计/机器学习 回归分析 监督式学习 开放问题    浏览次数: 392
0

为什么正则项通常都是用L1或者L2,而不是其他的?比如L0.5,L0。


既然它们也是正则项,那么肯定也能起到防止过拟合的作用。但是通常我们都不会去尝试L0,L0.5,包括一切Lp,p<1。


谢谢您的回答

 

robertt   2018-06-08 05:36



   2个回答 
2

L0是非零个数,最稀疏,但是NP hard问题,不容易求解。L1对应Laplace分布,L2对应高斯分布,比较容易理解。至于Lp,p<1,可能求解很难,所以不常用。

L0一般用L1替代。

Zealing   2018-06-08 13:07

1

其实除了单纯的L1,L2,常用的还有L1和L2的混合,称作ElasticNet(参考ElasticNet的目标函数是什么)


DuckU   2018-07-04 23:47



  相关主题

L0 norm 正则是什么意思?   1回答

正则项里的L1,L2是什么意思?   1回答

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   5回答

Lasso和岭回归的正则项包含截距(常数项)吗?   2回答

无监督学习(比如K Means)里怎么加正则项来防止过拟合   3回答

XGBoost损失函数中正则项的理解   1回答

如何简单理解正则化   2回答

为什么过拟合不好?   8回答

线下训练集和测试集防过拟合   1回答

决策树模型有什么特点以及如何防止过拟合?   2回答

Random Forest 过拟合有什么好办法?   3回答

一个凸函数加上L2正则项之后,它还凸的吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!