L2-norm为什么会让模型变得更加简单?

  统计/机器学习    浏览次数: 618
0

众所周知,L1-norm通过稀疏规则将部分无用特征的权值置0,可将模型简化。而L2-norm仅仅是将每个特征的权值尽量地去减小,这样怎么就会让模型变得简单了呢?

 

dzzxjl   2018-03-14 21:46



   3个回答 
5

我的理解:有规则的数据在特征向量空间里,应该是“简单”(稀疏)的;相对的噪音,因为没有规则,在任何特征向量空间都是“复杂”(dense)的。最稀疏的prior应该是L0-norm(数个数),但是没法实现;然后就用L1-norm(减小绝对值和)去限制;再弱一点的prior是L2-norm,减小平方和,其实是不能允许有大的系数。

各种Norm都可以让系数变得稀疏,只是强度不同,还有对系数值的分布也不同。比如L2-norm(x)对应的是x满足Guassian分布。L1-norm对应Laplace。

举个例子:一共10个未知数x,Lp-norm(x)=100, p=0,1,2...。你可以看当p等于不同值时,满足以上条件的x的分布。

SofaSofa数据科学社区 DS面经 问答 实战

Zealing   2018-03-15 01:03

稀疏为什么对应着简单? - dzzxjl   2018-11-24 16:10
稀疏也就是模型参数少了,也就简单了 - wxw_pku   2018-11-28 13:34
3

这要看你怎么理解这个“简单”“复杂”了。

斯坦福的一个讲义里说,在特征都被标准化处理的情况下,回归系数越大,模型的复杂度越大。所以特征系数变成0,模型复杂度会下降;系数变小,当然也是复杂度下降。


SofaSofa数据科学社区 DS面经 问答 实战

数据痴汉   2018-03-14 22:36

2

平滑也是简单的一种体现


SofaSofa数据科学社区 DS面经 问答 实战

冰雕小猫   2018-03-15 07:20



  相关主题

关于lasso和ridge的区别   1回答

Ridge回归的解析解是什么?   3回答

LASSO是无偏的还是有偏的?   2回答

Lasso的自由度是多大?   1回答

什么时候该用LASSO,什么时候该用Ridge?   2回答

Ridge,Lasso,ElasticNet的目标函数分别是什么?   1回答

lasso path是什么意思?   1回答

为什么LASSO可以做特征选择,而Ridge却不行?   3回答

请问 L1 到底为什么具有稀疏性   4回答

惩罚系数不变,特征变大,是不是更容易被Lasso去除?   1回答

Lasso是对数值大的系数压缩大还是数值小的系数压缩大?   2回答

XGBoost为什么可以通过叶子节点的权值w的L2模平方来控制树的复杂度?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!