众所周知,L1-norm通过稀疏规则将部分无用特征的权值置0,可将模型简化。而L2-norm仅仅是将每个特征的权值尽量地去减小,这样怎么就会让模型变得简单了呢?
3个回答
我的理解:有规则的数据在特征向量空间里,应该是“简单”(稀疏)的;相对的噪音,因为没有规则,在任何特征向量空间都是“复杂”(dense)的。最稀疏的prior应该是L0-norm(数个数),但是没法实现;然后就用L1-norm(减小绝对值和)去限制;再弱一点的prior是L2-norm,减小平方和,其实是不能允许有大的系数。
各种Norm都可以让系数变得稀疏,只是强度不同,还有对系数值的分布也不同。比如L2-norm(x)对应的是x满足Guassian分布。L1-norm对应Laplace。
举个例子:一共10个未知数x,Lp-norm(x)=100, p=0,1,2...。你可以看当p等于不同值时,满足以上条件的x的分布。
SofaSofa数据科学社区 DS面经 问答 实战这要看你怎么理解这个“简单”“复杂”了。
斯坦福的一个讲义里说,在特征都被标准化处理的情况下,回归系数越大,模型的复杂度越大。所以特征系数变成0,模型复杂度会下降;系数变小,当然也是复杂度下降。
平滑也是简单的一种体现
相关主题
Ridge回归的解析解是什么?
3回答
lasso path是什么意思?
1回答
Lasso的自由度是多大?
1回答
关于lasso和ridge的区别
1回答
Ridge,Lasso,ElasticNet的目标函数分别是什么?
1回答
请问 L1 到底为什么具有稀疏性
4回答
post lasso是什么意思?
2回答
LASSO是无偏的还是有偏的?
2回答
为什么LASSO可以做特征选择,而Ridge却不行?
3回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!