L2-norm为什么会让模型变得更加简单?

  统计/机器学习    浏览次数:5486        分享
0

众所周知,L1-norm通过稀疏规则将部分无用特征的权值置0,可将模型简化。而L2-norm仅仅是将每个特征的权值尽量地去减小,这样怎么就会让模型变得简单了呢?

 

dzzxjl   2018-03-14 21:46



   3个回答 
5

我的理解:有规则的数据在特定的特征向量空间里,应该是“简单”(稀疏)的;相对的白噪音,因为没有规律,在任何特征向量空间都是“复杂”(dense)的。比如说固定频率的信号,在傅里叶变换中只有一个非零值,而白噪音的投影全是非零值。

最稀疏的prior应该是L0-norm(数个数),但因为是NP-hard问题,没法求解;然后就用L1-norm(减小绝对值和)去代替L0-norm;L2-norm的洗属性更弱一点,不能允许有大的参数,但是很难让参数为0。

各种Norm都可以让系数变得稀疏,只是强度不同,还有对系数值的分布也不同。比如L2-norm(x)对应的是x满足Guassian分布。L1-norm对应Laplace。

举个例子:一共10个未知数x,Lp-norm(x)=100, p=0,1,2...。你可以看当p等于不同值时,满足以上条件的x的分布。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-03-15 01:03

稀疏为什么对应着简单? - dzzxjl   2018-11-24 16:10
稀疏也就是模型参数少了,也就简单了 - wxw_pku   2018-11-28 13:34
3

这要看你怎么理解这个“简单”“复杂”了。

斯坦福的一个讲义里说,在特征都被标准化处理的情况下,回归系数越大,模型的复杂度越大。所以特征系数变成0,模型复杂度会下降;系数变小,当然也是复杂度下降。


SofaSofa数据科学社区DS面试题库 DS面经

数据痴汉   2018-03-14 22:36

2

平滑也是简单的一种体现


SofaSofa数据科学社区DS面试题库 DS面经

冰雕小猫   2018-03-15 07:20



  相关讨论

关于lasso和ridge的区别

LASSO是无偏的还是有偏的?

Ridge回归的解析解是什么?

Lasso的自由度是多大?

什么时候该用LASSO,什么时候该用Ridge?

lasso path是什么意思?

为什么LASSO可以做特征选择,而Ridge却不行?

请问 L1 到底为什么具有稀疏性

坐标下降法求LASSO问题怎样执行

一道求解L2损失的算法题

  随便看看

如何获取pyspark DataFrame的行数和列数?

什么是SMOTE sampling方法?

人工神经网络有哪些常用的激活函数?

Random Forest可以用来做聚类?

怎么把pandas dataframe中一列英文文本全部转成小写?