训练集加入噪声防止over fitting还是加剧overfitting?

  统计/机器学习 数据预处理 数据降维 特征选择    浏览次数:7910        分享
1

如题,训练集中加入噪声,是有效防止了over fitting,还是加剧了overfitting?我看两种说法都有。

 

sjcd   2018-04-07 11:15



   3个回答 
4

引入噪声通常是为了防止过拟合的,噪声一般能提高模型的泛化能力。

从另一个角度来看,训练集和测试集的区别往往就是一些噪声。

SofaSofa数据科学社区DS面试题库 DS面经

kidd23   2018-04-07 11:33

我看有的说法是“过拟合是因为模型学到了训练集中的噪声,并且基于噪声进行了预测”,感觉也有点道理。 - sjcd   2018-04-07 14:09
2

加噪声可以降低过拟合。可以想象高纬数据空间只有很少的training data,我们感兴趣的子空间就有太多漏洞,testing data出现在这些漏洞就会有很大的误差。两个思路去填充漏洞,一个是加很强的光滑函数(比如高斯),另一个是人工造data,比如加噪声后让training data小幅度震动,减少漏洞。

但是直接在数据上加噪声效果很难说,高级点的做法是在抽象的投影空间内加噪声,比如在主要特征(variational autoencoder)或模型参数(mcmc)上加噪声。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-04-07 17:12

1

题主sjcd提到过拟合是因为模型学到了训练集中的噪声,并且基于噪声进行了预测

这话没错,但是这种情况下的过拟合可以通过交叉验证来防止。

在没有噪声的完美数据中,即使有交叉验证,也有可能发生过拟合。

SofaSofa数据科学社区DS面试题库 DS面经

曾经是科比   2018-04-09 11:42



  相关讨论

关于LR过拟合的数据集问题

如何简单理解正则化

为什么过拟合不好?

线下训练集和测试集防过拟合

为什么GBDT比RF更容易overfitting?

为什么很少用L0范数惩罚正则项?

决策树模型有什么特点以及如何防止过拟合?

t-SNE如何实现降维?

BatchNorm层能够防止神经网络过拟合嘛?

Random Forest 过拟合有什么好办法?

  随便看看

matplotlib画图怎么确保横坐标和纵坐标的单位长度一致?

决策树、随机森林中的多重共线性问题

样本权重大小不同时,用什么分类算法比较合适?

怎么给plt.subplot加一个主标题?

wide-deep模型里的wide和deep分别是指什么意思?