训练集加入噪声防止over fitting还是加剧overfitting？-SofaSofa

如题，训练集中加入噪声，是有效防止了over fitting，还是加剧了overfitting？我看两种说法都有。

sjcd 2018-04-07 11:15

3个回答

引入噪声通常是为了防止过拟合的，噪声一般能提高模型的泛化能力。

从另一个角度来看，训练集和测试集的区别往往就是一些噪声。

kidd23 2018-04-07 11:33

我看有的说法是“过拟合是因为模型学到了训练集中的噪声，并且基于噪声进行了预测”，感觉也有点道理。 - sjcd 2018-04-07 14:09

加噪声可以降低过拟合。可以想象高纬数据空间只有很少的training data，我们感兴趣的子空间就有太多漏洞，testing data出现在这些漏洞就会有很大的误差。两个思路去填充漏洞，一个是加很强的光滑函数（比如高斯），另一个是人工造data，比如加噪声后让training data小幅度震动，减少漏洞。

但是直接在数据上加噪声效果很难说，高级点的做法是在抽象的投影空间内加噪声，比如在主要特征（variational autoencoder）或模型参数（mcmc）上加噪声。

SofaSofa数据科学社区 DS面试题库 DS面经

Zealing 2018-04-07 17:12

题主sjcd提到过拟合是因为模型学到了训练集中的噪声，并且基于噪声进行了预测

这话没错，但是这种情况下的过拟合可以通过交叉验证来防止。

在没有噪声的完美数据中，即使有交叉验证，也有可能发生过拟合。

SofaSofa数据科学社区 DS面试题库 DS面经

曾经是科比 2018-04-09 11:42

训练集加入噪声防止over fitting还是加剧overfitting？

Warning

3个回答

Warning

Warning

Warning