训练集加入噪声防止over fitting还是加剧overfitting?

  统计/机器学习 数据预处理 数据降维 特征选择    浏览次数: 467
1

如题,训练集中加入噪声,是有效防止了over fitting,还是加剧了overfitting?我看两种说法都有。

 

sjcd   2018-04-07 11:15



   3个回答 
3

引入噪声通常是为了防止过拟合的,噪声一般能提高模型的泛化能力。

从另一个角度来看,训练集和测试集的区别往往就是一些噪声。



kidd23   2018-04-07 11:33

我看有的说法是“过拟合是因为模型学到了训练集中的噪声,并且基于噪声进行了预测”,感觉也有点道理。 - sjcd   2018-04-07 14:09
2

加噪声可以降低过拟合。可以想象高纬数据空间只有很少的training data,我们感兴趣的子空间就有太多漏洞,testing data出现在这些漏洞就会有很大的误差。两个思路去填充漏洞,一个是加很强的光滑函数(比如高斯),另一个是人工造data,比如加噪声后让training data小幅度震动,减少漏洞。

但是直接在数据上加噪声效果很难说,高级点的做法是在抽象的投影空间内加噪声,比如在主要特征(variational autoencoder)或模型参数(mcmc)上加噪声。

Zealing   2018-04-07 17:12

1

sjcd提到过拟合是因为模型学到了训练集中的噪声,并且基于噪声进行了预测

这话没错,但是这种情况下的过拟合可以通过交叉验证来防止。

在没有噪声的完美数据中,即使有交叉验证,也有可能发生过拟合。


曾经是科比   2018-04-09 11:42



  相关主题

如何简单理解正则化   2回答

为什么过拟合不好?   8回答

线下训练集和测试集防过拟合   1回答

t-SNE如何实现降维?   1回答

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?   1回答

决策树模型有什么特点以及如何防止过拟合?   2回答

Random Forest 过拟合有什么好办法?   3回答

分类变量,进行One hot编码,维度升高,如何处理?   3回答

hashing trick或者feature hashing是什么   1回答

维数大于样本数的问题   3回答

python里怎么实现t-SNE降维?   1回答

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   5回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!