为什么过拟合不好?

  统计/机器学习 开放问题    浏览次数: 386
4

很多时候,我们用各种方法来防止过拟合。我的疑惑是过拟合为什么不好?有哪些缺陷?

 

雕牌   2017-05-13 14:24



   5个回答 
9

我理解的过拟合就是因为模型太复杂,太精细了,不仅学习了训练集的真实分布,还学习训练集中的随机噪音。而这个噪音就是机器学习过程中的干扰项。避免学习这些噪音就是防止过拟合。


通常来说,过拟合的模型的训练误差相对很小,测试误差相对很大;而好的模型的训练误差和测试误差都适中。


贴几个过拟合的例子。

这是个二元分类的问题。黑色是合理的分界线,绿色就是过拟合的分界线。

下面是一个回归的例子。黑色的线是看起来比较合理的回归线,而蓝色的线看起来过拟合。


道画师   2017-05-25 09:08

6

过拟合是在用训练集进行模型训练的时候,为了在训练集上取得很好地效果,调整各种参数使得模型在训练集上能达到特别好的效果,此时模型会根据训练集的特点得出各种规则去拟合训练集来提高模型的效果。而训练集其实只是整个数据集中的一部分,其包含两部分特征,一部分是整个数据集共有的特征,一部分是训练集自身共有的特征,当过拟合时,模型学到的是这两部分的特征,此时拿模型去在测试集上测试时,因为测试集不包含训练集自身共有的特征,所以测试集在模型上就不会取得很好的效果。因此需要防止过拟合。

空白回忆1325   2017-05-24 15:13

3

转一个网上的段子:

不知道大家在学车的时候教练教倒库和侧方停车的时候有没有教一串口诀:类似于在车窗的XX框切XX杆的时候打满,切XX的时候回正等等,这个口诀可以顺利让你通过科目二,然而换个车或者换个场地,你就发现并没有卵用... 我们说这只是overfit了某个车和某个场地(训练数据),在新的测试集(新车新场地)上的泛化性能为0。”


一个“培养出马路杀手的”过拟合的教练,怎么能好呢!



姜金杰   2018-02-07 00:21

2

一个过拟合的模型,它的泛化程度通常不好。也就是在一个数据集上表现的抢眼,在其他数据集上表现就不好了,尽管这些数据集都可能是来自同一个总体分布。


CatalanFubini   2017-09-15 14:44

2

我们做机器学习的一个目的就是预测

对训练集所做的拟合都是在已知目标变量的基础上进行的,拟合的再好,这些都是已经知道的

最终的目的就是为了预测,就是能够对未知的事情进行预测

而 过拟合恰恰最大的缺陷在这里,已知的拟合的好,未知的却不能很好预测

所以当然要解决这个问题

博观   2018-02-14 20:55



  相关问题

线下训练集和测试集防过拟合   1回答

无监督学习(比如K Means)里怎么加正则项来防止过拟合   2回答

决策树模型有什么特点以及如何防止过拟合?   2回答

随机森林会发生过拟合(overfitting)吗?   1回答

unsupervised learning也会over-fitting吗?   2回答

机器学习算法的鲁棒性是什么意思?   1回答

如何理解PAC Learning?   1回答

非参模型是什么意思?有哪些模型算是非参的?   2回答

在线算法(online algorithm)是什么意思?   2回答

建立一个预测模型的流程是什么   1回答

hyperparameter与parameter的区别?   3回答

Bagging是什么意思?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!