为什么过拟合不好？-SofaSofa

很多时候，我们用各种方法来防止过拟合。我的疑惑是过拟合为什么不好？有哪些缺陷？

雕牌 2017-05-13 14:24

8个回答

我理解的过拟合就是因为模型太复杂，太精细了，不仅学习了训练集的真实分布，还学习训练集中的随机噪音。而这个噪音就是机器学习过程中的干扰项。避免学习这些噪音就是防止过拟合。

通常来说，过拟合的模型的训练误差相对很小，测试误差相对很大；而好的模型的训练误差和测试误差都适中。

贴几个过拟合的例子。

这是个二元分类的问题。黑色是合理的分界线，绿色就是过拟合的分界线。

下面是一个回归的例子。黑色的线是看起来比较合理的回归线，而蓝色的线看起来过拟合。

SofaSofa数据科学社区 DS面试题库 DS面经

道画师 2017-05-25 09:08

过拟合是在用训练集进行模型训练的时候，为了在训练集上取得很好地效果，调整各种参数使得模型在训练集上能达到特别好的效果，此时模型会根据训练集的特点得出各种规则去拟合训练集来提高模型的效果。而训练集其实只是整个数据集中的一部分，其包含两部分特征，一部分是整个数据集共有的特征，一部分是训练集自身共有的特征，当过拟合时，模型学到的是这两部分的特征，此时拿模型去在测试集上测试时，因为测试集不包含训练集自身共有的特征，所以测试集在模型上就不会取得很好的效果。因此需要防止过拟合。

SofaSofa数据科学社区 DS面试题库 DS面经

空白回忆1325 2017-05-24 15:13

转一个网上的段子：

“不知道大家在学车的时候教练教倒库和侧方停车的时候有没有教一串口诀：类似于在车窗的XX框切XX杆的时候打满，切XX的时候回正等等，这个口诀可以顺利让你通过科目二，然而换个车或者换个场地，你就发现并没有卵用... 我们说这只是overfit了某个车和某个场地（训练数据），在新的测试集（新车新场地）上的泛化性能为0。”

一个“培养出马路杀手的”过拟合的教练，怎么能好呢！

SofaSofa数据科学社区 DS面试题库 DS面经