随机森林会发生过拟合(overfitting)吗?

  统计/机器学习 监督式学习 开放问题 随机森林    浏览次数:5014        分享
4

Random Forest会有过拟合的情况发生吗?

 

Alfred   2017-03-08 19:41



   2个回答 
13

相对于单个的Decision Tree,Random Forest不太容易over-fitting。Over-fitting的主要原因是因为模型学习了太多样本中的随机误差。因为Random Forest随机选择了样本和特征,并且将很多这样的随机树进行了平均,这些随机误差也随之被平均,乃至相互抵消了。但是这不代表它不会

很多人说Random Forest不会over-fitting。相信很多人也亲身经历过,我自己也见识过过RandomForest over-fitting了。

防止RandomFroest过拟合,一个方法是控制每个树的深度,深的树有可能会过拟合;另外一个是对模型进行交叉验证。

SofaSofa数据科学社区DS面试题库 DS面经

起个好名字   2017-03-10 22:20

Feature选少点,增加随机性,也能防止overfitting - batmanX   2017-03-12 10:53
谢谢! - Alfred   2017-03-26 13:39
2

任何机器学习算法都无法彻底避免过拟合的。

这是由机器学习的本质决定的,不是在技术层面可以修复的。 机器学习的核心在于泛化,但是数据又不可避免的包含noise,所以泛化就无法避免多多少少地也把noise包含进去。对于一个算法,它是没有办法区分noise和好数据的。因为这些通常是人也无法知道的,我们说一个toy dataset中某些数据是noise,这是我们的prior,机器是没有办法知道的。

所以随机森林当然也会过拟合,即使Breiman确实说过它不会overfitting。他口中的不会过拟合不过是指当树的数量够大多时,随着training error的持续下降,test error会稳定,而不是像很多算法一样,开始快速上升。有过手头经验的都知道,training error和test error之间始终是有差距的,他们的差值也通常可以看作是过拟合导致的。这个差值越大可以看作过拟合越厉害。

SofaSofa数据科学社区DS面试题库 DS面经

Jiho   2019-05-15 14:06



  相关主题

决策树模型有什么特点以及如何防止过拟合?   2回答

Random Forest 过拟合有什么好办法?   3回答

线下训练集和测试集防过拟合   1回答

为什么过拟合不好?   8回答

训练集加入噪声防止over fitting还是加剧overfitting?   3回答

unsupervised learning也会over-fitting吗?   2回答

xgboost是如何实现early stopping防止过拟合的?   1回答

如何理解“迭代步骤本身就是一个正则化的过程”   2回答

正则项里的L1,L2是什么意思?   1回答

Lasso和岭回归的正则项包含截距(常数项)吗?   2回答

L0 norm 正则是什么意思?   2回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!