xgboost有正则项为什么还会过拟合呢?

  统计/机器学习 监督式学习 开放问题    浏览次数:1177        分享
0

xgboost也会出现过拟合的情况,但是xgboost是含有正则项的,为什么还会过拟合呢?

 

阿梳卡   2019-03-02 10:47



   5个回答 
5

正则项只是防止过拟合,不能杜绝过拟合,因为在训练模型前预判过拟合也不是一件容易的事情。

xgboost中有多个变量可以防止过拟合,除了正则项,还有控制树的深度和叶子数,以及早停。

如果依旧过拟合,你可以考虑调整这些变量。这些变量在一种合适的搭配下合作才能有效阻止过拟合。但是最终判断是否过拟合还是需要用测试集或者交叉验证。

SofaSofa数据科学社区DS面试题库 DS面经

淡淡的   2019-04-09 14:06

4

有正则项只是一定程度上减轻了过拟合的情况吧,肯定不可能过拟合完全不出现的

SofaSofa数据科学社区DS面试题库 DS面经

dzzxjl   2019-03-02 13:53

2

数据集里多多少少会有噪音,有噪音就会有过拟合的现象发生,只是程度大小而已。正则化本身并不能去除数据里的噪音。

正如其他人说的,要防止过拟合,你也需要对xgb模型中的超参进行调参。

SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2019-05-10 12:36

1

为什么我已经在运动了还是会肥呢?

SofaSofa数据科学社区DS面试题库 DS面经

quentin   2019-05-10 17:25

1

防止过拟合并等价于阻止过拟合。相当于高速公路上的减速带,只能减速,并不能保证不撞车。

下面这个例子就是xgboost随着模型中树的个数增加,xgboost开始过拟合。

SofaSofa数据科学社区DS面试题库 DS面经

我小宋   2019-12-02 13:44



  相关主题

XGBoost损失函数中正则项的理解   1回答

xgboost是如何实现early stopping防止过拟合的?   1回答

L1范数回归与TV正则化哪个的回归效果更好?   1回答

L0 norm 正则是什么意思?   2回答

正则项里的L1,L2是什么意思?   1回答

Lasso和岭回归的正则项包含截距(常数项)吗?   2回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答

最小角回归是天然的LASSO化?正则化参数怎么体现?   3回答

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   5回答

如何理解“迭代步骤本身就是一个正则化的过程”   2回答

如何简单理解正则化   4回答

XGBoost为什么可以通过叶子节点的权值w的L2模平方来控制树的复杂度?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!