如果用xgboost模型,那么还需要先做feature selection吗?

  统计/机器学习 监督式学习 特征选择    浏览次数: 333
0

如果用xgboost模型,那么还需要先做feature selection吗?

还是说不管三七二十一直接把完整的数据一起扔到xgboost里训练?

 

zzzz   2018-09-10 07:27



   3个回答 
3

当然是需要的。

逆向思维一下,如果你加一堆不相关的变量到你的数据集里,然后再训练一次模型,你觉得模型的精度是下降的可能性大还是提高的可能性大?

SofaSofa数据科学社区 DS面经 问答 实战

MangoCoke   2018-09-10 11:25

2

一般来说,xgboost(包括random forests)对冗余的变量是不敏感的。

但是正如MangoCoke说的,“垃圾”变量肯定是对模型有负面影响的。

另外一方面,xgboost或者说每棵树在选择分叉点的时候,都是以贪婪的方式选择局部最优,所以有些特征可能在局部不错,但是从整体上看降低了模型整体的精度。

再有就是不相关或者重复的变量会影响最终的feature importance。

SofaSofa数据科学社区 DS面经 问答 实战

abuu   2018-09-17 14:53

1

多余的变量对xgboost或者gbdt都是有影响的,所以做特征选择肯定是有帮助的。

另外可以参考一下:对于xgboost,还有必要做很多特征工程吗?

SofaSofa数据科学社区 DS面经 问答 实战

sasa   2018-09-21 08:21



  相关主题

对于xgboost,还有必要做很多特征工程吗?   3回答

在random forest和xgboost这类集成树模型中是如何计算_feature_importance的   1回答

xgboost是怎么做到regularization的?   2回答

xgboost展开到二阶导数有什么好处啊   1回答

到底什么时候用lightgbm什么时候用xgb   1回答

stack多个xgboost效果并不理想   4回答

为什么lightgbm比xgb快?   2回答

xgboost怎么调参?   8回答

xgboost中的参数min_child_weight是什么意思?   1回答

xgboost的FIT问题   1回答

把XGBRegressor保存到本地文件并调用   1回答

为啥Xgboost比GradientBoost好那么多?   5回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!