GBDT的数据在使用前有什么需要注意的吗?

  统计/机器学习 监督式学习 特征选择    浏览次数:598        分享
0

RT .

 

Cypher   2020-12-13 22:29



   2个回答 
0

GBDT是一个树的boosting方法,并且用到的是回归树,一般来说树模型不需要对数据有太多的操作。如果要使用的话,GBDT也涉及到使用损失函数对预测值的负梯度方向信息进行更新模型,那么我觉得做归一化处理可以加速模型的预测效率。其次,如楼上所说,缺失值也是一个问题,GBDT对于缺失值没有很好的学习策略,不像xgboost,所以做好对数据的预处理也挺重要,但是数据的预处理和特征工程都是要做的事情,才会放到模型里学习。总结来说,没有什么要注意的,不过gbdt处理的是连续型的数据,做回归任务多一些。

SofaSofa数据科学社区DS面试题库 DS面经

Cypher   2021-03-10 10:25

0

做好数据清洗和变形,比如在sklearn中不能有空缺值,分类变量要做01处理等等。

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2020-12-20 21:27



  相关主题

对于数值特征,决策树是如何决定阈值的?   3回答

随机森林每次用多少个特征?   2回答

随机森林给出的变量的Importance是怎么来的   2回答

怎么理解lightgbm中的直方图法选择分裂点?   1回答

怎么理解决策树是模型自己在做interaction?   2回答

adaboost里的feature importance和随机森林里的feature importance是一回事吗?   1回答

对于树模型,需不需要特征筛选   2回答

随机森林中增加树的数量对于偏差和方差的影响   2回答

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?   1回答

Gradient tree boosting和random forest (随机森林) 有什么区别和联系   1回答

lightgbm使用自定义损失函数后,二分类的预测结果不再是【0,1】区间   0回答

python sklean中的决策树是用的哪一种决策树算法?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!