GBDT的数据在使用前有什么需要注意的吗?

  统计/机器学习 监督式学习 特征选择    浏览次数:1345        分享
0

RT .

 

Cypher   2020-12-13 22:29



   2个回答 
0

GBDT是一个树的boosting方法,并且用到的是回归树,一般来说树模型不需要对数据有太多的操作。如果要使用的话,GBDT也涉及到使用损失函数对预测值的负梯度方向信息进行更新模型,那么我觉得做归一化处理可以加速模型的预测效率。其次,如楼上所说,缺失值也是一个问题,GBDT对于缺失值没有很好的学习策略,不像xgboost,所以做好对数据的预处理也挺重要,但是数据的预处理和特征工程都是要做的事情,才会放到模型里学习。总结来说,没有什么要注意的,不过gbdt处理的是连续型的数据,做回归任务多一些。

SofaSofa数据科学社区DS面试题库 DS面经

Cypher   2021-03-10 10:25

0

做好数据清洗和变形,比如在sklearn中不能有空缺值,分类变量要做01处理等等。

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2020-12-20 21:27



  相关主题

对于数值特征,决策树是如何决定阈值的?   3回答

adaboost里的feature importance和随机森林里的feature importance是一回事吗?   1回答

怎么理解lightgbm中的直方图法选择分裂点?   1回答

对于树模型,需不需要特征筛选   2回答

随机森林每次用多少个特征?   2回答

使用lightgbm,训练前对数据特征赋予权重是否对结果有影响   1回答

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?   1回答

怎么理解决策树是模型自己在做interaction?   2回答

树模型有哪些假设?比如,对样本数据的分布有做假设吗?   0回答

随机森林给出的变量的Importance是怎么来的   2回答

Adaboost里的树有没有可能权重是负数?   1回答

gbdt为什么需要泰勒公式展开进行节点分裂计算   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!