对连续特征一定要进行分箱处理吗?

  统计/机器学习 监督式学习 数据预处理    浏览次数:510        分享
0

对连续的数值特征一定要进行分箱处理吗?如果是用xgboost,是不是就不用分箱了?

 

zzzz   2019-07-13 16:33



   3个回答 
3

是的,树模型不用进行分箱,但线性模型不分箱会导致倾斜

SofaSofa数据科学社区DS面试题库 DS面经

cabbage   2019-07-15 13:05

1

对于线性模型来说,如果特征和y不是线性的关系的话,我们会人为地对特征进行离散化,也就是分箱处理。

但是分箱也有坏处,毕竟它丢失了一部分信息,而且在独热处理后又增加了特征的个数。所以整体上来说,是降低了bias,增大了variance。

对于xgb这种树一类的模型,可以不用分箱。

SofaSofa数据科学社区DS面试题库 DS面经

Josh_Josh   2019-07-16 07:15

1

其实对xgboosting,分箱有时候也有助于防止过拟合

SofaSofa数据科学社区DS面试题库 DS面经

我小宋   2019-11-19 09:22



  相关主题

离散变量和连续变量可以一起放入机器学习的分类器中吗?   1回答

数据一样,y却不一样的样本该怎么处理?   2回答

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答

什么时候需要对y或者特征进行对数变换?   1回答

怎么对特征做标准化使得数值都是正数?   3回答

在训练前数据处理的时候,怎么剔除异常值?   2回答

dummy variable是n个还是n-1个   3回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答

z-score标准化不适用于处理什么样的数据?   1回答

训练集中重复的样本需要被删除吗?   3回答

为什么说非平衡(倾斜)的数据不好?   2回答

线性回归的变量归一化的问题   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!