对连续特征一定要进行分箱处理吗?

  统计/机器学习 监督式学习 数据预处理    浏览次数:2254        分享
0

对连续的数值特征一定要进行分箱处理吗?如果是用xgboost,是不是就不用分箱了?

 

zzzz   2019-07-13 16:33



   4个回答 
3

是的,树模型不用进行分箱,但线性模型不分箱会导致倾斜

SofaSofa数据科学社区DS面试题库 DS面经

cabbage   2019-07-15 13:05

2

其实对xgboosting,分箱有时候也有助于防止过拟合

SofaSofa数据科学社区DS面试题库 DS面经

我小宋   2019-11-19 09:22

2

分算法,树里面c4.5和cart有自己的方法进行连续型特征的处理,不需要分箱,但是在信用评分卡中就需要分箱,不仅对连续特征要分箱,比如年龄,年收入,对于多值的分类数据也需要分类,比如车品牌,很多的大众品牌车辆,还有几辆跑车类别,那就需要进行分类变量的再分箱

SofaSofa数据科学社区DS面试题库 DS面经

作业没写做么办   2020-03-18 16:31

1

对于线性模型来说,如果特征和y不是线性的关系的话,我们会人为地对特征进行离散化,也就是分箱处理。

但是分箱也有坏处,毕竟它丢失了一部分信息,而且在独热处理后又增加了特征的个数。所以整体上来说,是降低了bias,增大了variance。

对于xgb这种树一类的模型,可以不用分箱。

SofaSofa数据科学社区DS面试题库 DS面经

Josh_Josh   2019-07-16 07:15



  相关主题

输入变量可以是离散型数据和连续性数据的组合吗?   3回答

数据一样,y却不一样的样本该怎么处理?   2回答

离散变量和连续变量可以一起放入机器学习的分类器中吗?   1回答

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答

z-score标准化不适用于处理什么样的数据?   1回答

数据白化是什么意思?   1回答

在训练前数据处理的时候,怎么剔除异常值?   2回答

怎么对特征做标准化使得数值都是正数?   3回答

机器学习中的过采样和欠采样是什么意思?   2回答

二值化和Onehot表示的特征哪一个较好?   1回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答

机器学习中的维度灾难怎么防止和克服?   0回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!