类别型变量如何分箱

  统计/机器学习 数据预处理 特征选择    浏览次数:1390        分享
1

类别型变量如何分箱,比如省份;

 

climber   2021-09-07 14:58



   2个回答 
1
分类变量的分箱(或者说是再分箱)应该就是所谓的数据泛化,用高层级代替低层级,最好还是手动分箱:比如车主信息表有汽车类型,大部分应该都是大众品牌,只有极少的豪华车,就可以自定义把比如法拉利,劳斯莱斯这样的划分为豪车品牌。
SofaSofa数据科学社区DS面试题库 DS面经

作业没写做么办   2021-09-18 09:07

0

类别型变量为什么要分箱?不都分好了吗?我猜你说的是划分成更大的类?

如果拿省份来举例子,那可以按照中国地理区域划分(华北、东北、华东、华中、华南、西南、西北、港澳台地区) 来进行分类

SofaSofa数据科学社区DS面试题库 DS面经

cabbage   2021-09-17 15:37



  相关讨论

如何检测判断特征的多重共线性?

在进行数值编码时出现错误,怎么解决?

如果一列特征有90%以上的数值都是0,这个特征还有用吗?

python中如何产生交互项?

怎么处理训练集中有而测试集中没有的那些特征?

对于组合特征怎么理解?

wrapper特征选择法是什么意思?

什么情况下需要做特征选择?

gbdt如何对连续特征离散化

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?

  随便看看

matplotlib画图怎么确保横坐标和纵坐标的单位长度一致?

训练神经网络中经常提到的epoch是什么意思

线性回归是机器学习算法吗?

分类变量,进行One hot编码,维度升高,如何处理?

numpy里生成单位矩阵?