类别型变量如何分箱

  统计/机器学习 数据预处理 特征选择    浏览次数:308        分享
1

类别型变量如何分箱,比如省份;

 

climber   2021-09-07 14:58



   2个回答 
0

类别型变量为什么要分箱?不都分好了吗?我猜你说的是划分成更大的类?

如果拿省份来举例子,那可以按照中国地理区域划分(华北、东北、华东、华中、华南、西南、西北、港澳台地区) 来进行分类

SofaSofa数据科学社区DS面试题库 DS面经

cabbage   2021-09-17 15:37

0
分类变量的分箱(或者说是再分箱)应该就是所谓的数据泛化,用高层级代替低层级,最好还是手动分箱:比如车主信息表有汽车类型,大部分应该都是大众品牌,只有极少的豪华车,就可以自定义把比如法拉利,劳斯莱斯这样的划分为豪车品牌。
SofaSofa数据科学社区DS面试题库 DS面经

作业没写做么办   2021-09-18 09:07



  相关主题

如何检测判断特征的多重共线性?   2回答

在进行数值编码时出现错误,怎么解决?   1回答

如果一列特征有90%以上的数值都是0,这个特征还有用吗?   4回答

python中如何产生交互项?   2回答

怎么处理训练集中有而测试集中没有的那些特征?   4回答

wrapper特征选择法是什么意思?   1回答

什么情况下需要做特征选择?   1回答

对于组合特征怎么理解?   1回答

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?   1回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

使用uci的社区犯罪率做回归,怎么选择因变量呢   2回答

partial dependence是什么意思?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!