类别型变量如何分箱,比如省份;
2个回答
分类变量的分箱(或者说是再分箱)应该就是所谓的数据泛化,用高层级代替低层级,最好还是手动分箱:比如车主信息表有汽车类型,大部分应该都是大众品牌,只有极少的豪华车,就可以自定义把比如法拉利,劳斯莱斯这样的划分为豪车品牌。
SofaSofa数据科学社区DS面试题库 DS面经
SofaSofa数据科学社区DS面试题库 DS面经
类别型变量为什么要分箱?不都分好了吗?我猜你说的是划分成更大的类?
如果拿省份来举例子,那可以按照中国地理区域划分(华北、东北、华东、华中、华南、西南、西北、港澳台地区) 来进行分类
SofaSofa数据科学社区DS面试题库 DS面经