全部问题问题热门未解答所有标签标签收藏收藏我要提问

对于数值型变量模型怎么知道是连续变量还是离散变量？

统计/机器学习监督式学习数据预处理浏览次数：6391 分享

二维码

手机扫描二维码

案例分析面试常见题？

如果对于一个特征有四种可能取值，如所属年级大学一年级，大学二年级，大学三年级，大学四年级，此时使用LabelEncoding转换为0，1，2，3，如果不进行one-hot编码的话，输入模型后，模型是怎么理解这个特征的？拿树模型（CART）来说的话，是不是自动地就把他当做一个连续性特征进行处理了？但我总觉得这个过程中丢失了部分信息。

突然间有点混乱，关于特征的连续与离散以及预测目标的连续与离散以及one-hot编码将特征维度大量扩大的同时的好处是什么？

谢谢！

dzzxjl 2018-04-09 16:06

2个回答

把年级转为0，1，2，3，在决策树中，这个变量是会被当作连续变量处理。这样的处理并没有很精细化，如果和直接把它们进行one-hot相比。假如大学二年级（“1”）明显的与其他三个不同，决策树只能切出{0，1}和{2，3}，而不能做到{0，2，3}和{1}。

SofaSofa数据科学社区 DS面试题库 DS面经

Jiho 2018-04-09 21:10

那为什么rf，xg等模型，是不需要独热的， - 陈十一 2018-04-10 09:03

是的，不是必须的。对于决策树来说，也不是必须的。具体是不是one hot，其实影响的是performance。 - Jiho 2018-04-10 10:24

网上找到一个答案，对于xgb什么时候适合用onehot提到了：

1.对于类别有序的类别型变量，比如 age 等，当成数值型变量处理可以的。对于非类别有序的类别型变量，推荐 one-hot。但是 one-hot 会增加内存开销以及训练时间开销。

2.类别型变量在范围较小时（tqchen 给出的是[10,100]范围内）推荐使用

仅供参考

SofaSofa数据科学社区 DS面试题库 DS面经

dzzxjl 2018-04-13 10:47

相关讨论

对连续特征一定要进行分箱处理吗？

输入变量可以是离散型数据和连续性数据的组合吗？

数据一样，y却不一样的样本该怎么处理？

离散变量和连续变量可以一起放入机器学习的分类器中吗？

数据量太少能不能bootstrap

机器学习中如何将几种度量距离的量进行线性组合

z-score标准化不适用于处理什么样的数据？

分类特征的目标编码是什么意思？

怎么对特征做标准化使得数值都是正数？

二值化和Onehot表示的特征哪一个较好？

随便看看

推荐系统里的ALS是什么意思？

怎么理解图像识别里的dice系数？

seaborn.distplot直方图的y轴的数值是什么意思？

sklearn里的LabelEncoder什么用？

非方阵的逆是什么