一个特征有两个可选的值,只需满足其中一个即可,该如何处理?

  统计/机器学习 特征选择 Python    浏览次数: 243
0

比如,

    car_length    label

0    1                  1

1    2                  0

2    1.5,2            1

car_length 这个特征可以是0行是1,1行是2, 2行是1,2(代表取1或者2都可以)。

我想用一些树模型进行拟合,比如,gdbt,xgboost,请问该如何对car_length 这个特征进行处理?


 

rosefun   2018-05-28 20:33



   1个回答 
1

如果是数值的话,可以取这两个的平均值或者最大值或者最小值。

然后你看交叉验证的结果,哪个好就用哪个。

sasa   2018-05-29 05:27

好的,感谢! - rosefun   2018-05-31 11:18


  相关主题

对于组合特征怎么理解?   1回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

partial dependence是什么意思?   0回答

AIC可以是负数吗?   1回答

关于K均值聚类的权重问题   2回答

python使用MFCC特征训练GMMHMM模型   2回答

随机森林给出的变量的Importance是怎么来的   1回答

怎么理解决策树是模型自己在做interaction?   1回答

对于数值特征,决策树是如何决定阈值的?   3回答

对于树模型,需不需要特征筛选   1回答

随机森林每次用多少个特征?   2回答

gbdt如何对连续特征离散化   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!