关于sklearn独热的问题,想把两类编成一个独热

  统计/机器学习 数据预处理 Python    浏览次数:840        分享
0

        长度    宽度

  a= ([[240.,  20.],
       [ 90.,   6.],
       [240.,   6.],
       [180.,  20.],
       [180.,   6.]])


mlb = MultiLabelBinarizer(a)
mlb.fit_transform(a)

 返回结果:

    ([[0, 1, 0, 0, 1],
       [1, 0, 1, 0, 0],
       [1, 0, 0, 0, 1],
       [0, 1, 0, 1, 0],
       [1, 0, 0, 1, 0]])

请问我这独热行不行,回头预测的时候会不会有什么问题?

 

curiositychen   2022-04-23 21:41



   2个回答 
0

从结果上看是对的;从出发点看,不是很明白对于数值变量为什么要做one-hot处理,直接用不是更好,信息量更大吗

SofaSofa数据科学社区DS面试题库 DS面经

Arsjun   2022-04-24 18:09

0

只有很特殊应用会有好处,比如training data包含所有可能的输入。这时相当于查表。如果training data不能包含所有输入,那你这种one-hot没法做插值,interpolation和exterpolation。比如test data是(200,10),那one-hot没法用。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2022-04-27 13:01

谢谢 - curiositychen   2022-04-29 10:09


  相关讨论

sklearn OneHotEncoder string类型报错

sklearn onehotencoder的具体用法

sklearn不能直接处理含文本的类别变量?

python sklearn模型中random_state参数的意义

求sklearn.pipeline.Pipeline使用的例子

sklearn中除了sgd以外,还有什么可以使用partial_fit方法吗?

sklearn可以用gpu加速吗?

sklearn训练classifier的时候报错Unknown label type

sklearn错误ImportError: cannot import name 'joblib'

查看sklearn版本

  随便看看

求多个torch tensor的平均值

opencv里waitkey和destroyAllWindows有什么用?

协方差矩阵一定是满秩的吗?

numpy里生成单位矩阵?

决策树、随机森林中的多重共线性问题