二值化和Onehot表示的特征哪一个较好?

  统计/机器学习 数据预处理    浏览次数:200        分享
0

比如說有一個binary的特征表示性別,可以将其二值化成0及1,或one hot为向量[0, 1]及[1, 0],分別表示成男及女。 哪一个较好或更常用? 

 

blazehaze   2020-01-29 03:52



   1个回答 
0

肯定是直接将男女表示为0或1更好啊

因为性别本身就是binary的,所以没必要进行one-hot。one-hot之后的数据是有冗余的,因为你可以根据[0,1]推出[1,0]。

SofaSofa数据科学社区DS面试题库 DS面经

xiaosu   2020-01-29 12:09



  相关主题

在数据预处理阶段,特征的标准化有哪些方法?   1回答

机器学习中的维度灾难怎么防止和克服?   0回答

dummy variable是n个还是n-1个   3回答

在训练前数据处理的时候,怎么剔除异常值?   2回答

怎么对特征做标准化使得数值都是正数?   3回答

什么时候需要对y或者特征进行对数变换?   1回答

z-score标准化不适用于处理什么样的数据?   1回答

str.replace为什么会将数字替换成NaN   1回答

python 读json 错误 ValueError: Unexpected character found when decoding array value (2)   0回答

怎么求一个数组的移动平均数   1回答

把分组频数统计的结果添加到原来dataframe中   1回答

怎么把dataframe的一列转成整数类型   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!