dummy variable是n个还是n-1个

  统计/机器学习 数据预处理    浏览次数: 360
0

对categorical的变量做dummy variable,也就是one hot encoding,比如这个变量有n个category,那么最后encode得到的是n个binary variable还是n-1个呢?从模型表现上说,两者有差异吗?

 

robertt   2018-07-19 13:32



   2个回答 
2

应该是n-1个。如果是n个的话,就会有一个dummy variable是冗余的,因为它可以被其他n-1个表示出来。

对于线性模型来说,冗余的dummy variable会增加变量的多重共线性。


SofaSofa数据科学社区 DS面经 问答 实战

Josh_Josh   2018-07-24 22:12

1

如果是用random forests,并且非常在乎feature importance的话,可能用n个dummy variable比较好,不然的话就缺少一个variable的importance。

毕竟多重共线性对random forests影响不大

SofaSofa数据科学社区 DS面经 问答 实战

数据痴汉   2018-08-05 23:32



  相关主题

在训练前数据处理的时候,怎么剔除异常值?   2回答

什么时候需要对y或者特征进行对数变换?   1回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答

z-score标准化不适用于处理什么样的数据?   1回答

python中怎么把千位分隔符以及货币符号去掉转成数值形式?   1回答

python的dataframe如何重新排列行或者列   1回答

怎么求一个数组的移动平均数   1回答

让DataFrame中的行按照某一列元素的绝对值从大到小排列   1回答

怎么把dataframe的一列转成整数类型   2回答

怎麼將dataframe 欄位 對應到原有的csv檔 而寫入   1回答

数据一样,y却不一样的样本该怎么处理?   2回答

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!