dummy variable是n个还是n-1个

  统计/机器学习 数据预处理    浏览次数: 103
0

对categorical的变量做dummy variable,也就是one hot encoding,比如这个变量有n个category,那么最后encode得到的是n个binary variable还是n-1个呢?从模型表现上说,两者有差异吗?

 

robert   2018-07-19 13:32



   2个回答 
0

应该是n-1个。如果是n个的话,就会有一个dummy variable是冗余的,因为它可以被其他n-1个表示出来。

对于线性模型来说,冗余的dummy variable会增加变量的多重共线性。


Josh_Josh   2018-07-24 22:12

0

如果是用random forests,并且非常在乎feature importance的话,可能用n个dummy variable比较好,不然的话就缺少一个variable的importance。

毕竟多重共线性对random forests影响不大

数据痴汉   2018-08-05 23:32



  相关主题

在数据预处理阶段,特征的标准化有哪些方法?   1回答

让DataFrame中的行按照某一列元素的绝对值从大到小排列   1回答

python的dataframe如何重新排列行或者列   1回答

怎么求一个数组的移动平均数   1回答

数据一样,y却不一样的样本该怎么处理?   2回答

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答

对进行回归分析之前,如何处理不同类型的变量?   1回答

线性回归的变量归一化的问题   1回答

训练集中重复的样本需要被删除吗?   3回答

sklearn OneHotEncoder string类型报错   1回答

pandas groupby agg中使用自定义函数   1回答

怎么对pandas dataframe的列求众数   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!