SMOTE对于categorical feature如何处理?

  统计/机器学习 抽样方法 数据预处理    浏览次数: 250
0

对于SMOTE方法,似乎数值feature很好处理,我的问题是categorical feature在SMOTE中该怎么处理呢?


相关问题:什么是SMOTE sampling方法?


 

桐桐酱   2018-03-21 14:45



   2个回答 
5

SMOTE论文里第6章第1节讲的就是如何处理非连续的特征(categorical feature)。

论文里讲了三种方法,实际上就是两种思路:

思路1:先只考虑continuous feature,然后算出样本点和周围点的距离。如果样本点和周围点的categorical feature不同,那么就增加一个正则项,作为惩罚。原始距离加上惩罚项,就得到最后的近邻。

思路2:同样,只考虑continuous feature,然后算出近邻。categorical feature取这些近邻的众数。


DuckU   2018-03-23 10:50

2

categorical feature需要先量化吧,one-hot编码


dataslee   2018-03-22 11:52



  相关主题

什么是SMOTE sampling方法?   2回答

蓄水池抽样算法的问题   1回答

bootstrap 一般用在哪些方面   1回答

Jackknife vs Bootstrap   1回答

自助法(bootstrap)的0.632是怎么来的?   1回答

滚雪球抽样算法的实现   0回答

python对给定的集合进行有放回抽样?   2回答

如何对流数据(stream data)进行无差别抽样   1回答

关于两个正态总体抽样分布的独立性问题   1回答

cooks距离是什么?有什么含义?怎么计算?   1回答

马尔可夫蒙特卡洛方法(MCMC)到底是什么呀?   1回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!