SMOTE对于categorical feature如何处理?

  统计/机器学习 抽样方法 数据预处理    浏览次数:4382        分享
0

对于SMOTE方法,似乎数值feature很好处理,我的问题是categorical feature在SMOTE中该怎么处理呢?


相关问题:什么是SMOTE sampling方法?


 

桐桐酱   2018-03-21 14:45



   2个回答 
6

SMOTE论文里第6章第1节讲的就是如何处理非连续的特征(categorical feature)。

论文里讲了三种方法,实际上就是两种思路:

思路1:先只考虑continuous feature,然后算出样本点和周围点的距离。如果样本点和周围点的categorical feature不同,那么就增加一个正则项,作为惩罚。原始距离加上惩罚项,就得到最后的近邻。

思路2:同样,只考虑continuous feature,然后算出近邻。categorical feature取这些近邻的众数。


SofaSofa数据科学社区DS面试题库 DS面经

DuckU   2018-03-23 10:50

2

categorical feature需要先量化吧,one-hot编码


SofaSofa数据科学社区DS面试题库 DS面经

dataslee   2018-03-22 11:52



  相关讨论

什么是SMOTE sampling方法?

bootstrap 一般用在哪些方面

Jackknife vs Bootstrap

parametric bootstrap和nonparametric bootstrap的区别是什么?

两阶段抽样和分层抽样是一回事吗?

自助法(bootstrap)的0.632是怎么来的?

滚雪球抽样算法的实现

蓄水池抽样算法的问题

python对给定的集合进行有放回抽样?

如何对流数据(stream data)进行无差别抽样

  随便看看

查看sklearn的线性回归系数的p value

pandas同时返回一个dataframe的前几行(head)和后几行(tail)

【站务】我们回来了

print里的"%.2f"是什么意思?

Data Application Lab怎么样?