高维数据应该用什么聚类模型?

  统计/机器学习 无监督学习 数据降维 开放问题    浏览次数: 260
1

我现在要做一个聚类,问题是维数特别大,因为有很多数值变量(200多个),还有很多分类变量(40多个),如果再对分类变量做独热处理的话,特征的个数就好几千了。这种高维数据应该用什么聚类模型?


K Means、阶层聚类或者GMM明显都不大合适。大家有这方面的经验吗?谢谢!

 

Robin峰   2018-07-31 11:39



   3个回答 
4

对于分类变量,可以先做one-hot  encoding,然后单独对这部分用PCA降维,再和数值型变量组起来,用于聚类。仅仅是个人建议。

咸魚   2018-08-01 20:15

3

可以用AutoEncoder进行降维,然后再做传统聚类

一只布兰   2018-08-01 16:23

1

参考一下维基百科高维数据聚类


yukio   2018-08-03 13:46



  相关主题

python里怎么实现t-SNE降维?   1回答

维数大于样本数的问题   3回答

分类变量,进行One hot编码,维度升高,如何处理?   3回答

hashing trick或者feature hashing是什么   1回答

t-SNE如何实现降维?   1回答

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?   1回答

NLP中的hashing trick是什么?   1回答

关于朴素贝叶斯特征工程、特征选择的问题   2回答

为什么PCA被称作非监督式学习?   2回答

训练集加入噪声防止over fitting还是加剧overfitting?   3回答

PCA降维中的特征值和特征向量   2回答

如何简单理解正则化   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!