三维以上聚类都要先降维?10维数据直接聚类然后silhouette判断效果可以吗?

  统计/机器学习 无监督学习 数据降维    浏览次数:1407        分享
0

RT

不管是任何方法,三维以上直接聚类的话,好像是无法观察结果的。只能通过在低维度的投影来观察结果。或者通过silhouette plot来看结果是否正确可以吗?

 

noob123   2019-05-03 17:43



   3个回答 
2

你的聚类问题应该是没有外部信息来确认ground truth的情况。

参考一下这个不知道真实分类,怎么评价一个聚类算法?

SofaSofa数据科学社区DS面试题库 DS面经

WinJ   2019-05-06 23:07

谢谢。我觉得这才是我应该问的问题,非常感谢。 - noob123   2019-05-10 21:07
1

如果你想可视化的话就必须要降维,比如t-sne,pca或者spectral clustering。如果不降维的话,你只能在低维观察,比如可以任选两组维度进行观测,然后多观测几组。

如果有真实分类,可以用rand index来判别聚类的效果;如果没有真实分类,就只能通过silhouette来看聚类的稳定性一致性。

SofaSofa数据科学社区DS面试题库 DS面经

tbh   2019-05-03 23:06

谢谢你。可是如果不降维,如何才能知道“有真实分类”?只能在低维观察? - noob123   2019-05-06 22:23
0

聚类不一定要降维。

但是如果你想肉眼看聚类的效果的话,就需要降维。

从另一方面说,如果你肉眼很明显能看出聚类,那也不一定需要模型了吧,你人为设定几个边界就够了吧...

SofaSofa数据科学社区DS面试题库 DS面经

Nagozi   2019-05-04 03:54

如果不用肉眼,如何能看出来聚类效果呢?除了silhouette以外 - noob123   2019-05-06 22:21


  相关主题

高维数据应该用什么聚类模型?   4回答

随机投影的实际效果如何?   1回答

为什么LDA降维最多降到类别数k-1?   1回答

python里怎么实现t-SNE降维?   1回答

autoencoder 架構問題   2回答

低维嵌入(low dimension embedding)是什么意思?   2回答

hashing trick或者feature hashing是什么   1回答

分类变量,进行One hot编码,维度升高,如何处理?   6回答

非序列数据(任务),针对种类型特征可以用embedding技术吗?   1回答

t-SNE如何实现降维?   1回答

维数大于样本数的问题   3回答

怎么评价tSNE的降维效果?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!