有没有对聚类成员个数有限制的聚类算法?

  统计/机器学习 无监督学习 开放问题    浏览次数: 225
1

我现在有个聚类问题,把数据点聚成5类,可是常常有一两簇,特别小,数据点很少,只占到了0.1%和0.5%。

有没有对聚类成员个数有限制的聚类算法?

就是说聚类之后,每簇的大小差不多,成员个数差不多?

谢谢!



 

Marvin_THU   2018-02-01 08:04



   2个回答 
4

有个“同大小K Means”算法, equai-szie K-Means或者same size K Means。这个聚类算法出来的结果是K个聚类,每个聚类的成员个数是一样多的。

它的基本思想还是K Means,只不过有个聚类修正:

一个数据点$A$,如果距离聚类$C$的中心点$M_C$最近,并且聚类$C$目前的成员个数还没有满,那么$A$就会被归到$C$中;

如果$C$满了(也就是成员个数达到了$N/K$),那么$A$就会被分配到离$A$第二近的那个聚类;

如果第二近的聚类也满了,就分配到第三近的,以此类推。


abuu   2018-02-11 19:43

谢谢! - Marvin_THU   2018-02-17 15:06
1

自己对loss function加个正则项试试?

比如cluster size的方差作为正则项?


宽宽   2018-02-13 13:04

这个想法很惊奇,有参考文献不? - Marvin_THU   2018-02-17 15:05


  相关主题

二分法K Means的算法是什么?和普通的K Means有什么区别?   2回答

一维的数据可以做聚类吗?   3回答

K-means怎么选K?   3回答

特征归一化对K Means有影响吗?   3回答

通俗地解释c-means以及fuzzy c-means是什么意思   1回答

k-medoids和k-means区别   3回答

聚类问题可以用stacking model的方法吗?   1回答

层次聚类里的linkage是什么意思?   2回答

层次聚类中的Ward's method是什么意思   1回答

K-MEANS初始点选择的问题   2回答

关于小批量K均值(mini-batch K Means)的问题   2回答

软聚类,硬聚类?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!