无监督学习（比如K Means）里怎么加正则项来防止过拟合-SofaSofa

有监督学习里，一般都是通过加正则项来防止过拟合。

那么无监督学习，比如K Means可以添加正则项防止过拟合吗？

麦克信条 2017-12-18 13:38

对于K Means，比较常见的两种带正则项的目标函数就是AIC和BIC

正常的K Means的目标函数是

$$\sum_{i=1}^n\|X_i - C_i\|^2$$

其中$C_i$是点$X_i$所归属的中心点。

AIC是带正则项的目标函数

$$AIC=\sum_{i=1}^n\|X_i - C_i\|^2 + 2kd$$

其中$k$聚类的个数，$d$是数据的维数（特征的个数）

BIC是另一种带正则项的目标函数

$$BIC=\sum_{i=1}^n\|X_i - C_i\|^2 + \frac{1}{2}kd\log{n}$$

其中$n$是样本点的个数

Marvin_THU 2018-01-03 09:50

弱弱地问一下，AIC和BIC在sklearn里有现成的函数吗？ - 有故事的董同学 2018-03-25 00:19

PCA也是可以在原来的损失函数的基础上再追加一个正则项。

比如，L2的正则项

比如L1的正则项

这个英文的博文讲pca这块挺清楚，有兴趣可以看看

飞翔钉子 2018-01-05 11:55

这篇论文里有很多评价clustering的标准，很多是加了对cluster数目的惩罚项。思想和前面提到的AIC差不多，不过更复杂。

Zealing 2018-03-25 12:47

无监督学习（比如K Means）里怎么加正则项来防止过拟合