有监督学习里,一般都是通过加正则项来防止过拟合。
那么无监督学习,比如K Means可以添加正则项防止过拟合吗?
3个回答
对于K Means,比较常见的两种带正则项的目标函数就是AIC和BIC
正常的K Means的目标函数是
$$\sum_{i=1}^n\|X_i - C_i\|^2$$
其中$C_i$是点$X_i$所归属的中心点。
AIC是带正则项的目标函数
$$AIC=\sum_{i=1}^n\|X_i - C_i\|^2 + 2kd$$
其中$k$聚类的个数,$d$是数据的维数(特征的个数)
BIC是另一种带正则项的目标函数
$$BIC=\sum_{i=1}^n\|X_i - C_i\|^2 + \frac{1}{2}kd\log{n}$$
其中$n$是样本点的个数
弱弱地问一下,AIC和BIC在sklearn里有现成的函数吗?
-
有故事的董同学
2018-03-25 00:19
http://datamining.rutgers.edu/publication/internalmeasures.pdf
这篇论文里有很多评价clustering的标准,很多是加了对cluster数目的惩罚项。思想和前面提到的AIC差不多,不过更复杂。
SofaSofa数据科学社区DS面试题库 DS面经相关讨论
随便看看