无监督学习(比如K Means)里怎么加正则项来防止过拟合

  统计/机器学习 无监督学习 模型验证 开放问题    浏览次数: 1057
2

有监督学习里,一般都是通过加正则项来防止过拟合。

那么无监督学习,比如K Means可以添加正则项防止过拟合吗?


 

麦克信条   2017-12-18 13:38



   3个回答 
9

对于K Means,比较常见的两种带正则项的目标函数就是AIC和BIC

正常的K Means的目标函数是

$$\sum_{i=1}^n\|X_i - C_i\|^2$$

其中$C_i$是点$X_i$所归属的中心点。

AIC是带正则项的目标函数

$$AIC=\sum_{i=1}^n\|X_i - C_i\|^2 + 2kd$$

其中$k$聚类的个数,$d$是数据的维数(特征的个数)

BIC是另一种带正则项的目标函数

$$BIC=\sum_{i=1}^n\|X_i - C_i\|^2 + \frac{1}{2}kd\log{n}$$

其中$n$是样本点的个数


Marvin_THU   2018-01-03 09:50

弱弱地问一下,AIC和BIC在sklearn里有现成的函数吗? - 有故事的董同学   2018-03-25 00:19
4

PCA也是可以在原来的损失函数的基础上再追加一个正则项。

比如,L2的正则项

比如L1的正则项

这个英文的博文讲pca这块挺清楚,有兴趣可以看看


飞翔钉子   2018-01-05 11:55

2

http://datamining.rutgers.edu/publication/internalmeasures.pdf

这篇论文里有很多评价clustering的标准,很多是加了对cluster数目的惩罚项。思想和前面提到的AIC差不多,不过更复杂。

Zealing   2018-03-25 12:47



  相关主题

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   5回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答

正则项里的L1,L2是什么意思?   1回答

L0 norm 正则是什么意思?   1回答

Lasso和岭回归的正则项包含截距(常数项)吗?   2回答

XGBoost损失函数中正则项的理解   1回答

如何简单理解正则化   2回答

线下训练集和测试集防过拟合   1回答

为什么过拟合不好?   8回答

Random Forest 过拟合有什么好办法?   3回答

决策树模型有什么特点以及如何防止过拟合?   2回答

一个凸函数加上L2正则项之后,它还凸的吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!