无监督学习(比如K Means)里怎么加正则项来防止过拟合

  统计/机器学习 无监督学习 模型验证 开放问题
2

有监督学习里,一般都是通过加正则项来防止过拟合。

那么无监督学习,比如K Means可以添加正则项防止过拟合吗?


 

麦克信条   2017-12-18 13:38



   2个回答 
6

对于K Means,比较常见的两种带正则项的目标函数就是AIC和BIC

正常的K Means的目标函数是

$$\sum_{i=1}^n\|X_i - C_i\|^2$$

其中$C_i$是点$X_i$所归属的中心点。

AIC是带正则项的目标函数

$$AIC=\sum_{i=1}^n\|X_i - C_i\|^2 + 2kd$$

其中$k$聚类的个数,$d$是数据的维数(特征的个数)

BIC是另一种带正则项的目标函数

$$BIC=\sum_{i=1}^n\|X_i - C_i\|^2 + \frac{1}{2}kd\log{n}$$

其中$n$是样本点的个数


Marvin_THU   2018-01-03 09:50

2

PCA也是可以在原来的损失函数的基础上再追加一个正则项。

比如,L2的正则项

比如L1的正则项

这个英文的博文讲pca这块挺清楚,有兴趣可以看看


飞翔钉子   2018-01-05 11:55



相关问题

为什么过拟合不好?   3回答

决策树模型有什么特点以及如何防止过拟合?   2回答

随机森林会发生过拟合(overfitting)吗?   1回答

unsupervised learning也会over-fitting吗?   2回答

二分法K Means的算法是什么?和普通的K Means有什么区别?   2回答

K-means怎么选K?   3回答

怎么评价一个聚类算法?   2回答

一维的数据可以做聚类吗?   3回答

什么是K-Modes(K众数)聚类法?   1回答

K-MEANS初始点选择的问题   1回答

特征归一化对K Means有影响吗?   3回答

通俗地解释c-means以及fuzzy c-means是什么意思   0回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!