无监督学习(比如K Means)里怎么加正则项来防止过拟合

  统计/机器学习 无监督学习 模型验证 开放问题    浏览次数: 814
2

有监督学习里,一般都是通过加正则项来防止过拟合。

那么无监督学习,比如K Means可以添加正则项防止过拟合吗?


 

麦克信条   2017-12-18 13:38



   3个回答 
8

对于K Means,比较常见的两种带正则项的目标函数就是AIC和BIC

正常的K Means的目标函数是

$$\sum_{i=1}^n\|X_i - C_i\|^2$$

其中$C_i$是点$X_i$所归属的中心点。

AIC是带正则项的目标函数

$$AIC=\sum_{i=1}^n\|X_i - C_i\|^2 + 2kd$$

其中$k$聚类的个数,$d$是数据的维数(特征的个数)

BIC是另一种带正则项的目标函数

$$BIC=\sum_{i=1}^n\|X_i - C_i\|^2 + \frac{1}{2}kd\log{n}$$

其中$n$是样本点的个数


Marvin_THU   2018-01-03 09:50

弱弱地问一下,AIC和BIC在sklearn里有现成的函数吗? - 有故事的董同学   2018-03-25 00:19
3

PCA也是可以在原来的损失函数的基础上再追加一个正则项。

比如,L2的正则项

比如L1的正则项

这个英文的博文讲pca这块挺清楚,有兴趣可以看看


飞翔钉子   2018-01-05 11:55

2

http://datamining.rutgers.edu/publication/internalmeasures.pdf

这篇论文里有很多评价clustering的标准,很多是加了对cluster数目的惩罚项。思想和前面提到的AIC差不多,不过更复杂。

Zealing   2018-03-25 12:47



  相关主题

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   5回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答

正则项里的L1,L2是什么意思?   1回答

L0 norm 正则是什么意思?   1回答

如何简单理解正则化   1回答

XGBoost损失函数中正则项的理解   1回答

线下训练集和测试集防过拟合   1回答

为什么过拟合不好?   6回答

Random Forest 过拟合有什么好办法?   3回答

决策树模型有什么特点以及如何防止过拟合?   2回答

L2-norm为什么会让模型变得更加简单?   3回答

关于lasso和ridge的区别   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!