unsupervised learning也会over-fitting吗?

  统计/机器学习 无监督学习 模型验证 过拟合    浏览次数: 590
8

我们一般都是回归问题、分类问题经常提到over-fitting,那么unsupervised learning,比如聚类,也会不会出现over-fitting?

 

MrMath   2017-04-05 11:11



   2个回答 
12

会的。和监督式学习一样,是有可能发生过拟合的,当然也有可能会欠拟合。

一个简单的例子是用K-Means做聚类,如果K太小,很可能会发生欠拟合(模型过于笼统)


如果K太大,很可能发生过拟合(模型过于细致)


高代兄   2017-04-08 10:34

4

不光是聚类,其他非监督学习的算法也会出现过拟合。

过拟合的本质就是过分地学习了训练样本中的噪音杂质,从而削弱了泛化能力


比如PCA,如果样本中有一些离谱的噪点,PCA算法的损失函数就会很大程度地被噪点影响。当你把训练出来的PCA作用在新的数据集上的时候,你得到的结果也许就非常离谱,因为你对训练集过拟合了。


同样的问题也会出现在autoencoder上,在某个数据集上训练出一个autoencoder,网络中的权重或者结构可以用来重建原数据。当你的损失函数没有考虑到正则化的时候或者你的网络很复杂的时候,autoencoder很可能出现过拟合,训练好的autoencoder在新的数据集上作用之后,输出的数值就未必能够复原新数据集了。



WinJ   2017-12-29 00:18



  相关问题

无监督学习(比如K Means)里怎么加正则项来防止过拟合   2回答

线下训练集和测试集防过拟合   1回答

为什么过拟合不好?   5回答

决策树模型有什么特点以及如何防止过拟合?   2回答

随机森林会发生过拟合(overfitting)吗?   1回答

怎么评价一个聚类算法?   2回答

关于小批量K均值(mini-batch K Means)的问题   2回答

K-MEANS初始点选择的问题   1回答

层次聚类里的linkage是什么意思?   2回答

层次聚类中的Ward's method是什么意思   1回答

通俗地解释c-means以及fuzzy c-means是什么意思   1回答

什么是K-Modes(K众数)聚类法?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!