unsupervised learning也会over-fitting吗?

  统计/机器学习 无监督学习 模型验证 过拟合    浏览次数: 1020
8

我们一般都是回归问题、分类问题经常提到over-fitting,那么unsupervised learning,比如聚类,也会不会出现over-fitting?

 

MrMath   2017-04-05 11:11



   2个回答 
14

会的。和监督式学习一样,是有可能发生过拟合的,当然也有可能会欠拟合。

一个简单的例子是用K-Means做聚类,如果K太小,很可能会发生欠拟合(模型过于笼统)


如果K太大,很可能发生过拟合(模型过于细致)


高代兄   2017-04-08 10:34

6

不光是聚类,其他非监督学习的算法也会出现过拟合。

过拟合的本质就是过分地学习了训练样本中的噪音杂质,从而削弱了泛化能力


比如PCA,如果样本中有一些离谱的噪点,PCA算法的损失函数就会很大程度地被噪点影响。当你把训练出来的PCA作用在新的数据集上的时候,你得到的结果也许就非常离谱,因为你对训练集过拟合了。


同样的问题也会出现在autoencoder上,在某个数据集上训练出一个autoencoder,网络中的权重或者结构可以用来重建原数据。当你的损失函数没有考虑到正则化的时候或者你的网络很复杂的时候,autoencoder很可能出现过拟合,训练好的autoencoder在新的数据集上作用之后,输出的数值就未必能够复原新数据集了。



WinJ   2017-12-29 00:18



  相关主题

线下训练集和测试集防过拟合   1回答

为什么过拟合不好?   6回答

Random Forest 过拟合有什么好办法?   3回答

决策树模型有什么特点以及如何防止过拟合?   2回答

无监督学习(比如K Means)里怎么加正则项来防止过拟合   3回答

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   5回答

正则项里的L1,L2是什么意思?   1回答

L0 norm 正则是什么意思?   1回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答

Lasso和岭回归的正则项包含截距(常数项)吗?   0回答

训练集加入噪声防止over fitting还是加剧overfitting?   3回答

如何简单理解正则化   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!