学习auto-encoder, 自己写的demo, 关于拟合的问题,帮忙看下loss-acc图?

  统计/机器学习 无监督学习 深度学习 数据预处理    浏览次数:607        分享
0


数据大约3w左右,8:2 split  train和test, model是auto-encoder, loss是MSE, 根据train\test 的acc最终的值还是比较满意的。

1、但是model loss这块,train和test的收敛觉得还可以,但是出现val_loss比loss大的情况,尤其是图一的val_loss, 是否问题?

2、关于datasize对acc的影响,自己尝试过程中,数据量在1w多情况下,model loss情况和上面比较类似,但acc只能达到0.5, 0.6左右。是否可以说明数据量的影响还是比较大的?

3、关于数据预处理,除了特征提取和标准化外,自己在这块没怎么做。一是数据基本无缺失值,二是特殊值很大程度上就是我要找的异常点,是否有必要做聚类分析?

谢谢

 

yinni   2019-01-23 15:45



   2个回答 
1

第一个问题:

你split train和test的时候是随机的吗?感觉这个loss相比于第二行的图有点大,感觉可能是有问题。

第二个问题:

对于神经网络模型,数据量大当然是很重要的,毕竟有那么多参数需要估计

第三个问题:

可以试试用autocoder中间的code来做做聚类试试

SofaSofa数据科学社区DS面试题库 DS面经

sasa   2019-01-25 00:29

好的,觉得test可能有点过拟合,今天droput/正则试一下。auto encoder中间的code是指encode压缩的吗?和拿初始的数据做有什么区别吗? - yinni   2019-01-25 10:22
1

你第一个图里的test应该是有很多异常数据的,所以test上的mse和train的差很远,而且波动性也大(没有蓝色光滑,也没有第三幅图的橙色线光滑)。异常多,也更容易挑出来,所以acc高也正常。

数据量肯定是越多越好的,第一幅和第三幅的蓝色曲线的取值范围也不同,第一个似乎到了0.25,而第三个图好像还在0.3以上。也就是说数据多的时候拟合的更好。

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2019-01-28 06:42



  相关主题

auto-encoder异常检测的问题,无标签情况下怎么进行预测?   2回答

为什么GAN是非监督的?   2回答

离群点、孤立点、异常点有什么区别吗?   3回答

可以把多个文档、段落向量直接加和求平均来获得新的表示向量吗?   1回答

一个关于机器学习模型性能的问题。   1回答

数据归一化问题   2回答

python随机打乱文本   3回答

关于autoencoder做无监督学习的验证问题   1回答

autoencoder 架構問題   2回答

请问深度学习的书有推荐吗   6回答

软聚类,硬聚类?   1回答

什么是K-Modes(K众数)聚类法?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!