学习auto-encoder, 自己写的demo, 关于拟合的问题，帮忙看下loss-acc图？-SofaSofa

数据大约3w左右，8:2 split train和test， model是auto-encoder, loss是MSE, 根据train\test 的acc最终的值还是比较满意的。

1、但是model loss这块，train和test的收敛觉得还可以，但是出现val_loss比loss大的情况，尤其是图一的val_loss, 是否问题？

2、关于datasize对acc的影响，自己尝试过程中，数据量在1w多情况下，model loss情况和上面比较类似，但acc只能达到0.5, 0.6左右。是否可以说明数据量的影响还是比较大的？

3、关于数据预处理，除了特征提取和标准化外，自己在这块没怎么做。一是数据基本无缺失值，二是特殊值很大程度上就是我要找的异常点，是否有必要做聚类分析？

谢谢

yinni 2019-01-23 15:45

第一个问题：

你split train和test的时候是随机的吗？感觉这个loss相比于第二行的图有点大，感觉可能是有问题。

第二个问题：

对于神经网络模型，数据量大当然是很重要的，毕竟有那么多参数需要估计

第三个问题：

可以试试用autocoder中间的code来做做聚类试试

sasa 2019-01-25 00:29

好的，觉得test可能有点过拟合，今天droput/正则试一下。auto encoder中间的code是指encode压缩的吗？和拿初始的数据做有什么区别吗？ - yinni 2019-01-25 10:22

你第一个图里的test应该是有很多异常数据的，所以test上的mse和train的差很远，而且波动性也大（没有蓝色光滑，也没有第三幅图的橙色线光滑）。异常多，也更容易挑出来，所以acc高也正常。

数据量肯定是越多越好的，第一幅和第三幅的蓝色曲线的取值范围也不同，第一个似乎到了0.25，而第三个图好像还在0.3以上。也就是说数据多的时候拟合的更好。

LiShanfei 2019-01-28 06:42

学习auto-encoder, 自己写的demo, 关于拟合的问题，帮忙看下loss-acc图？