学习auto-encoder, 自己写的demo, 关于拟合的问题,帮忙看下loss-acc图?

  统计/机器学习 无监督学习 深度学习 数据预处理    浏览次数:3799        分享
0


数据大约3w左右,8:2 split  train和test, model是auto-encoder, loss是MSE, 根据train\test 的acc最终的值还是比较满意的。

1、但是model loss这块,train和test的收敛觉得还可以,但是出现val_loss比loss大的情况,尤其是图一的val_loss, 是否问题?

2、关于datasize对acc的影响,自己尝试过程中,数据量在1w多情况下,model loss情况和上面比较类似,但acc只能达到0.5, 0.6左右。是否可以说明数据量的影响还是比较大的?

3、关于数据预处理,除了特征提取和标准化外,自己在这块没怎么做。一是数据基本无缺失值,二是特殊值很大程度上就是我要找的异常点,是否有必要做聚类分析?

谢谢

 

yinni   2019-01-23 15:45



   2个回答 
2

第一个问题:

你split train和test的时候是随机的吗?感觉这个loss相比于第二行的图有点大,感觉可能是有问题。

第二个问题:

对于神经网络模型,数据量大当然是很重要的,毕竟有那么多参数需要估计

第三个问题:

可以试试用autocoder中间的code来做做聚类试试

SofaSofa数据科学社区DS面试题库 DS面经

sasa   2019-01-25 00:29

好的,觉得test可能有点过拟合,今天droput/正则试一下。auto encoder中间的code是指encode压缩的吗?和拿初始的数据做有什么区别吗? - yinni   2019-01-25 10:22
1

你第一个图里的test应该是有很多异常数据的,所以test上的mse和train的差很远,而且波动性也大(没有蓝色光滑,也没有第三幅图的橙色线光滑)。异常多,也更容易挑出来,所以acc高也正常。

数据量肯定是越多越好的,第一幅和第三幅的蓝色曲线的取值范围也不同,第一个似乎到了0.25,而第三个图好像还在0.3以上。也就是说数据多的时候拟合的更好。

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2019-01-28 06:42



  相关讨论

关于autoencoder做无监督学习的验证问题

autoencoder 架構問題

auto-encoder异常检测的问题,无标签情况下怎么进行预测?

关于那个autoencode有没有出来解惑一下的。

EM

为什么GAN是非监督的?

可以把多个文档、段落向量直接加和求平均来获得新的表示向量吗?

dbscan 中的参数值如何确定?

请问 hard tanh 输出的结果是有界的吗?

软聚类,硬聚类?

  随便看看

线性回归是机器学习算法吗?

序列的autocorrelation(自相关系数)的计算公式

随机森林会发生过拟合(overfitting)吗?

在jupyter后台进程没有shutdown的notebook一直会占用内存吗?

怎么把pandas.DataFrame转成torch.tensor的格式?