随机剃度下降法是每次使用一个样本,小批量随机剃度下降是每次使用m个样本。这个m一般怎么选择?有什么技巧?
2个回答
这篇论文On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima给出了关于mini-batch样本点的一些观察:
1. 样本点太少,训练时间长;样本点太多,训练时间也太长。
2. 样本点多,训练单个epoch时间更短
3. 样本点越小,模型的泛化越好。
理论归理论,实际上还是自己选一些比较小的数值,比如8,12,32,64。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
nesterov’s momentum和momentum的区别?
1回答
Adam优化算法
1回答
RMSProp的直白解释
1回答
学习率不当会导致sgd不收敛吗?
5回答
梯度上升算法是什么?
2回答
随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别
3回答
随机梯度下降(sgd)的收敛问题
4回答
最速下降法与梯度下降法
1回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!