对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?

  数学 数值计算 最优化    浏览次数: 773
2

随机剃度下降法是每次使用一个样本,小批量随机剃度下降是每次使用m个样本。这个m一般怎么选择?有什么技巧?

 

MeganC   2017-05-03 22:26



   1个回答 
4

这篇论文On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima给出了关于mini-batch样本点的一些观察:

1. 样本点太少,训练时间长;样本点太多,训练时间也太长。

2. 样本点多,训练单个epoch时间更短

3. 样本点越小,模型的泛化越好。


理论归理论,实际上还是自己选一些比较小的数值,比如8,12,32,64。


可爱多   2017-05-09 09:36



  相关主题

RMSProp的直白解释   1回答

牛顿法到底是一阶优化算法还是二阶优化算法?   2回答

Adam优化算法   1回答

用SGD时陷入局部最优解的解决方法   3回答

最速下降法与梯度下降法   1回答

梯度上升算法是什么?   2回答

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别   3回答

随机梯度下降(sgd)的收敛问题   2回答

线性回归有精确的解析解为什么还要用梯度下降得到数值解?   4回答

什么是Hessian矩阵和Jacobian矩阵   1回答

关于随机梯度下降法(SGD)的问题   1回答

怎么用牛顿法近似求解根号2?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!