对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?

  数学 数值计算 最优化
2

随机剃度下降法是每次使用一个样本,小批量随机剃度下降是每次使用m个样本。这个m一般怎么选择?有什么技巧?

 

MeganC   2017-05-03 22:26



   1个回答 
4

这篇论文On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima给出了关于mini-batch样本点的一些观察:

1. 样本点太少,训练时间长;样本点太多,训练时间也太长。

2. 样本点多,训练单个epoch时间更短

3. 样本点越小,模型的泛化越好。


理论归理论,实际上还是自己选一些比较小的数值,比如8,12,32,64。


可爱多   2017-05-09 09:36



相关问题

Adam优化算法   1回答

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别   3回答

随机梯度下降(sgd)的收敛问题   2回答

牛顿法到底是一阶优化算法还是二阶优化算法?   2回答

最速下降法与梯度下降法   1回答

什么是Hessian矩阵和Jacobian矩阵   1回答

关于随机梯度下降法(SGD)的问题   1回答

怎么用牛顿法近似求解根号2?   1回答

神经网络里的batch size和sgd里的batch size是一回事嘛?   1回答

PCA和SVD是一回事吗?   1回答

凸优化中局部最优解就是全局最优解吗?   2回答

什么样的优化问题算是凸优化?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!