对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?

  数学 数值计算 最优化    浏览次数:6891        分享
2

随机剃度下降法是每次使用一个样本,小批量随机剃度下降是每次使用m个样本。这个m一般怎么选择?有什么技巧?

 

MeganC   2017-05-03 22:26



   2个回答 
4

这篇论文On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima给出了关于mini-batch样本点的一些观察:

1. 样本点太少,训练时间长;样本点太多,训练时间也太长。

2. 样本点多,训练单个epoch时间更短

3. 样本点越小,模型的泛化越好。


理论归理论,实际上还是自己选一些比较小的数值,比如8,12,32,64。

SofaSofa数据科学社区DS面试题库 DS面经

可爱多   2017-05-09 09:36

0

一般来说是16到256之间。

SofaSofa数据科学社区DS面试题库 DS面经

xiaosu   2019-08-14 23:46



  相关讨论

学习率不当会导致sgd不收敛吗?

为什么梯度的反方向是函数下降最快的方向?

RMSProp的直白解释

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

最速下降法与梯度下降法

Adam优化算法

用SGD时陷入局部最优解的解决方法

nesterov’s momentum和momentum的区别?

牛顿法到底是一阶优化算法还是二阶优化算法?

随机梯度下降(sgd)的收敛问题

  随便看看

roc auc小于0.5是什么情况?

python怎么对list中的元素做连乘?

KNN中K值的选择

支持向量机(SVM)里的支持向量是什么意思

医学统计里的c-index或者c-statistic是什么意思?