关于随机梯度下降法(SGD)的问题

  数学 数值计算    浏览次数: 630
2

如果训练集中有500的样本,随机梯度下降法的步长是固定的,我每次选一个样本,那么每次迭代时另外499个就没用了?


 

雕牌   2017-03-11 18:36



   1个回答 
4

是的。对于每一次更新,我们只是随机地挑选一个样本,然后根据这个样本来确定下降方向。但是这并不代表剩下的没有用呀,在下一次更新的时候,我们还会从这500个里随机挑一个。因为一般来说步长比较小,达到最终收敛,我们会迭代很多次,每次随机挑一个,这样很多样本都会被用到。

如果你是想每次迭代的时候多用几个样本点的话,可以考虑使用小批量梯度下降法(Mini-Batch Gradient Descent)。MBGD是每次随机选出m个样本点,然后对这m个点的梯度求平均值,这个平均值就是下降的反方向。

可爱多   2017-03-14 09:33



  相关主题

怎么用牛顿法近似求解根号2?   1回答

部分主元   1回答

常说的低秩分解或者低秩逼近是什么意思?   1回答

最速下降法与梯度下降法   1回答

对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?   1回答

随机梯度下降(sgd)的收敛问题   2回答

梯度上升算法是什么?   2回答

Adam优化算法   1回答

牛顿法到底是一阶优化算法还是二阶优化算法?   2回答

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别   3回答

RMSProp的直白解释   1回答

神经网络中梯度消弥的原因是什么?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!