关于随机梯度下降法(SGD)的问题

  数学 数值计算    浏览次数:2281        分享
2

如果训练集中有500的样本,随机梯度下降法的步长是固定的,我每次选一个样本,那么每次迭代时另外499个就没用了?


 

雕牌   2017-03-11 18:36



   1个回答 
4

是的。对于每一次更新,我们只是随机地挑选一个样本,然后根据这个样本来确定下降方向。但是这并不代表剩下的没有用呀,在下一次更新的时候,我们还会从这500个里随机挑一个。因为一般来说步长比较小,达到最终收敛,我们会迭代很多次,每次随机挑一个,这样很多样本都会被用到。

如果你是想每次迭代的时候多用几个样本点的话,可以考虑使用小批量梯度下降法(Mini-Batch Gradient Descent)。MBGD是每次随机选出m个样本点,然后对这m个点的梯度求平均值,这个平均值就是下降的反方向。

SofaSofa数据科学社区DS面试题库 DS面经

可爱多   2017-03-14 09:33



  相关主题

能不能用梯度下降法求平方根或者立方根?   2回答

随机梯度下降(SGD)可以被并行计算吗?   1回答

怎么用牛顿法近似求解根号2?   2回答

SGD with clipping是什么意思?   2回答

部分主元   1回答

常说的低秩分解或者低秩逼近是什么意思?   1回答

python里怎么求矩阵的条件数?   1回答

梯度上升算法是什么?   2回答

Newton–Raphson和牛顿法区别?   1回答

随机梯度下降(sgd)的收敛问题   4回答

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别   3回答

用SGD时陷入局部最优解的解决方法   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!