如果训练集中有500的样本,随机梯度下降法的步长是固定的,我每次选一个样本,那么每次迭代时另外499个就没用了?
1个回答
是的。对于每一次更新,我们只是随机地挑选一个样本,然后根据这个样本来确定下降方向。但是这并不代表剩下的没有用呀,在下一次更新的时候,我们还会从这500个里随机挑一个。因为一般来说步长比较小,达到最终收敛,我们会迭代很多次,每次随机挑一个,这样很多样本都会被用到。
如果你是想每次迭代的时候多用几个样本点的话,可以考虑使用小批量梯度下降法(Mini-Batch Gradient Descent)。MBGD是每次随机选出m个样本点,然后对这m个点的梯度求平均值,这个平均值就是下降的反方向。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
计算中的截断误差是什么意思?
1回答
怎么用牛顿法近似求解根号2?
2回答
部分主元
1回答
最速下降法与梯度下降法
1回答
nesterov’s momentum和momentum的区别?
1回答
随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别
3回答
梯度上升算法是什么?
2回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!