nesterov’s momentum和momentum的区别?

  数学 数值计算 最优化    浏览次数:1017        分享
2

在模型优化算法中,nesterov’s momentum和momentum的区别?最好能够通俗易懂一点。谢谢!

 

柚木蓝   2018-12-14 09:22



   1个回答 
9

左边是经典的momentum,右边是nestrov momentum

经典的momentum,可以参考我另一个回答优化算法中momentum是什么意思?

两者区别是经典的momentum是在当前点($X_i$)计算gradient step;而nesterov momentum是想在下一个迭代点$X_{i+1}$计算gradient step,两步并一步向前跨,当然这是无法做到的,所以就用momentum step后的点来近似实际的$x_{i+1}$。也就是图中说的“lookahead”,“前瞻点”。这样做的好处就是加速收敛。

参考链接http://cs231n.github.io/neural-networks-3/#sgd

SofaSofa数据科学社区DS面试题库 DS面经

蘑菇蘑菇   2019-04-09 10:06



  相关主题

随机梯度下降(sgd)的收敛问题   4回答

对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?   2回答

学习率不当会导致sgd不收敛吗?   5回答

用SGD时陷入局部最优解的解决方法   3回答

RMSProp的直白解释   1回答

牛顿法到底是一阶优化算法还是二阶优化算法?   2回答

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别   3回答

Adam优化算法   1回答

梯度上升算法是什么?   2回答

为什么梯度的反方向是函数下降最快的方向?   4回答

最速下降法与梯度下降法   1回答

Newton–Raphson和牛顿法区别?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!