nesterov’s momentum和momentum的区别?

  数学 数值计算 最优化    浏览次数:5203        分享
2

在模型优化算法中,nesterov’s momentum和momentum的区别?最好能够通俗易懂一点。谢谢!

 

柚木蓝   2018-12-14 09:22



   1个回答 
10

左边是经典的momentum,右边是nestrov momentum

经典的momentum,可以参考我另一个回答优化算法中momentum是什么意思?

两者区别是经典的momentum是在当前点($X_i$)计算gradient step;而nesterov momentum是想在下一个迭代点$X_{i+1}$计算gradient step,两步并一步向前跨,当然这是无法做到的,所以就用momentum step后的点来近似实际的$x_{i+1}$。也就是图中说的“lookahead”,“前瞻点”。这样做的好处就是加速收敛。

参考链接http://cs231n.github.io/neural-networks-3/#sgd

SofaSofa数据科学社区DS面试题库 DS面经

蘑菇蘑菇   2019-04-09 10:06



  相关讨论

RMSProp的直白解释

Newton–Raphson和牛顿法区别?

对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?

用SGD时陷入局部最优解的解决方法

为什么梯度的反方向是函数下降最快的方向?

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

随机梯度下降(sgd)的收敛问题

牛顿法到底是一阶优化算法还是二阶优化算法?

梯度上升算法是什么?

Adam优化算法

  随便看看

T检验的effect size是什么?有什么含义吗?

推荐系统里的ALS是什么意思?

huber loss是什么?什么时候用?

用户人群分层分析的RFM模型是什么?

pandas.DataFrame更改列名