Adam优化算法

  数学 数值计算 最优化    浏览次数: 1047
2

有了解ADAM这种优化算法的吗?在Keras一些nerual net的包里经常是用Adam方法作为默认solver。我大概知道Adam算是SGD的一种改良。但是我也是一知半解的,不是非常清楚它具体是怎么一回事,又是如何改良SGD的。

求懂adam的大神解答一下!

谢谢!(教师节快乐^_^)


 

七号信仰   2017-09-10 14:26



   1个回答 
2

Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。


特点:

  1. 结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点 
  2. 对内存需求较小
  3. 为不同的参数计算不同的自适应学习率
  4. 也适用于大多非凸优化 - 适用于大数据集和高维空间
SofaSofa数据科学社区 DS面经 问答 实战

djpp123   2017-12-20 21:43



  相关主题

用SGD时陷入局部最优解的解决方法   3回答

RMSProp的直白解释   1回答

为什么梯度的反方向是函数下降最快的方向?   3回答

梯度上升算法是什么?   2回答

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别   3回答

最速下降法与梯度下降法   1回答

学习率不当会导致sgd不收敛吗?   0回答

随机梯度下降(sgd)的收敛问题   3回答

牛顿法到底是一阶优化算法还是二阶优化算法?   2回答

对于小批量随机剃度下降法(mini-batch SGD),如何选择每批样本的数量?   1回答

线性回归有精确的解析解为什么还要用梯度下降得到数值解?   4回答

优化算法中的“带冲量”是什么意思?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!