2025年RMSProp算法(RMSprop算法公式)

RMSProp算法(RMSprop算法公式)大家好 我是小寒 今天给大家介绍一种优化算法 RMSprop RMSprop 是一种自适应学习率优化算法 事实上 它是梯度下降和流行的 AdaGrad 算法的扩展 旨在显着减少训练神经网络时使用的计算量 该算法的工作原理是 每当梯度平方小于某个阈值时 学习率就会呈指数衰减 nbsp nbsp nbsp nbsp 在我们的模型训练开始时 成本会相当高 从那里开始 我们有一个锯齿形图案 在垂直方向上有较大的运动 在水平方向上有相对较小的运动



大家好,我是小寒。

今天给大家介绍一种优化算法,RMSprop

RMSprop 是一种自适应学习率优化算法。

事实上,它是梯度下降和流行的AdaGrad 算法的扩展,旨在显着减少训练神经网络时使用的计算量。

该算法的工作原理是每当梯度平方小于某个阈值时,学习率就会呈指数衰减。
在我们的模型训练开始时,成本会相当高。从那里开始,我们有一个锯齿形图案,在垂直方向上有较大的运动,在水平方向上有相对较小的运动,直到达到全局最小值(中心的红点)。

在普通梯度下降中,我们体验到了这种随意的运动。为什么?这是由于高维数导致存在大量局部最优(因为成本函数取决于许多增加维数的权重)。

当尝试在多维情况下优化参数时,普通或小批量梯度下降算法将陷入许多局部最小值、高原和其他收敛到真正的全局最小值的障碍。

正如我们将看到的,在 RMSprop 中使用均方根有助于避免学习率太小或太大的问题。如果梯度较小,则提高学习率以加快收敛速度;如果梯度较大,则降低学习率以避免超过损失函数的最小值。


我们都知道梯度下降更新可以封装在以下两个方程中:


/div>

p data-tool='mdnice编辑器'>

在 RMSprop 中,更新状态的方程修改如下:

/p>

div data-tool='mdnice编辑器' data-website='https://www.mdnice.com'>


/span>

span>其中 S_dW 定义为:

/span>

div>

最后

/div>

p>


/p>

编程小号
上一篇 2026-02-17 07:17
下一篇 2026-02-17 08:27

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/45030.html