大家好,我是小寒。
今天给大家介绍一种优化算法,RMSprop
RMSprop 是一种自适应学习率优化算法。
事实上,它是梯度下降和流行的AdaGrad 算法的扩展,旨在显着减少训练神经网络时使用的计算量。
该算法的工作原理是每当梯度平方小于某个阈值时,学习率就会呈指数衰减。
在我们的模型训练开始时,成本会相当高。从那里开始,我们有一个锯齿形图案,在垂直方向上有较大的运动,在水平方向上有相对较小的运动,直到达到全局最小值(中心的红点)。
在普通梯度下降中,我们体验到了这种随意的运动。为什么?这是由于高维数导致存在大量局部最优(因为成本函数取决于许多增加维数的权重)。
当尝试在多维情况下优化参数时,普通或小批量梯度下降算法将陷入许多局部最小值、高原和其他收敛到真正的全局最小值的障碍。
正如我们将看到的,在 RMSprop 中使用均方根有助于避免学习率太小或太大的问题。如果梯度较小,则提高学习率以加快收敛速度;如果梯度较大,则降低学习率以避免超过损失函数的最小值。
我们都知道梯度下降更新可以封装在以下两个方程中:
/div>
p data-tool='mdnice编辑器'>
在 RMSprop 中,更新状态的方程修改如下:/p>
div data-tool='mdnice编辑器' data-website='https://www.mdnice.com'>
/span>
span>其中 S_dW 定义为:
/span>
div>
最后/div>
p>
—/p>
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ri-ji/45030.html