强化学习蒙地卡罗MC更新公式原理，通俗易懂

编程小号 • 2024-04-30 21:11 • 未分类

1.理论基础

在学习蒙地卡罗更新公式原理之前我们要要了解一下三个理论基础

进行N次独立重复实验，随着试验次数的增大，事件A发生的频率 $\frac{na}{N}$ 依概率收敛为事件A发生的概率 $P_{a}$

数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。

通常蒙特卡罗方法通过构造符合一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题，蒙特卡罗方法是一种有效的求出数值解的方法。

这里我看到一篇文章写的特别好分享给大家

https://zhuanlan.zhihu.com/p/109755443

在强化学习中，我们最常接触到的两个量是Q和V，这里用蒙地卡罗的方式来估算V。

开始前我们先明确G的意义是某个状态到最终状态的一个类和。

当我们进行多次试验后，我们有可能会经过某个状态多次，通过回溯，也会有多个G值。重复我们刚才说的，每一个G值，就是每次到最终状态获得的奖励总和。而V值时候某个状态下，我们通过影分身到达最终状态，所有影分身获得的奖励的平均值。

今天的文章强化学习蒙地卡罗MC更新公式原理，通俗易懂分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/85788.html