强化学习蒙地卡罗MC更新公式原理,通俗易懂

强化学习蒙地卡罗MC更新公式原理,通俗易懂在学习蒙地卡罗更新公式原理之前我们要要了解一下三个理论基础

1.理论基础

在学习蒙地卡罗更新公式原理之前我们要要了解一下三个理论基础

1.1 伯努利大数定理

进行N次独立重复实验,随着试验次数的增大,事件A发生的频率\frac{na}{N}依概率收敛为事件A发生的概率P_{a}

1.2 辛钦大数定理

强化学习蒙地卡罗MC更新公式原理,通俗易懂

 1.3 切比雪夫大数定理

强化学习蒙地卡罗MC更新公式原理,通俗易懂

 数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

2.蒙地卡罗原理

通常蒙特卡罗方法通过构造符合一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题,蒙特卡罗方法是一种有效的求出数值解的方法。

 2.1 强化学习中蒙地卡罗的应用

  1. 我们把智能体放到环境的任意状态;
  2. 从这个状态开始按照策略进行选择动作,并进入新的状态。
  3. 重复步骤2,直到最终状态;
  4. 我们从最终状态开始向前回溯:计算每个状态的G值。
  5. 重复1-4多次,然后平均每个状态的G值,这就是我们需要求的V值。

这里我看到一篇文章写的特别好分享给大家

https://zhuanlan.zhihu.com/p/109755443 

在强化学习中,我们最常接触到的两个量是Q和V,这里用蒙地卡罗的方式来估算V。

开始前我们先明确G的意义是某个状态到最终状态的一个类和。

强化学习蒙地卡罗MC更新公式原理,通俗易懂

 当我们进行多次试验后,我们有可能会经过某个状态多次,通过回溯,也会有多个G值。 重复我们刚才说的,每一个G值,就是每次到最终状态获得的奖励总和。而V值时候某个状态下,我们通过影分身到达最终状态,所有影分身获得的奖励的平均值。

强化学习蒙地卡罗MC更新公式原理,通俗易懂

 

今天的文章强化学习蒙地卡罗MC更新公式原理,通俗易懂分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/85788.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注