莫烦python 强化学习 (Reinforcement Learning)「建议收藏」

莫烦python 强化学习 (Reinforcement Learning)「建议收藏」Q-Learning决策过程Q-learning小例子-o-T#T就是宝藏的位置,o是探索者的位置每一次移动,状态发生改变的反馈defget_env_feedback(S,A):#ThisishowagentwillinteractwiththeenvironmentifA==’right’:#moverightifS==N_STATES-2:#terminate.._莫烦python代码实践(五)——reinforce基础算法程化

在这里插入图片描述
在这里插入图片描述

Q-Learning决策过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Q-learning 小例子

-o---T
# T 就是宝藏的位置, o 是探索者的位置

每一次移动,状态发生改变的反馈

def get_env_feedback(S, A):
    # This is how agent will interact with the environment
    if A == 'right':    # move right
        if S == N_STATES - 2:   # terminate
            S_ = 'terminal'
            R = 1
        else:
            S_ = S + 1
            R = 0
    else:   # move left
        R = 0
        if S == 0:
            S_ = S  # reach the wall
        else:
            S_ = S - 1
    return S_, R

RL算法:选择、更新

def rl():
    q_table = build_q_table(N_STATES, ACTIONS)  # 初始 q table
    for episode in range(MAX_EPISODES):     # 回合
        step_counter = 0
        S = 0   # 回合初始位置
        is_terminated = False   # 是否回合结束
        update_env(S, episode, step_counter)    # 环境更新
        while not is_terminated:

            A = choose_action(S, q_table)   # 选行为
            S_, R = get_env_feedback(S, A)  # 实施行为并得到环境的反馈
            q_predict = q_table.loc[S, A]    # 估算的(状态-行为)值
            if S_ != 'terminal':
                q_target = R + GAMMA * q_table.iloc[S_, :].max()   # 实际的(状态-行为)值 (回合没结束)
            else:
                q_target = R     # 实际的(状态-行为)值 (回合结束)
                is_terminated = True    # terminate this episode

            q_table.loc[S, A] += ALPHA * (q_target - q_predict)  # q_table 更新
            S = S_  # 探索者移动到下一个 state

            update_env(S, episode, step_counter+1)  # 环境更新

            step_counter += 1
    return q_table

今天的文章莫烦python 强化学习 (Reinforcement Learning)「建议收藏」分享到此就结束了,感谢您的阅读,如果确实帮到您,您可以动动手指转发给其他人。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/58981.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注