强化学习&基础1.3 | 阶段性任务和连续性任务[通俗易懂]

编程小号 • 2024-04-21 08:30 • 未分类

阶段性任务是设置一个停止点在阶段停止的时候，agent回顾这一阶段所获得的回报，看他自己做得如何。然后在下一回合，在同样的环境下，利用上一个阶段的知识，采取更好的行动获得最大的reward。例如一盘棋下完就是一个阶段，agent 从第一盘棋中获取经验，来下第二盘棋获得更好地经验。)
连续任务是没有停止点的，智能体必须边学采取最佳动作，边和环境交互。例如买卖股票，市场是一值存在的，所以不存在一个截至点，agent需要一直学下去。