智能体的目标是最大化期望累计奖励
我们把在时间t的回报定义为Gt,在t时间的时候智能体会选择动作At来使期望Gt最大化。通常智能体无法完全肯定地预测未来的奖励怎么样,他必须依赖于预测和估算
我们可以给公式乘上折扣率,来表示对未来回报的关注度,当gama靠近0表示只关注与眼前的利益,当gamma靠近1表示
对未来的回报和当前回报一样地注重。这在连续性任务中是十分重要滴,因为没有停止点,折扣率防止了智能体无限地关注未来的回报。
相关文章
- 12-26ML之RL:强化学习Reinforcement Learning的简介、应用、经典案例、学习资源之详细攻略
- 12-26MeRL:强化学习分配奖励机制的新方法
- 12-26【李宏毅深度强化学习笔记】7、Sparse Reward
- 12-26强化学习之DQN进阶的三大法宝(Pytorch)
- 12-26强化学习之奖励reward
- 12-26强化学习之MountainCarContinuous(注册自己的gym环境)
- 12-26强化学习实战 | 自定义Gym环境之井字棋
- 12-26强化学习深度解析之贝尔曼方程(一)
- 12-26强化学习实战 | 自定义gym环境之显示字符串
- 12-26强化学习之 免模型学习(model-free based learning)