【李宏毅深度强化学习笔记】1、深度强化学习算法 策略梯度方法(Policy Gradient)
https://blog.csdn.net/ACL_lihan/article/details/104020259
【李宏毅深度强化学习笔记】2、深度强化学习 Proximal Policy Optimization (PPO) 算法
https://blog.csdn.net/ACL_lihan/article/details/103989581
【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning(Basic Idea)
https://blog.csdn.net/ACL_lihan/article/details/104041905
【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法
https://blog.csdn.net/ACL_lihan/article/details/104056542
【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
https://blog.csdn.net/ACL_lihan/article/details/104076938
【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
https://blog.csdn.net/ACL_lihan/article/details/104087569
【李宏毅深度强化学习笔记】7、Sparse Reward(本文)
https://blog.csdn.net/ACL_lihan/article/details/104103873
-------------------------------------------------------------------------------------------------------
【李宏毅深度强化学习】视频地址:https://www.bilibili.com/video/av63546968?p=6
课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
-------------------------------------------------------------------------------------------------------
在强化学习的训练过程中,当环境的reward很少时(指出现的次数),这样对agent的训练是很不利的。比如,让一个机器人拿起螺丝刀,再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的,因为它一开始不管做什么动作都不会得到reward,即便有exploration也只有极小的几率能成功获得reward。
所以下面介绍几种方法来处理这种Sparse Reward的方法。
Reward Shaping
既然环境的reward很稀疏,那我们就自己设定一些假的reward去引导agent往我们想要的方向。
举个例子,这里agent是这个小孩。它有两个动作,如果选择出去玩,短时间内能得到reward +1,但是之后的考试可能很很差(reward -100);如果选择学习,短时间内可能会不爽,所以reward是-1,但是之后能获得reward +100。
所以,为了引导这个小孩(agent)能往去好好学习,就会骗他说坐下来念书给棒棒糖吃,所以对他来说下一个时间点的reward就变成+1。然后他就会选择学习这个动作,即便这个reward不是实际存在的。
未完待续。。
qqqeeevvv 发布了15 篇原创文章 · 获赞 24 · 访问量 4万+ 私信 关注