摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
事实证明,深度强化学习模型可以成功地学习控制策略图像输入。 但是,他们一直在努力学习需要长期信息的学习政策。 递归神经网络体系结构已用于处理数据点之间的长期依赖性的任务中。 我们研究了这些体系结构,以克服因长期依赖而学习策略带来的困难。
1 Introduction
强化学习的最新进展已导致在各种游戏(例如Atari 2600游戏)上达到人文水平或更高的性能。 但是,训练这些网络可能会花费很长时间,并且现有技术[0]中介绍的技术在需要长期计划的几款游戏中效果不佳。
深度Q网络的局限性在于,它们从单个先前状态中学习映射,该状态由少量游戏屏幕组成。 在实践中,DQN使用包含最后四个游戏屏幕的输入进行训练。 因此,DQN在要求代理记住四个屏幕之前的信息的游戏中表现较差。 从图1中DQN在,接近或低于人类水平[0]时表现不佳的游戏类型可以明显看出这一点。
我们探讨了深度递归Q网络(DRQN),递归神经网络(RNN)[6]和类似于[5] 1的深度Q网络(DQN)的组合。概念是RNN 将能够保留更长时间的状态信息,并将其纳入预测更好的Q值,从而在需要长期计划的游戏中表现更好。
除了香草RNN架构外,我们还研究了增强型RNN架构,例如注意力RNN。 RNN在翻译任务中的最新成就[2,3]已显示出希望。 使用注意力的优点在于,它使DRQN可以专注于特定的先前状态,该状态对于预测当前状态下的操作而言非常重要。 我们研究增强DRQN的注意力并评估其有效性。
1 代码参见https://github.com/dillonalaird/deep-rl-tensorflow
2 Related Work
3 Deep Q-Learning
4 Deep Recurrent Q-Learning
5 Experiments
Conclusion
Appendix A: