Deep Reinforcement Learning with Double Q-learning

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Deep Reinforcement Learning with Double Q-learning

 

AAAI 2016 

 

Abstract

  众所周知,流行的Q学习算法会在某些条件下高估动作价值。以前不知道在实践中这种高估是否普遍,它们是否会损害性能,以及它们是否通常可以避免。在本文中,我们肯定地回答了所有这些问题。特别是,我们首先表明,最近的DQN算法将Q学习与深度神经网络相结合,在Atari 2600领域的某些游戏中存在严重高估的问题。然后,我们展示了在表格设置中引入的双重Q学习算法背后的思想,可以推广到大规模函数近似。我们提出了对DQN算法的特定适应,并表明所得到的算法不仅减少了观察到的高估,正如假设的那样,而且这也导致了在几场游戏中更好的性能。

上一篇:2022-2023年英语周报七年级第26期答案汇总


下一篇:Model-based Reinforcement Learning: A Survey