郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
AAAI 2016
Abstract
众所周知,流行的Q学习算法会在某些条件下高估动作价值。以前不知道在实践中这种高估是否普遍,它们是否会损害性能,以及它们是否通常可以避免。在本文中,我们肯定地回答了所有这些问题。特别是,我们首先表明,最近的DQN算法将Q学习与深度神经网络相结合,在Atari 2600领域的某些游戏中存在严重高估的问题。然后,我们展示了在表格设置中引入的双重Q学习算法背后的思想,可以推广到大规模函数近似。我们提出了对DQN算法的特定适应,并表明所得到的算法不仅减少了观察到的高估,正如假设的那样,而且这也导致了在几场游戏中更好的性能。