Mastering the game of Go without human knowledge

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

参考链接:《Mastering the game of Go without human knowledge》译文_Forlogenの解忧杂货铺-CSDN博客

MCTS:强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS) - 刘建平Pinard - 博客园 (cnblogs.com)

Mastering the game of Go without human knowledge

 

Abstract

  AI的一个长期目标是一种算法,它可以在挑战性领域中从零开始学习超人的熟练程度。最近,AlphaGo成为第一个在围棋中击败人类世界冠军的程序。AlphaGo的树搜索使用深度神经网络来评估棋局和选定下棋位置。神经网络是利用对人类专业棋手的移动进行监督学习,同时通过自我博弈进行RL训练。在此,我们引入了一种不使用人类的数据、指导或超越游戏规则的领域知识且基于RL的算法。AlphaGo成为了自己的老师:神经网络被训练用来预测AlphaGo自己的落子选择和胜负。这种神经网络提高了树搜索的强度,从而提高落子选择的质量和在下一次迭代中的自我博弈能力。从零开始,我们的新程序AlphaGo Zer取得了超人的成绩,以100-0战胜了此前公布的打败人类冠军的AlphaGo版本。

 

Introduction

  使用监督学习系统来做出与人类棋手一样的决策使AI取得了很大进展1-4。然而,人类棋手的数据集通常是昂贵、不可靠或根本不可用的。即使在可靠的数据集可用时,人类的认知局限也可能对以这种方式训练的系统的性能施加上限5。相比之下,RL系统是通过自己的经验训练的,原则上他们能够超越人的能力,并在缺乏人类知识的领域中运作。近年来,利用RL训练的深度神经网络在这一目标上取得了快速的进展。这些系统在电脑游戏如Atari6,7和3D虚拟环境8-10上已经超过了人类。但是,在人类智力方面最具挑战性的领域,如围棋领域11,使用完全通用的方法没有办法实现与人类相媲美的性能。因为围棋被广泛视为是人工智能的一大挑战——它需要在庞大的搜索空间上进行精确且复杂的前瞻。

  AlphaGo是第一个在围棋比赛中实现超人表现的程序。之前发布的我们称之为AlphaGo Fan的版本12,在2015年10月击败了欧洲冠军Fan Hui。AlphaGo Fan使用两个深度神经网络:一个是策略网络,来输出下一步落子的概率;另一个是价值网络,来输出对棋局的评估,也就是落子的胜率。策略网络最初是通过监督学习来精确预测人类专业棋手的落子,随后又通过策略梯度RL对系统进行增强。价值网络通过使用策略网络进行自我博弈来预测谁是赢家从而完成训练。一旦经过训练,这些网络结合蒙特卡洛树搜索(MCTS)13-15提供前瞻性搜索,运用策略网络来缩小高概率落子的搜索过程,运用价值网络结合蒙特卡洛快速走子策略来评估树中的落子位置。随后开发的版本,我们称之为AlphaGo Lee,用类似的方法,在2016年3月击败具有国际冠军头衔的Lee Sedol(曾获18项国际冠军)。

  我们现在的程序AlphaGo Zero,与AlphaGo Fan和AlphaGo Lee12存在以下几点的差异:

  1. 它完全由自我博弈RL进行训练,从刚开始的随机博弈开始,就没使用任何监督或人类数据;
  2. 它只使用棋盘上的黑白子作为输入特征;
  3. 它使用单一的神经网络,而不是分离的策略网络和价值网络;
  4. 它使用了一个简化版搜索树,这个搜索树依靠单一的神经网络进行棋局评价和落子采样,不执行任何蒙特卡洛走子。

  为了实现上述结果,我们引入一个新的RL算法,在训练过程中完成前向搜索,从而达到迅速的提高以及精确且稳定的学习过程。方法中描述了搜索算法,训练过程和网络结构方面的其他技术差异。

 

Reinforcement learning in AlphaGo Zero

 

Empirical analysis of AlphaGo Zero training

 

Knowledge learned by AlphaGo Zero

 

Final performance of AlphaGo Zero

 

Conclusion

 

上一篇:Worldview in Context


下一篇:Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation(知识图谱)