The NetHack Learning Environment

The NetHack Learning Environment
The NetHack Learning Environment
发表时间:2020(NeurIPS 2020)
文章要点:文章发布了一个复杂的强化学习的环境,可以用来研究exploration,planning,language-conditioned RL等等。环境是一个地宫类的游戏,相当于一层一层找门找地道,开地宫然后收集道具打怪兽,最终目标是找到护身符(Amulet of Yendor)并交给Astral Plane里对应的神(co-aligned deity in the Astral Plane)。这个地宫的特点是随机性特别强,每层关卡都是逐渐生成的,只有走到哪了才会出现哪(procedurally generated)。所以每次reset看到的地宫环境都是不一样的,所以像Go-explore这种记住动作轨迹然后回到之前的地方这种方式就行不通了。游戏的复杂度也很高,整个游戏有13个角色(thirteen roles),5个种族(five races),3个alignment(three moral alignments),两个性别(two genders)。里面的各种物品NPC上百个(over 450 items and 580 monster types),而且一个episode可能有成千上万个step,相当于比星际和DOTA的还要长一个量级。动作一共有98个,82个命令动作,16个移动动作。另一个特点是,游戏的界面是终端显示,所有的物品都是ASCII码显示,运行速度比Atari快14倍。所以作者构建了一个复杂但是对计算资源要求相对较低的环境(trikes a balance between complexity and speed)。此外,作者还设计了一些小任务来训练智能体学习基本技能,比如staircase,pet等等。作者在这些小任务上提供了两个baseline,一个IMPALA,一个RND。但是目前还没有任何算法可以完成整个任务。
总结:确实是极其复杂的一个游戏,光是看懂各种物品的属性就很麻烦,目前还不知道游戏咋玩的,各个符号的含义也太多了,还需要细看。然后确实很适合做exploration,但是这个的exploration也太难了。
疑问:

上一篇:聊聊如何根据环境动态指定feign调用服务名


下一篇:分布式协调-Zookeeper(手写配置中心&动态刷新)