2021-03-07

对抗环境下的多智能体强化学习(Cooperative MARL)

常用仿真环境

  1. StarCarft II (星际争霸2) https://zhuanlan.zhihu.com/p/28471863
  2. OpenAI: multiagent-emergence(让智能体玩捉迷藏) https://github.com/openai/multi-agent-emergence-environments
  3. Pommerman 环境(炸弹人)https://www.pommerman.com/
  4. Google Research Football(踢足球)https://github.com/google-research/football
  5. 其他还有很多,一篇知乎总结得很好https://www.zhihu.com/question/332942236/answer/1159244275

常用算法思路

  1. naive方法:在一个对抗环境中,使用online learning训练两套不同的RL系统。代表作品:OpenAI在starWar II游戏中训练的智能AI: https://zhuanlan.zhihu.com/p/102749648,DeepMind的dota2 AI设计,alpha-zero (总之,现在很多攻防对抗类游戏AI的设计基本都有MARL的参与,腾讯/谷歌/微软等大公司有很多相关论文)
  2. 博弈论角度:通过设计奖励函数构建零和博弈。将两套MARL看作一套MARL系统的两个部分,结合起来训练。但是奖励函数会精心设计,即某一个状态中,其中一个Multi-agent团队reward增加,其敌对Multi-agent团队reward必须减少,最终达到Nash均衡(纳什均衡:即在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。此时的状况既不是基于个人的利益,也不是基于整体的效果,但是在概率上是最容易产生的结果,)
  3. 在攻防方面的相关理论有:微分对策(Differential Games),最优控制等https://www.docin.com/p-2398031595.html
  4. 多机合作算法:MAPPO,MADDPG等方法
  5. 两个玩家零和博弈:Minimax-Q等方法
上一篇:2021-03-22


下一篇:答题拿奖两不误:华为云知乎金牌答题官,就是你!