MPE环境是一个时间离散、空间连续的二维环境,UI的界面风格如图所示,它通过控制在二维空间中代表不同含义的粒子,实现对于各类MARL算法的验证。MPE被人们广泛所知是借助于那篇NiPS2017的著名多智能体强化学习算法MADDPG的实验环境,可以直接在arxiv中搜索到。
MPE的使用方法与gym的使用方法基本一致,即每一个step通过输入agent的动作状态等信息来换取MPE的环境感知。MPE和gym一样,也是由openai组织进行开发的,其主要有以下几个任务构成。
代码中的环境名称 | 是否具有交流 | 是否具备竞争 | 环境解释 |
---|---|---|---|
simple.py |
N | N | 单个代理会看到地标位置,并根据其与地标的接近程度获得奖励。不是多代理程序环境-用于调试策略。 |
simple_adversary.py (Physical deception) |
N | Y | 1个对手(红色),N个好人(绿色),N个地标(通常N = 2)。所有agent都观察地标和其他agent的位置。一种地标是“目标地标”(绿色)。好人会根据其中一位与目标地标的接近程度来给予奖励,但如果对手接近目标地标则会给予负面奖励。攻击者会根据其与目标的接近程度来获得奖励,但它不知道目标目标是哪个地标。因此,优秀的agent必须学会“分散”并掩盖所有地标,以欺骗对手。 |
simple_crypto.py (Covert communication) |
Y | Y | 两名善良的代理人(alice和bob),一名对手(eve)。爱丽丝必须通过公共频道发送悄悄话来鲍勃。 Alice和bob会根据bob重构消息的程度来获得奖励,但是如果eve可以重构消息,则会得到负面奖励。爱丽丝和鲍勃有一个私钥(在每个情节的开头随机生成),他们必须学会使用私钥对消息进行加密。 |
simple_push.py (保留) |
N | Y | 1个特工,1个对手,1个地标。代理根据到地标的距离获得奖励。如果对手靠近地标,并且代理人离地标较远,则会得到奖励。因此,对手学会了将特工从地标上推开。 |
simple_reference.py |
Y | N | 2个代理,3个不同颜色的地标。每个座席都想到达其目标地标,只有其他座席才知道。奖励是集体的。因此,座席必须学会交流其他座席的目标,并导航至其地标。这与simple_speaker_listener场景相同,在该场景中,两个代理都是同时的演讲者和听众。 |
simple_push.py (Keep-away) |
N | Y | 1个特工,1个对手,1个地标。代理根据到地标的距离获得奖励。如果对手靠近地标,并且代理人离地标较远,则会得到奖励。因此,对手学会了将特工从地标上推开。 |
simple_reference.py |
Y | N | 2个代理,3个不同颜色的地标。每个座席都想到达其目标地标,只有其他座席才知道。奖励是集体的。因此,座席必须学会交流其他座席的目标,并导航至其地标。这与simple_speaker_listener场景相同,在该场景中,两个代理都是同时的演讲者和听众。 |
simple_speaker_listener.py (Cooperative communication) |
Y | N | 与simple_reference相同,不同的是一个座席是不会移动的“说话人”(灰色)(遵守另一个座席的目标),另一个座席是听众(不会说话,但必须导航到正确的地标) |
simple_spread.py (Cooperative navigation) |
N | N | N个代理商,N个地标。代理商会根据任何代理商与每个地标的距离获得奖励。如果代理与其他代理冲突,则将受到处罚。因此,代理商必须学会覆盖所有地标,同时避免碰撞。 |
simple_tag.py (Predator-prey) |
N | Y | 捕食者—猎物的环境。好的特工(绿色)速度更快,并且希望避免被对手(红色)击中。对手行动较慢,想打败优秀的特工。障碍物(黑色大圆圈)阻碍了道路。 |
simple_world_comm.py |
Y | Y | 随附视频中看到的环境。与simple_tag相同,不同之处在于:(1)有食物(蓝色小球),这些善良的代理人会因为靠近而得到奖励;(2)现在,我们拥有了“森林”,从外面看不到内部的代理人; (3)有一个“领导对手”,可以随时查看特工,并且可以与其他对手进行交流以帮助协调追赶。 |