[RL 13] VDN (201706)

paper: Value-Decomposition Networks For Cooperative Multi-Agent Learning

背景

  1. cooperative setting (reward 相同)
  2. centralized MARL approach 存在不足
    • 可能会出现 lazy agent: lazy agent 的 exploration 可能导致 reward 变低
  3. independent learning 存在不足
    • non-stationary
    • spurious reward signals
  4. Dec-POMDP framework
    1. agent acts with local Qi(hi, ai)
  5. 问题: 如何学习Qi ? 该论文提出了一种方法

3 A Deep-RL Architecture for Coop-MARL

假设 Qi 和 Qtot 之间有如下关系:
[RL 13] VDN (201706)
我们就可以通过下式训练Qi
[RL 13] VDN (201706)
其中

  1. Qtot为: n个max Qi(h, a)之和, h由buffer中的序列构造, a也来自buffer
  2. max Qtot为: n个Qi的max Qi之和, h’ 也来自buffer

PS:

  1. agent与环境互动时只需要使用Qi
  2. 当agent数量n变大时, max操作的复杂度只是线性增加 (因为max操作遍历agent, 而不是遍历joint action space |A|^n)
  3. Qi 之间 weight sharing: nn输入agent的onehot编码
  4. LSTM 只输入 observation
  5. communication layer

不足

  1. Qtot 与 Qi 之间的关系假设太特殊
上一篇:分类任务交叉熵与softmax函数


下一篇:openCV(二)