MAPPO（2021）：多智能体任务中使用集中价值函数的强化 PPO baseline

导出时间：2025/12/19 13:31:02

一、先给你一句“白话版结论”

MAPPO =执行时，每个 agent 还是各自独立行动；训练时，偷偷给他们配一个“全局裁判”，用更准的价值评估，帮 PPO 学得更稳、更快。

换成更生活的话：

MAPPO 就是： “大家各自打游戏，但赛后复盘时，有一个能看全场录像的教练帮你打分。”

二、一个贯穿始终的比喻

“同一支队伍，三种教练风格”

为了让你立刻区分 IPPO / MAPPO / COMA，我们用同一个团队比喻。

1️⃣ IPPO：完全没教练（你已经学过）

“大家各练各的，赢了就觉得自己刚才操作好，输了就怪自己没打好。”

每个人用 PPO
只看自己
奖励是团队的
没有人帮你判断：是你不行，还是队友在乱来

👉 优点：简单

👉 缺点：判断容易失误（高方差）

2️⃣ COMA：精算师教练

“我来给你算清楚：如果你刚才换个动作，在队友不变的情况下，结果会怎样。”

信用分配极其精细
算法复杂
策略梯度噪声处理得很好

👉 很聪明，但也很重

3️⃣ MAPPO：全局裁判型教练（重点）

“我不管你们谁贡献最大，我只负责一件事 准确判断‘现在这个局面，整体值多少钱’，然后帮每个人稳定更新策略。”

MAPPO 的定位是：

在 IPPO 的“极简” 和 COMA 的“精算”之间， 取一个“工程上最稳”的平衡点。

三、MAPPO 的核心思想（用一句话说）

策略仍然是去中心化的但价值函数是集中式的。

这句话你现在可以重点记。

四、MAPPO 在结构上“到底改了什么？”

我们只改了 一件事，但这一件事非常值钱。

4.1 执行阶段（和 IPPO 完全一样）

每个 agent：

只看到自己的局部观测
用自己的策略网络 πᵃ
独立选动作

👉 执行时，世界根本不知道你用的是 MAPPO

4.2 训练阶段：偷偷加一个“全局价值函数”

区别就在这里。

IPPO 的价值函数像什么？

“我只根据自己看到的东西，猜一猜未来能拿多少分。”

这个猜测：

很容易被队友行为干扰
方差很大

MAPPO 的价值函数像什么？

“我站在上帝视角，看完整个局面，来告诉你：‘现在这个整体局势，值不值得你刚才那一步’”

也就是论文里说的：

Centralized Critic（集中式价值函数）

它可以输入：

全局状态
所有 agent 的信息
所有 agent 的历史

但⚠️注意：

它只在训练时存在

五、用一个非常直观的 PPO 视角来理解 MAPPO

你已经知道 PPO 更新靠的是：

优势 A = 回报 − 价值估计

IPPO 的问题在于：

价值估计太吵了

因为你在算：

“在我看到的这点信息下，我未来大概能拿多少分？”

但：

队友在探索
环境在抖
回报又是团队的

👉 优势噪声很大

MAPPO 做了什么“看似小、实际很大”的改动？

它说：

“你策略还是只看自己，但优势里的‘价值’这一步，让我来帮你算得更准。”

结果是：

优势更稳定
PPO 更新方向更可靠
学习速度明显提升

六、MAPPO 为什么能“吊打” IPPO（直觉版）

你可以把 PPO 的学习过程想成：

拿一把指南针走路

IPPO：
- 指南针受磁干扰严重
- 方向经常晃
MAPPO：
- 指南针来自“全局裁判”
- 指向更稳定

👉 不是你动作变聪明了，是你判断“好坏”的标尺更准了

七、MAPPO 和 QMIX 的根本区别（形象版）

这是很多小白会混的地方。

QMIX 像什么？

“我设计了一套规则，保证你们各自贪心选，拼在一起一定是团队最优。”

它在 结构上做保证。

MAPPO 像什么？

“我不做任何结构保证，我只把 PPO 的训练信号搞干净。”

它在 优化稳定性。

一句话对比：

QMIX： 👉 靠结构约束（单调性）
MAPPO： 👉 靠更准的价值评估

八、为什么 MAPPO 会成为“2021 之后的强基线”？

结合论文实验（SMAC、MPE、GRF、Hanabi），结论非常统一：

MAPPO 在几乎所有协作任务中：简单、稳定、效果强，而且极其好调参。

直觉原因只有一句：

它解决的是“最划算的那个痛点”：优势估计的噪声问题。

九、把 IPPO → MAPPO 看成一次“最小升级”

如果你已经会 IPPO，那么：

MAPPO = IPPO + 一个训练时的全局 Value 网络

不改策略结构
不改执行逻辑
不引入复杂分解
只让“教练看得更全”

十、终极记忆版本（强烈建议背）

**MAPPO =去中心化执行的 PPO

集中式价值函数= 工程上最稳的多智能体 PPO 基线**

最后，给你一张“心智地图总结”

COMA： 👉 精确拆贡献（因果）
QMIX： 👉 结构保最优（单调）
IPPO： 👉 简单硬扛（无教练）
MAPPO： 👉 给 PPO 配一个“全局裁判”