IPPO（2020）：各 agent 独立使用 PPO 训练，不依赖中心化信息

导出时间：2025/12/19 13:30:54

一、一句话先立住 IPPO

IPPO =每个智能体，把其他智能体当成环境的一部分，各自独立地用 PPO 训练自己的策略，不用中央 Critic，不用 Mixing Network，不用全局状态。

换句话说：

IPPO 是“最去中心化”的多智能体算法之一。

二、一个贯穿始终的比喻：

“一群人一起打团战，但完全没有教练”

想象一个 5v5 团队游戏。

没有：
- 教练
- 战术分析师
- 赛后复盘系统
每个人：
- 只看自己屏幕
- 只根据“赢/输结果”来反思
- 各自提升操作

这听起来是不是非常不科学？

👉 但 IPPO 说： 只要你用的是 PPO，这种“野路子”反而可能很稳。

三、IPPO 的“极端简化设定”

我们先明确 IPPO 刻意不做的事情：

❌ 不做集中式 Critic（不像 COMA / MAPPO）

❌ 不做值函数分解（不像 VDN / QMIX）

❌ 不看全局状态

❌ 不关心“信用分配”

它只做三件事：

每个 agent 一套 PPO
每个 agent 只学自己的 value function
奖励直接用团队奖励

四、IPPO 的网络在“人话”里长什么样？

对 单个 agent a 来说，IPPO 就是：

自己的观察 oᵃ

↓

  策略网络 πᵃ

↓

  选动作 uᵃ

团队奖励 r

↓

自己的 value 网络 Vᵃ

↓

算优势 Aᵃ

↓

PPO 更新

👉 你甚至可以把 IPPO 看成：N 个“复制粘贴版的单智能体 PPO”

唯一的区别是：

奖励来自“团队”

五、关键问题来了：

“那环境非平稳怎么办？”

这是所有人第一反应。

因为在 IPPO 里：

你的环境 = 世界 + 所有其他正在学习的 agent

这在理论上是灾难。

六、IPPO 的核心直觉：

PPO 本身“太稳了”，稳到能扛住非平稳

这是 IPPO 论文最重要、也最反直觉的发现。

PPO 有什么“隐藏超能力”？

1️⃣ 策略裁剪（clipping）

PPO 不允许你说：

“刚才这一步看起来不错，我策略直接大改！”

而是说：

“你可以改，但一次只能改一点点。”

👉 这在多智能体里非常关键：

你慢慢变
队友也慢慢变
环境变化被“钝化”了

2️⃣ 优势函数是“相对的”

PPO 更新用的是：

“比我最近的平均表现好多少”

不是绝对值。

这意味着：

就算环境在变
只要变化不是“瞬间爆炸”
PPO 仍然能跟得上

七、用一个特别形象的比喻

❌ IQL / IAC 像什么？

一群人同时乱跑、乱改战术、乱试新打法

环境天天变，根本学不稳。

✅ IPPO 像什么？

一群人各自练基本功，每次只微调一点点即使队友在变，也不至于被甩飞。

PPO 的“保守更新”= 给独立学习加了“减震器”

八、IPPO 为什么敢“完全不要中心化信息”？

你可以这样理解：

COMA / QMIX：
- 是在对抗最坏情况
- 理论上更安全
IPPO：
- 赌的是： 现实任务没那么坏

在 SMAC（星际争霸微操）里：

协作是时间展开的
不是一步同时对齐
很多协调可以：
- 先 A 动
- 再 B 跟
- 再 C 补

👉 这种“顺序协作”，对 IPPO 非常友好

九、为什么 IPPO 在实验里这么猛？（直觉版）

论文里一个非常重要的发现是：

IPPO 在很多困难地图上能和 QMIX、MAPPO 打平甚至更好

直觉解释：

没有复杂结构
没有强先验（单调性、分解假设）
没有 credit assignment 的误导

👉 少即是多

十、把 IPPO、COMA、QMIX 用一句比喻区分

COMA：

“我来精确算清楚，你这一步到底贡献了多少。”

QMIX：

“我来保证，你们各自贪心选，不会走歪。”

IPPO：

“我什么都不保证，但我让你们每一步都走得很稳。”

十一、什么时候你会优先考虑 IPPO？

非常实用的一段总结：

✅ 适合 IPPO 的情况

agent 数量多
通信/中心化信息不可用
动作和协作是逐步展开的
想要简单、稳定、好调参

❌ 不太适合 IPPO

强同步博弈（必须同时配合）
单步 coordination 决定成败
对最优性有严格要求

十二、你现在应该怎么“记住 IPPO”？

请记住这一句就够了：

IPPO =把多智能体问题，当成“很多个慢慢变化的单智能体问题”，用 PPO 的稳定性硬扛非平稳。