VDN（2017）：最早提出的值分解网络方法

导出时间：2025/12/19 13:30:25

一、研究背景与动机：

——“一群人拿同一份奖金，为什么学不会合作？”

我们先讲一个故事。

🌍 故事背景：两人迷宫小队

想象一个迷宫里有 两个小机器人：

他们 各自只能看到自己眼前的一小块区域
他们 各自独立行动
但——奖励是团队共享的
- 只要“整体任务完成”，系统就给 一个总奖励

这在现实中非常常见，比如：

两辆自动驾驶车配合通过路口
两个机器人一起搬箱子
游戏里的双人协作任务

❌ 传统方法 1：完全集中式（一个大脑管所有人）

“那干脆把两个机器人当成一个超级机器人不就好了？”

问题是：

动作空间爆炸（两个机器人动作组合指数级增长）
部署时不现实（现实中机器人不能共享完整状态）
很容易出现 “懒惰智能体”：
- 其中一个机器人学得好
- 另一个机器人一探索就“拖后腿”
- 最后系统干脆只依赖一个机器人

论文中明确指出：即使在很简单的协作任务中，集中式方法也会失败

❌ 传统方法 2：完全独立学习（各学各的，但用同一个奖励）

“那就各学各的呗，反正奖励是一样的。”

问题更严重：

每个智能体看到的奖励里：
- 一部分是自己造成的
- 一部分是队友造成的
但它 分不清楚

这就像：

你和同学做小组作业，老师只给一个总分你完全不知道：

是你写得好加分了
还是同学乱改扣分了

结果就是： 👉 奖励信号变成“噪声” 👉 学习过程极度不稳定（非平稳）

🎯 核心动机（一句话）：

能不能在“只给团队奖励”的情况下让每个智能体学到“和自己行为相关的价值”？

VDN 就是为了解决这个问题而生的。

二、VDN 模型网络结构：

——“把一份团队成绩，拆成每个人的贡献”

现在，故事进入高潮。

🧠 核心思想（非常重要）

VDN 提出一个极其朴素、但非常强大的假设：

团队的 Q 值，可以近似等于每个智能体 Q 值的“加和”

数学形式是：

Qtotal(h1,…,hn, a1,…,an) ≈ ∑iQi(hi,ai)

你可以把它理解为：

团队价值 = 张三的贡献 + 李四的贡献 + 王五的贡献

⚠️ 注意：

这里只是近似
但这个近似非常“工程友好”

🏗️ 网络结构（用故事讲）

我们还是用 两个机器人 举例。

① 每个机器人都有一个“私人小脑袋”

输入：
- 自己的局部观测（看得到什么）
- 自己过去的历史（LSTM 记忆）
输出：
- 一个 局部 Q 值函数 Qi(oi,ai)

它并不知道“团队发生了什么”，

只关心一句话：

“如果我现在这样做，对团队整体来说好不好？”

② 上面加一个“求和层”（VDN 的灵魂）

把所有智能体的 Qi 直接相加
得到一个：
Qtotal=Q1+Q2

这个 求和操作是可微的，非常关键：

团队奖励 → 梯度
梯度 → 反向传播
自动“分摊”到每个智能体的网络中

👉 不用人工设计奖励拆分，网络自己学

③ 训练集中，执行分散（CTDE）

训练时：
- 用团队奖励更新总 Q
执行时：
- 每个智能体只用自己的 Qi
- 各自 argmax Q_i(a_i)

等价于：

每个人都在做“对团队最有利的个人决定”

🧩 一个形象比喻

把 VDN 想成：

公司年终奖只有一笔总奖金

VDN 不是直接发钱，而是：

先学会“这笔奖金大概是由哪些人的努力构成的”
然后每个人按“隐含贡献”来优化自己的行为

三、模型缺陷与后续优化方向

——“为什么 VDN 只是第一步？”

VDN 非常重要，但它也很克制。

❌ 缺陷 1：只能“加”，不能“配合”

VDN 的假设是：

Q_total = Q1 + Q2 + …

这意味着：

智能体之间 没有显式的交互项
不能表达：
- “只有 A 和 B 同时做某件事才有价值”

举例：

一个人按按钮
另一个人拉杆
必须同时做才成功

👉 VDN 表达不了这种 非线性协作

❌ 缺陷 2：对复杂协作不够灵活

在高度协作任务中：

一个智能体的“好坏”
取决于队友的状态和动作

VDN 的“各算各的再相加”会显得过于简单。

四、后续模型如何在 VDN 基础上优化？

VDN 开启了一条非常重要的路线： 👉 “值分解”路线

后续工作基本都在回答一个问题：

能不能在不破坏可分散执行的前提下，让 Q_total 比“简单求和”更灵活？

🚀 1️⃣ QMIX（2018）

把 求和层 → 可学习的混合网络
约束：
- Q_total 对每个 Q_i 单调递增
能表达更复杂的协作关系

👉 可以理解为：

“加权加法 + 非线性”

🚀 2️⃣ QTRAN

尝试逼近真正的联合 Q
但计算和训练都更复杂

🚀 3️⃣ 更远的发展

非单调分解
显式通信
图结构协作
Transformer-based MARL

但所有这些，几乎都把 VDN 当作起点。