VDN(2017):最早提出的值分解网络方法
导出时间:2025/12/19 13:30:25
一、研究背景与动机:
——“一群人拿同一份奖金,为什么学不会合作?”
我们先讲一个故事。
🌍 故事背景:两人迷宫小队
想象一个迷宫里有 两个小机器人:
- 他们 各自只能看到自己眼前的一小块区域
- 他们 各自独立行动
- 但——奖励是团队共享的
- 只要“整体任务完成”,系统就给 一个总奖励
这在现实中非常常见,比如:
- 两辆自动驾驶车配合通过路口
- 两个机器人一起搬箱子
- 游戏里的双人协作任务
❌ 传统方法 1:完全集中式(一个大脑管所有人)
“那干脆把两个机器人当成一个超级机器人不就好了?”
问题是:
- 动作空间爆炸(两个机器人动作组合指数级增长)
- 部署时不现实(现实中机器人不能共享完整状态)
- 很容易出现 “懒惰智能体”:
- 其中一个机器人学得好
- 另一个机器人一探索就“拖后腿”
- 最后系统干脆只依赖一个机器人
论文中明确指出:即使在很简单的协作任务中,集中式方法也会失败
❌ 传统方法 2:完全独立学习(各学各的,但用同一个奖励)
“那就各学各的呗,反正奖励是一样的。”
问题更严重:
- 每个智能体看到的奖励里:
- 一部分是自己造成的
- 一部分是队友造成的
- 但它 分不清楚
这就像:
你和同学做小组作业,老师只给一个总分 你完全不知道:
- 是你写得好加分了
- 还是同学乱改扣分了
结果就是:
👉 奖励信号变成“噪声”
👉 学习过程极度不稳定(非平稳)
🎯 核心动机(一句话):
能不能在“只给团队奖励”的情况下 让每个智能体学到“和自己行为相关的价值”?
VDN 就是为了解决这个问题而生的。
二、VDN 模型网络结构:
——“把一份团队成绩,拆成每个人的贡献”
现在,故事进入高潮。
🧠 核心思想(非常重要)
VDN 提出一个极其朴素、但非常强大的假设:
团队的 Q 值,可以近似等于每个智能体 Q 值的“加和”
数学形式是:
Qtotal(h1,…,hn, a1,…,an) ≈ ∑iQi(hi,ai)
你可以把它理解为:
团队价值 = 张三的贡献 + 李四的贡献 + 王五的贡献
⚠️ 注意:
- 这里只是 近似
- 但这个近似非常“工程友好”
🏗️ 网络结构(用故事讲)
我们还是用 两个机器人 举例。
① 每个机器人都有一个“私人小脑袋”
- 输入:
- 自己的局部观测(看得到什么)
- 自己过去的历史(LSTM 记忆)
- 输出:
- 一个 局部 Q 值函数 Qi(oi,ai)
它并不知道“团队发生了什么”,
只关心一句话:
“如果我现在这样做,对团队整体来说好不好?”
② 上面加一个“求和层”(VDN 的灵魂)
- 把所有智能体的 Qi 直接相加
- 得到一个:
- Qtotal=Q1+Q2
这个 求和操作是可微的,非常关键:
- 团队奖励 → 梯度
- 梯度 → 反向传播
- 自动“分摊”到每个智能体的网络中
👉 不用人工设计奖励拆分,网络自己学
③ 训练集中,执行分散(CTDE)
- 训练时:
- 用团队奖励更新总 Q
- 执行时:
- 每个智能体只用自己的 Qi
- 各自
argmax Q_i(a_i)
等价于:
每个人都在做“对团队最有利的个人决定”
🧩 一个形象比喻
把 VDN 想成:
公司年终奖只有一笔总奖金
VDN 不是直接发钱, 而是:
- 先学会“这笔奖金大概是由哪些人的努力构成的”
- 然后每个人按“隐含贡献”来优化自己的行为
三、模型缺陷与后续优化方向
——“为什么 VDN 只是第一步?”
VDN 非常重要,但它也很克制。
❌ 缺陷 1:只能“加”,不能“配合”
VDN 的假设是:
Q_total = Q1 + Q2 + …
这意味着:
- 智能体之间 没有显式的交互项
- 不能表达:
- “只有 A 和 B 同时做某件事才有价值”
举例:
- 一个人按按钮
- 另一个人拉杆
- 必须同时做才成功
👉 VDN 表达不了这种 非线性协作
❌ 缺陷 2:对复杂协作不够灵活
在高度协作任务中:
- 一个智能体的“好坏”
- 取决于队友的状态和动作
VDN 的“各算各的再相加”会显得过于简单。
四、后续模型如何在 VDN 基础上优化?
VDN 开启了一条非常重要的路线:
👉 “值分解”路线
后续工作基本都在回答一个问题:
能不能在不破坏可分散执行的前提下, 让 Q_total 比“简单求和”更灵活?
🚀 1️⃣ QMIX(2018)
- 把 求和层 → 可学习的混合网络
- 约束:
- Q_total 对每个 Q_i 单调递增
- 能表达更复杂的协作关系
👉 可以理解为:
“加权加法 + 非线性”
🚀 2️⃣ QTRAN
- 尝试逼近真正的联合 Q
- 但计算和训练都更复杂
🚀 3️⃣ 更远的发展
- 非单调分解
- 显式通信
- 图结构协作
- Transformer-based MARL
但所有这些,几乎都把 VDN 当作起点。