SAC(2018):连续控制DeepRL的成熟基础算法

SAC(2018):连续控制DeepRL的成熟基础算法

导出时间:2025/12/19 13:30:17



👉《别逼学生当学霸,让他先多试试》


一、先给你一个“反直觉结论”(认知锚点)

SAC 的核心思想是:不要一上来就逼策略“做最优决定”,而是奖励它“保持多种可能性”。

也就是说:

“确定性 ≠ 稳定, 适度随机 = 更稳。”



二、回到老问题:之前的方法“紧张在哪?”

🎯 场景:教一个学生解题

我们来看 DDPG / PPO 这一类方法,本质上都在做一件事:

“找到当前看起来最好的做法,然后不断强化它。”

这在学习后期是好事, 但在学习前期——是灾难

❌ 学生常见翻车现场

学生刚学数学时:
  • 偶然蒙对了一次解法
  • 老师立刻表扬:
  • “对!就这么做!”
  • 结果:
    • 学生死记硬背
    • 再也不敢尝试别的方法
    • 一换题型就全错
👉 这就是 过早确定(premature convergence)

三、DDPG / PPO 为什么会“不稳”?

我们用人话总结:

1️⃣ 它们都在“逼策略做决定”

  • DDPG: 👉 你现在就给我一个动作
  • PPO: 👉 你可以随机,但我要你越来越像一个确定答案
结果是:
  • 探索空间迅速塌缩
  • 一旦走错方向:
    • 没有“退路”

2️⃣ 一旦 Critic / Advantage 有点误差

那么灾难就来了:
  • 策略会:
    • 极度自信
    • 极度偏执
  • 然后:
    • 坚定地走向错误方向
👉 “自信地犯错”是最危险的状态

四、SAC 的核心反问(非常重要)

SAC 团队问了一个非常聪明的问题

“我们能不能把‘保持探索本身’,当成一件值得奖励的事?”

换句话说:

“不只奖励你得分高,也奖励你‘不那么死板’。”


五、SAC 的关键创新:Entropy(熵)

🧠 什么是“熵”?(完全不讲数学)

你可以把 理解为:

“选择的丰富程度”

  • 熵高:
    • 行为多样
    • 不那么确定
  • 熵低:
    • 行为单一
    • 很死板

🎯 SAC 的新目标(人话版)

SAC 不再只说:

“你要拿高分。”

而是说:

“你要拿高分,同时保持选择的多样性。”

也就是说:

“得分 + 自由度,一起重要。”


六、讲一个特别形象的比喻(一定要看)

🎮 玩游戏选武器

想象你在玩 RPG:
  • 你发现:
    • 剑:伤害高
    • 弓:一般
    • 法术:一般
如果你是 DDPG / PPO:

“那我以后只用剑!”

如果你是 SAC:

“剑确实好,但我也保留用弓、用法术的概率。”

为什么?
  • 因为:
    • 地形会变
    • 敌人会变
    • 剑可能突然被克制
👉 SAC 给策略留了“后手”

七、SAC 的训练直觉(故事版)

我们用“司机 + 教练”的故事再来一次。

👤 人物对照

SAC 组件
故事角色
Policy(随机)
不偏执的司机
Q 网络(两个)
两个谨慎的教练
Entropy 奖励
“鼓励多尝试”的规则


🟢 第一步:司机不是“只踩一种力度”

SAC 的司机:
  • 在同样的路况下
  • 允许自己尝试不同踩法
  • 而不是:
    • “我认准这个油门力度了”

🟢 第二步:教练打分,但不喜欢“死脑筋”

教练的评价标准变成了:

“你这么踩油门,分数确实高; 但如果你永远只这么踩,我会扣你点分。”

👉 这就是 熵奖励

🟢 第三步:为什么这反而更稳?

因为:
  1. 策略不会迅速塌缩成单一动作
  2. Critic 的误差不会被无限放大
  3. 策略始终保留“探索能力”
结果是:

学习曲线更平滑,几乎不出现“突然暴死”。


八、一个非常关键的 SAC 认知点(新手必懂)

SAC 不是“为了随机而随机”,而是:“在不确定的时候保持随机,在确定的时候自然变确定。”

在 SAC 中:
  • 前期:
    • 熵高
    • 大量探索
  • 后期:
    • 熵自动下降
    • 策略自然收敛
👉 不是强制随机,是“允许随机”

九、为什么 SAC 在实践中这么稳?

我们总结成一句工程真理:

SAC 把“探索”和“优化”统一进了同一个目标函数里。

而不是:
  • 先探索
  • 再关闭探索
这让它:
  • 不依赖 ε
  • 不依赖手工噪声
  • 对超参数更不敏感

十、SAC vs DDPG vs PPO(一句话对照)

  • DDPG: 👉 “你现在就给我最好的动作”
  • PPO: 👉 “你可以改,但别改太猛”
  • SAC: 👉 “你可以不那么确定,我会奖励你这一点”