强化学习系统专栏 · 从零开始

零基础强化学习入门: 从理论到实战

不要求你有机器学习经验,从状态、动作到奖励函数,从表格型方法到深度强化学习, 手把手带你把 PPO、DQN、DDPG 等主流算法「学得懂、写得出、用得上」。

30+ 节 系统章节 & 实战项目
练习题 + 答案 巩固每一章知识
0 基础友好 数学推导配图讲解
查看完整课程大纲
学习进度 · 强化学习专栏
练习 + 实战驱动
已掌握:基础概念 → 表格型方法 下一站:DQN & PPO
14章核心精讲
14章章练习题详解
3套实战项目
1次性学习闭环
马尔可夫决策过程 MDP Q-learning · DQN · PPO Actor-Critic · DDPG AlphaStar & 世界模型
适合:算法工程师 / 研究生 / 想做 RL 的开发者

你是不是也在学强化学习时遇到这些问题?

教科书太抽象,论文看不懂,只会照着 GitHub 代码抄?本专栏帮你把「概念、公式、代码、实验」串成一条清晰的学习路径。

痛点 01 · 理论太硬

公式一大堆,看完还是没搞懂「在干嘛」

  • 值函数、策略、贝尔曼方程傻傻分不清
  • 马尔可夫决策过程 MDP 概念记不住,更别提建模
  • 搞不清各个算法之间的联系和适用场景
痛点 02 · 代码不会写

GitHub 代码能跑,却改不动、看不懂

  • 超参数怎么选?网络结构怎么搭?全靠猜
  • 遇到训练不收敛、奖励不增长,只会重新跑
  • 缺少从「伪代码 → 代码实现 → 结果分析」的完整示范
痛点 03 · 知识不成体系

学完一两个算法,却很难举一反三

  • 只知道 DQN / PPO 的名字,不清楚背后的统一框架
  • 项目里想用 RL 解问题,却不知道从哪一类算法入手
  • 缺少成体系的练习与项目把知识固定下来

这个专栏,帮你搭起一套完整的强化学习「内功心法」

从基础概念到深度强化学习,再到 AlphaStar 与世界模型,逐章递进;理论推导 + 练习题 + 代码实战,让你真正能用强化学习解决问题。

亮点 01

零基础友好:从 MDP 到策略梯度,一步步讲清楚

  • 从「状态 / 动作 / 奖励」直观切入,理解智能体如何与环境交互
  • 用生活化例子拆解马尔可夫决策过程、值函数、策略改进
  • 涉及数学推导的章节,配图与文字解释并行,不硬上公式
亮点 02

练习题驱动:每一章都有「动手检查理解」

  • 第 1、2、3、4、5、6、7、8、9、10、11、12 章均配套练习题
  • 从概念判断、推导填空,到简单代码思考题,逐步加深理解
  • 练习题配解析,帮助你发现「以为懂了、其实没懂」的地方
亮点 03

纯实战导向:多个经典环境项目带你走完闭环

  • 用 Q-learning 解决悬崖寻路(Cliff Walking)问题
  • 用 DQN 实现 CartPole-v0 平衡杆任务
  • 用 Policy-based 方法解决 Pendulum-v0 摆杆控制
  • 结合 AlphaStar、世界模型,理解强化学习前沿方向

📚 完整课程大纲:从基础到前沿,一站式打通

每一章都有「讲解 + 练习」,关键章节配「项目实战」,带你从表格型方法一路走到深度强化学习与世界模型。

第 1 章 · 强化学习基础
入门起点
  • 理论 01 - 强化学习是什么?智能体、环境与奖励的基本概念
  • 练习 02 - 第 1 章练习题:核心概念与基本术语自测
第 2 章 · 马尔可夫决策过程(MDP)
理论基石
  • 理论 03 - 马尔可夫决策过程:状态转移、回报与折扣因子
  • 练习 04 - 第 2 章练习题:贝尔曼方程与策略评估
第 3 章 · 表格型方法
从离散问题起步
  • 理论 05 - 第 3 章 表格型方法:价值迭代、策略迭代、蒙特卡洛等
  • 项目 06 - 使用 Q-learning 解决悬崖寻路(Cliff Walking)问题
第 4 章 · 策略梯度方法
从值函数到策略函数
  • 理论 07 - 策略梯度基础:目标函数、梯度估计、方差与基线
  • 练习 08 - 第 4 章练习题:从 REINFORCE 到改进版策略梯度
第 5 章 · PPO 算法
主流 On-policy 算法
  • 理论 09 - 第 5 章 PPO 算法:截断重要性采样、优势函数与稳定训练
  • 练习 10 - 第 5 章练习题:PPO 目标函数与实现细节
第 6–7 章 · 深度 Q 网络(DQN)与进阶技巧
经典 DQN 家族
  • 理论 11 - 第 6 章 深度 Q 网络:经验回放、目标网络与稳定训练
  • 练习 12 - 第 6 章练习题:DQN 结构与训练细节
  • 理论 13 - 第 7 章 深度 Q 网络进阶技巧:Double DQN、Dueling DQN 等
  • 练习 14 - 第 7 章练习题:各类改进方法的优缺点
  • 项目 15 - 使用 DQN 实现 CartPole-v0 平衡杆任务
第 8 章 · 针对连续动作的深度 Q 网络
走向连续控制
  • 理论 16 - 第 8 章:连续动作空间下的深度 Q 方法思路
  • 练习 17 - 第 8 章练习题:离散 vs 连续动作对比
第 9 章 · 演员-评论员(Actor-Critic)算法
价值 + 策略的统一视角
  • 理论 18 - 第 9 章:Actor-Critic、A2C/A3C 等算法框架
  • 练习 19 - 第 9 章练习题:价值网络与策略网络的协同
第 10 章 · 稀疏奖励
现实环境中的挑战
  • 理论 20 - 第 10 章:稀疏奖励问题与探索策略
  • 练习 21 - 第 10 章练习题:奖励设计与探索技巧
第 11 章 · 模仿学习
从专家演示中学习
  • 理论 22 - 第 11 章 模仿学习:行为克隆、逆向强化学习等
  • 练习 23 - 第 11 章练习题:模仿学习与强化学习如何结合
第 12 章 · 深度确定性策略梯度(DDPG)
连续控制代表算法
  • 理论 24 - 第 12 章:DDPG 算法原理与实现细节
  • 练习 25 - 第 12 章练习题:目标网络、噪声策略等要点
  • 项目 26 - 使用 Policy-based 方法实现 Pendulum-v0 控制任务
第 13–14 章 · AlphaStar / LS-Imagine 与世界模型
前沿视野
  • 理论 27 - 第 13 章:AlphaStar 论文解读,理解大规模对战类 RL 系统
  • 理论 28 - 第 14 章 LS-Imagine 简介:基于想象的智能体训练思路
  • 理论 29 - 世界模型的本质:建模环境、在「脑内模拟」中学习

🧭 学习路径规划:从入门到能独立实现强化学习算法

不只是「看完一本书」,而是一条可落地的学习路线:用 4 个阶段,把你带到能独立写出 RL 算法、跑出实验结果的水平。

阶段一:打基础(第 1–2 章)
目标:真正弄懂「强化学习在解决什么问题?」
集中时间搞懂 MDP、回报、贝尔曼方程等基础概念。你会从模糊的印象,变成能用自己的话解释清楚 RL 的工作流程。
阶段二:熟悉经典算法(第 3–7 章)
目标:能写出 Q-learning / DQN 全流程代码
先在表格型环境中掌握值迭代与 Q-learning,再把它升级成 DQN 及其改进版本,并通过悬崖寻路与 CartPole 项目构建实战经验。
阶段三:进阶策略方法与连续控制(第 4–5、8–12 章)
目标:理解和实现 PPO / Actor-Critic / DDPG
系统梳理策略梯度 & Actor-Critic 思路,并通过 PPO、DDPG、Pendulum 项目,掌握连续动作空间下的训练细节和常见坑位。
阶段四:前沿视野与落地思考(第 13–14 章)
目标:能看懂经典 RL 论文,理解工业级系统思路
通过 AlphaStar、LS-Imagine 与世界模型内容,你将看到强化学习在复杂游戏、想象模型中的应用,为未来深挖研究打下基础。

完成专栏后,你将收获什么?

  • 能从零推导并解释 Q-learning、DQN、PPO、DDPG 等主流算法的核心公式与实现思路。
  • 能独立搭建 Gym 类环境中的 RL 实验:选择算法、配置网络、调整超参数并分析结果。
  • 遇到新论文/新算法时,不再只是「看不懂」,而是知道它在既有框架中的位置与改进点。
  • 为之后进入更复杂的多智能体、元学习、世界模型等方向打好扎实地基。
  • 拥有一份可反复查阅的中文强化学习知识库,方便后续工作 / 研究中随时翻查。

🧑‍💻 哪些人适合学习这个专栏?

  • 算法工程师 / Python 开发者,想补齐强化学习这一块知识的。
  • 准备做强化学习方向课题的本科 / 研究生,希望快速构建系统框架的。
  • 只看过几篇 RL 教程 / 视频,但总觉得零碎、不成体系的自学者。
  • 已经在项目中尝试使用 RL,但对算法细节、理论理解还不够扎实的人。
  • 对 AlphaStar、世界模型等前沿方向感兴趣,希望打基础再进一步的人。
  • 你会更有底气地在简历 / 项目中写上强化学习相关经历。
  • 你能把复杂算法讲给同事 / 同学听,而不是只会说几个名词。
  • 你可以把专栏当作「RL 工具箱」,遇到新问题时快速想起适合的算法路径。

现在开始,系统掌握强化学习

继续浏览课程大纲

建议:购买后,先用 1–2 周时间集中走完 Stage 1 & 2,再配合实战项目反复推敲细节,效果最佳。