痛点 01 · 理论太硬
公式一大堆,看完还是没搞懂「在干嘛」
- 值函数、策略、贝尔曼方程傻傻分不清
- 马尔可夫决策过程 MDP 概念记不住,更别提建模
- 搞不清各个算法之间的联系和适用场景
痛点 02 · 代码不会写
GitHub 代码能跑,却改不动、看不懂
- 超参数怎么选?网络结构怎么搭?全靠猜
- 遇到训练不收敛、奖励不增长,只会重新跑
- 缺少从「伪代码 → 代码实现 → 结果分析」的完整示范
痛点 03 · 知识不成体系
学完一两个算法,却很难举一反三
- 只知道 DQN / PPO 的名字,不清楚背后的统一框架
- 项目里想用 RL 解问题,却不知道从哪一类算法入手
- 缺少成体系的练习与项目把知识固定下来
亮点 01
零基础友好:从 MDP 到策略梯度,一步步讲清楚
- 从「状态 / 动作 / 奖励」直观切入,理解智能体如何与环境交互
- 用生活化例子拆解马尔可夫决策过程、值函数、策略改进
- 涉及数学推导的章节,配图与文字解释并行,不硬上公式
亮点 02
练习题驱动:每一章都有「动手检查理解」
- 第 1、2、3、4、5、6、7、8、9、10、11、12 章均配套练习题
- 从概念判断、推导填空,到简单代码思考题,逐步加深理解
- 练习题配解析,帮助你发现「以为懂了、其实没懂」的地方
亮点 03
纯实战导向:多个经典环境项目带你走完闭环
- 用 Q-learning 解决悬崖寻路(Cliff Walking)问题
- 用 DQN 实现 CartPole-v0 平衡杆任务
- 用 Policy-based 方法解决 Pendulum-v0 摆杆控制
- 结合 AlphaStar、世界模型,理解强化学习前沿方向
-
理论
01 - 强化学习是什么?智能体、环境与奖励的基本概念
-
练习
02 - 第 1 章练习题:核心概念与基本术语自测
-
理论
03 - 马尔可夫决策过程:状态转移、回报与折扣因子
-
练习
04 - 第 2 章练习题:贝尔曼方程与策略评估
-
理论
05 - 第 3 章 表格型方法:价值迭代、策略迭代、蒙特卡洛等
-
项目
06 - 使用 Q-learning 解决悬崖寻路(Cliff Walking)问题
-
理论
07 - 策略梯度基础:目标函数、梯度估计、方差与基线
-
练习
08 - 第 4 章练习题:从 REINFORCE 到改进版策略梯度
-
理论
09 - 第 5 章 PPO 算法:截断重要性采样、优势函数与稳定训练
-
练习
10 - 第 5 章练习题:PPO 目标函数与实现细节
-
理论
11 - 第 6 章 深度 Q 网络:经验回放、目标网络与稳定训练
-
练习
12 - 第 6 章练习题:DQN 结构与训练细节
-
理论
13 - 第 7 章 深度 Q 网络进阶技巧:Double DQN、Dueling DQN 等
-
练习
14 - 第 7 章练习题:各类改进方法的优缺点
-
项目
15 - 使用 DQN 实现 CartPole-v0 平衡杆任务
-
理论
16 - 第 8 章:连续动作空间下的深度 Q 方法思路
-
练习
17 - 第 8 章练习题:离散 vs 连续动作对比
-
理论
18 - 第 9 章:Actor-Critic、A2C/A3C 等算法框架
-
练习
19 - 第 9 章练习题:价值网络与策略网络的协同
-
理论
20 - 第 10 章:稀疏奖励问题与探索策略
-
练习
21 - 第 10 章练习题:奖励设计与探索技巧
-
理论
22 - 第 11 章 模仿学习:行为克隆、逆向强化学习等
-
练习
23 - 第 11 章练习题:模仿学习与强化学习如何结合
-
理论
24 - 第 12 章:DDPG 算法原理与实现细节
-
练习
25 - 第 12 章练习题:目标网络、噪声策略等要点
-
项目
26 - 使用 Policy-based 方法实现 Pendulum-v0 控制任务
-
理论
27 - 第 13 章:AlphaStar 论文解读,理解大规模对战类 RL 系统
-
理论
28 - 第 14 章 LS-Imagine 简介:基于想象的智能体训练思路
-
理论
29 - 世界模型的本质:建模环境、在「脑内模拟」中学习
阶段一:打基础(第 1–2 章)
目标:真正弄懂「强化学习在解决什么问题?」
集中时间搞懂 MDP、回报、贝尔曼方程等基础概念。你会从模糊的印象,变成能用自己的话解释清楚 RL 的工作流程。
阶段二:熟悉经典算法(第 3–7 章)
目标:能写出 Q-learning / DQN 全流程代码
先在表格型环境中掌握值迭代与 Q-learning,再把它升级成 DQN 及其改进版本,并通过悬崖寻路与 CartPole 项目构建实战经验。
阶段三:进阶策略方法与连续控制(第 4–5、8–12 章)
目标:理解和实现 PPO / Actor-Critic / DDPG
系统梳理策略梯度 & Actor-Critic 思路,并通过 PPO、DDPG、Pendulum 项目,掌握连续动作空间下的训练细节和常见坑位。
阶段四:前沿视野与落地思考(第 13–14 章)
目标:能看懂经典 RL 论文,理解工业级系统思路
通过 AlphaStar、LS-Imagine 与世界模型内容,你将看到强化学习在复杂游戏、想象模型中的应用,为未来深挖研究打下基础。
完成专栏后,你将收获什么?
- 能从零推导并解释 Q-learning、DQN、PPO、DDPG 等主流算法的核心公式与实现思路。
- 能独立搭建 Gym 类环境中的 RL 实验:选择算法、配置网络、调整超参数并分析结果。
- 遇到新论文/新算法时,不再只是「看不懂」,而是知道它在既有框架中的位置与改进点。
- 为之后进入更复杂的多智能体、元学习、世界模型等方向打好扎实地基。
- 拥有一份可反复查阅的中文强化学习知识库,方便后续工作 / 研究中随时翻查。
- 算法工程师 / Python 开发者,想补齐强化学习这一块知识的。
- 准备做强化学习方向课题的本科 / 研究生,希望快速构建系统框架的。
- 只看过几篇 RL 教程 / 视频,但总觉得零碎、不成体系的自学者。
- 已经在项目中尝试使用 RL,但对算法细节、理论理解还不够扎实的人。
- 对 AlphaStar、世界模型等前沿方向感兴趣,希望打基础再进一步的人。
- 你会更有底气地在简历 / 项目中写上强化学习相关经历。
- 你能把复杂算法讲给同事 / 同学听,而不是只会说几个名词。
- 你可以把专栏当作「RL 工具箱」,遇到新问题时快速想起适合的算法路径。
现在开始,系统掌握强化学习
建议:购买后,先用 1–2 周时间集中走完 Stage 1 & 2,再配合实战项目反复推敲细节,效果最佳。