强化学习系统专栏 · 从零开始

零基础强化学习入门：从理论到实战

不要求你有机器学习经验，从状态、动作到奖励函数，从表格型方法到深度强化学习，手把手带你把 PPO、DQN、DDPG 等主流算法「学得懂、写得出、用得上」。

30+ 节 系统章节 & 实战项目

练习题 + 答案 巩固每一章知识

0 基础友好 数学推导配图讲解

查看完整课程大纲

学习进度 · 强化学习专栏

练习 + 实战驱动

已掌握：基础概念 → 表格型方法下一站：DQN & PPO

14章核心精讲

14章章练习题详解

3套实战项目

1次性学习闭环

马尔可夫决策过程 MDP Q-learning · DQN · PPO Actor-Critic · DDPG AlphaStar & 世界模型

适合：算法工程师 / 研究生 / 想做 RL 的开发者

❓ 你是不是也在学强化学习时遇到这些问题？

教科书太抽象，论文看不懂，只会照着 GitHub 代码抄？本专栏帮你把「概念、公式、代码、实验」串成一条清晰的学习路径。

痛点 01 · 理论太硬

公式一大堆，看完还是没搞懂「在干嘛」

值函数、策略、贝尔曼方程傻傻分不清
马尔可夫决策过程 MDP 概念记不住，更别提建模
搞不清各个算法之间的联系和适用场景

痛点 02 · 代码不会写

GitHub 代码能跑，却改不动、看不懂

超参数怎么选？网络结构怎么搭？全靠猜
遇到训练不收敛、奖励不增长，只会重新跑
缺少从「伪代码 → 代码实现 → 结果分析」的完整示范

痛点 03 · 知识不成体系

学完一两个算法，却很难举一反三

只知道 DQN / PPO 的名字，不清楚背后的统一框架
项目里想用 RL 解问题，却不知道从哪一类算法入手
缺少成体系的练习与项目把知识固定下来

✨ 这个专栏，帮你搭起一套完整的强化学习「内功心法」

从基础概念到深度强化学习，再到 AlphaStar 与世界模型，逐章递进；理论推导 + 练习题 + 代码实战，让你真正能用强化学习解决问题。

亮点 01

零基础友好：从 MDP 到策略梯度，一步步讲清楚

从「状态 / 动作 / 奖励」直观切入，理解智能体如何与环境交互
用生活化例子拆解马尔可夫决策过程、值函数、策略改进
涉及数学推导的章节，配图与文字解释并行，不硬上公式

亮点 02

练习题驱动：每一章都有「动手检查理解」

第 1、2、3、4、5、6、7、8、9、10、11、12 章均配套练习题
从概念判断、推导填空，到简单代码思考题，逐步加深理解
练习题配解析，帮助你发现「以为懂了、其实没懂」的地方

亮点 03

纯实战导向：多个经典环境项目带你走完闭环

用 Q-learning 解决悬崖寻路（Cliff Walking）问题
用 DQN 实现 CartPole-v0 平衡杆任务
用 Policy-based 方法解决 Pendulum-v0 摆杆控制
结合 AlphaStar、世界模型，理解强化学习前沿方向

📚 完整课程大纲：从基础到前沿，一站式打通

每一章都有「讲解 + 练习」，关键章节配「项目实战」，带你从表格型方法一路走到深度强化学习与世界模型。

第 1 章 · 强化学习基础

入门起点

理论 01 - 强化学习是什么？智能体、环境与奖励的基本概念
练习 02 - 第 1 章练习题：核心概念与基本术语自测

第 2 章 · 马尔可夫决策过程（MDP）

理论基石

理论 03 - 马尔可夫决策过程：状态转移、回报与折扣因子
练习 04 - 第 2 章练习题：贝尔曼方程与策略评估

第 3 章 · 表格型方法

从离散问题起步

理论 05 - 第 3 章表格型方法：价值迭代、策略迭代、蒙特卡洛等
项目 06 - 使用 Q-learning 解决悬崖寻路（Cliff Walking）问题

第 4 章 · 策略梯度方法

从值函数到策略函数

理论 07 - 策略梯度基础：目标函数、梯度估计、方差与基线
练习 08 - 第 4 章练习题：从 REINFORCE 到改进版策略梯度

第 5 章 · PPO 算法

主流 On-policy 算法

理论 09 - 第 5 章 PPO 算法：截断重要性采样、优势函数与稳定训练
练习 10 - 第 5 章练习题：PPO 目标函数与实现细节

第 6–7 章 · 深度 Q 网络（DQN）与进阶技巧

经典 DQN 家族

理论 11 - 第 6 章深度 Q 网络：经验回放、目标网络与稳定训练
练习 12 - 第 6 章练习题：DQN 结构与训练细节
理论 13 - 第 7 章深度 Q 网络进阶技巧：Double DQN、Dueling DQN 等
练习 14 - 第 7 章练习题：各类改进方法的优缺点
项目 15 - 使用 DQN 实现 CartPole-v0 平衡杆任务

第 8 章 · 针对连续动作的深度 Q 网络

走向连续控制

理论 16 - 第 8 章：连续动作空间下的深度 Q 方法思路
练习 17 - 第 8 章练习题：离散 vs 连续动作对比

第 9 章 · 演员-评论员（Actor-Critic）算法

价值 + 策略的统一视角

理论 18 - 第 9 章：Actor-Critic、A2C/A3C 等算法框架
练习 19 - 第 9 章练习题：价值网络与策略网络的协同

第 10 章 · 稀疏奖励

现实环境中的挑战

理论 20 - 第 10 章：稀疏奖励问题与探索策略
练习 21 - 第 10 章练习题：奖励设计与探索技巧

第 11 章 · 模仿学习

从专家演示中学习

理论 22 - 第 11 章模仿学习：行为克隆、逆向强化学习等
练习 23 - 第 11 章练习题：模仿学习与强化学习如何结合

第 12 章 · 深度确定性策略梯度（DDPG）

连续控制代表算法

理论 24 - 第 12 章：DDPG 算法原理与实现细节
练习 25 - 第 12 章练习题：目标网络、噪声策略等要点
项目 26 - 使用 Policy-based 方法实现 Pendulum-v0 控制任务

第 13–14 章 · AlphaStar / LS-Imagine 与世界模型

前沿视野

理论 27 - 第 13 章：AlphaStar 论文解读，理解大规模对战类 RL 系统
理论 28 - 第 14 章 LS-Imagine 简介：基于想象的智能体训练思路
理论 29 - 世界模型的本质：建模环境、在「脑内模拟」中学习

阅读建议 · 如何高效使用这个大纲？

完全零基础：建议按章节顺序从 1→12 依次学习，遇到数学推导先理解「结论」，再回头看证明。
已有机器学习基础：可以从第 3 章表格型方法或第 6 章 DQN 开始，快速把经典算法串起来。
偏实战：优先完成 06、15、26 三个项目，形成「从理论到代码」的完整闭环，再回头补充细节章节。
想关注前沿：第 13–14 章的 AlphaStar、LS-Imagine 与世界模型，会帮助你建立 RL 与大模型/复杂系统的连接。

✓ 每章有对应 HTML 内容，适合 PC 与手机阅读 ✓ 大纲结构清晰，方便你按需查阅与回看

🧭 学习路径规划：从入门到能独立实现强化学习算法

不只是「看完一本书」，而是一条可落地的学习路线：用 4 个阶段，把你带到能独立写出 RL 算法、跑出实验结果的水平。

阶段一：打基础（第 1–2 章）

目标：真正弄懂「强化学习在解决什么问题？」

集中时间搞懂 MDP、回报、贝尔曼方程等基础概念。你会从模糊的印象，变成能用自己的话解释清楚 RL 的工作流程。

阶段二：熟悉经典算法（第 3–7 章）

目标：能写出 Q-learning / DQN 全流程代码

先在表格型环境中掌握值迭代与 Q-learning，再把它升级成 DQN 及其改进版本，并通过悬崖寻路与 CartPole 项目构建实战经验。

阶段三：进阶策略方法与连续控制（第 4–5、8–12 章）

目标：理解和实现 PPO / Actor-Critic / DDPG

系统梳理策略梯度 & Actor-Critic 思路，并通过 PPO、DDPG、Pendulum 项目，掌握连续动作空间下的训练细节和常见坑位。

阶段四：前沿视野与落地思考（第 13–14 章）

目标：能看懂经典 RL 论文，理解工业级系统思路

通过 AlphaStar、LS-Imagine 与世界模型内容，你将看到强化学习在复杂游戏、想象模型中的应用，为未来深挖研究打下基础。

完成专栏后，你将收获什么？

能从零推导并解释 Q-learning、DQN、PPO、DDPG 等主流算法的核心公式与实现思路。
能独立搭建 Gym 类环境中的 RL 实验：选择算法、配置网络、调整超参数并分析结果。
遇到新论文/新算法时，不再只是「看不懂」，而是知道它在既有框架中的位置与改进点。
为之后进入更复杂的多智能体、元学习、世界模型等方向打好扎实地基。
拥有一份可反复查阅的中文强化学习知识库，方便后续工作 / 研究中随时翻查。

🧑‍💻 哪些人适合学习这个专栏？

算法工程师 / Python 开发者，想补齐强化学习这一块知识的。
准备做强化学习方向课题的本科 / 研究生，希望快速构建系统框架的。
只看过几篇 RL 教程 / 视频，但总觉得零碎、不成体系的自学者。
已经在项目中尝试使用 RL，但对算法细节、理论理解还不够扎实的人。
对 AlphaStar、世界模型等前沿方向感兴趣，希望打基础再进一步的人。

你会更有底气地在简历 / 项目中写上强化学习相关经历。
你能把复杂算法讲给同事 / 同学听，而不是只会说几个名词。
你可以把专栏当作「RL 工具箱」，遇到新问题时快速想起适合的算法路径。

现在开始，系统掌握强化学习

继续浏览课程大纲

建议：购买后，先用 1–2 周时间集中走完 Stage 1 & 2，再配合实战项目反复推敲细节，效果最佳。