强化学习 (Reinforcement Learning)

概述

强化学习（RL，Reinforcement Learning）研究智能体（Agent）如何在与环境的交互中通过试错学习最优策略。智能体根据状态采取动作，获得奖励或惩罚，目标是最大化长期累积奖励。与监督学习不同，RL 没有「标准答案」，只有事后的奖励反馈。它适用于难以获得大量标注数据、但容易定义「做得好不好」的任务，如游戏、机器人控制、推荐系统等。AlphaGo、RLHF 均依赖强化学习。

核心原理

RL 基于马尔可夫决策过程（MDP）：状态 $s$ 描述环境，动作 $a$ 改变状态，奖励 $r$ 提供即时反馈。策略 $π (a | s)$ 决定在状态 $s$ 下选择动作 $a$ 的概率。价值函数 $V (s)$ 表示从 $s$ 出发的长期期望回报；Q 函数 $Q (s, a)$ 表示在 $s$ 下执行 $a$ 后的长期期望回报。学习的目标是找到使累积奖励最大的策略。

关键技术

基于价值：Q-Learning 学习 Q 函数，选择 Q 值最大的动作；DQN 用神经网络近似 Q 函数，配合经验回放和目标网络稳定训练，可处理高维状态（如图像）。

基于策略：REINFORCE 直接优化策略参数；PPO 限制每次更新幅度，避免性能崩溃，是目前最常用的策略梯度算法之一。

Actor-Critic：Actor 选动作，Critic 估计价值，二者配合降低方差、加速学习。SAC 引入最大熵目标，鼓励探索，适合连续控制。

模型驱动：MuZero 学习环境模型，在「想象」中规划；World Models 在 latent 空间学习策略，减少真实交互。

代表性工作

应用	说明
AlphaGo / AlphaZero	棋类博弈，超越人类顶尖
游戏 AI	Atari、StarCraft II、Dota 2（OpenAI Five）
机器人控制	机械臂抓取、四足行走、手部操作
RLHF	LLM 人类偏好对齐
推荐系统	个性化推荐、广告投放

应用场景

游戏 NPC：RL 在需要序贯决策、难以获得标注数据的场景中具有独特优势。
机器人拣货与装配：工业自动化中的序贯决策。
多轮对话策略：对话系统的策略优化。
数据中心与电网调度：资源调度与优化。
药物分子设计：分子生成与优化。

发展趋势

大模型与 RL 结合：RLHF、DPO 等人类偏好对齐方法。
具身智能：机器人在真实环境中学习。
多智能体 RL：协作与竞争场景。
离线 RL：从已有数据学习，不与环境交互。
安全 RL：约束满足、风险规避。

通识必修

专业核心

专业选修

保研基本常识

夏令营

预推免

竞赛汇总

强化学习 (Reinforcement Learning)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源

强化学习 (Reinforcement Learning) ​

概述 ​

核心原理 ​

关键技术 ​

代表性工作 ​

应用场景 ​

发展趋势 ​

推荐资源 ​

强化学习 (Reinforcement Learning)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源