强化学习 (Reinforcement Learning)
概述
强化学习(RL,Reinforcement Learning)研究智能体(Agent)如何在与环境的交互中通过试错学习最优策略。智能体根据状态采取动作,获得奖励或惩罚,目标是最大化长期累积奖励。与监督学习不同,RL 没有「标准答案」,只有事后的奖励反馈。它适用于难以获得大量标注数据、但容易定义「做得好不好」的任务,如游戏、机器人控制、推荐系统等。AlphaGo、RLHF 均依赖强化学习。
核心原理
RL 基于马尔可夫决策过程(MDP):状态
关键技术
基于价值:Q-Learning 学习 Q 函数,选择 Q 值最大的动作;DQN 用神经网络近似 Q 函数,配合经验回放和目标网络稳定训练,可处理高维状态(如图像)。
基于策略:REINFORCE 直接优化策略参数;PPO 限制每次更新幅度,避免性能崩溃,是目前最常用的策略梯度算法之一。
Actor-Critic:Actor 选动作,Critic 估计价值,二者配合降低方差、加速学习。SAC 引入最大熵目标,鼓励探索,适合连续控制。
模型驱动:MuZero 学习环境模型,在「想象」中规划;World Models 在 latent 空间学习策略,减少真实交互。
代表性工作
| 应用 | 说明 |
|---|---|
| AlphaGo / AlphaZero | 棋类博弈,超越人类顶尖 |
| 游戏 AI | Atari、StarCraft II、Dota 2(OpenAI Five) |
| 机器人控制 | 机械臂抓取、四足行走、手部操作 |
| RLHF | LLM 人类偏好对齐 |
| 推荐系统 | 个性化推荐、广告投放 |
应用场景
- 游戏 NPC:RL 在需要序贯决策、难以获得标注数据的场景中具有独特优势。
- 机器人拣货与装配:工业自动化中的序贯决策。
- 多轮对话策略:对话系统的策略优化。
- 数据中心与电网调度:资源调度与优化。
- 药物分子设计:分子生成与优化。
发展趋势
- 大模型与 RL 结合:RLHF、DPO 等人类偏好对齐方法。
- 具身智能:机器人在真实环境中学习。
- 多智能体 RL:协作与竞争场景。
- 离线 RL:从已有数据学习,不与环境交互。
- 安全 RL:约束满足、风险规避。
推荐资源
- 书籍:Sutton & Barto《Reinforcement Learning: An Introduction》(免费在线版)
- 课程:David Silver's RL Course(UCL)、UC Berkeley CS285
- 实践:Gymnasium