Skip to content
"Anything that could give rise to smarter-than-human intelligence  in the form of Artificial Intelligence  seems to me to be something that could either save us or destroy us."— Sam Harris

强化学习 (Reinforcement Learning)

概述

强化学习(RL,Reinforcement Learning)研究智能体(Agent)如何在与环境的交互中通过试错学习最优策略。智能体根据状态采取动作,获得奖励或惩罚,目标是最大化长期累积奖励。与监督学习不同,RL 没有「标准答案」,只有事后的奖励反馈。它适用于难以获得大量标注数据、但容易定义「做得好不好」的任务,如游戏、机器人控制、推荐系统等。AlphaGo、RLHF 均依赖强化学习。

核心原理

RL 基于马尔可夫决策过程(MDP):状态 s 描述环境,动作 a 改变状态,奖励 r 提供即时反馈。策略 π(a|s) 决定在状态 s 下选择动作 a 的概率。价值函数 V(s) 表示从 s 出发的长期期望回报;Q 函数 Q(s,a) 表示在 s 下执行 a 后的长期期望回报。学习的目标是找到使累积奖励最大的策略。

关键技术

基于价值:Q-Learning 学习 Q 函数,选择 Q 值最大的动作;DQN 用神经网络近似 Q 函数,配合经验回放和目标网络稳定训练,可处理高维状态(如图像)。

基于策略:REINFORCE 直接优化策略参数;PPO 限制每次更新幅度,避免性能崩溃,是目前最常用的策略梯度算法之一。

Actor-Critic:Actor 选动作,Critic 估计价值,二者配合降低方差、加速学习。SAC 引入最大熵目标,鼓励探索,适合连续控制。

模型驱动:MuZero 学习环境模型,在「想象」中规划;World Models 在 latent 空间学习策略,减少真实交互。

代表性工作

应用说明
AlphaGo / AlphaZero棋类博弈,超越人类顶尖
游戏 AIAtari、StarCraft II、Dota 2(OpenAI Five)
机器人控制机械臂抓取、四足行走、手部操作
RLHFLLM 人类偏好对齐
推荐系统个性化推荐、广告投放

应用场景

  • 游戏 NPC:RL 在需要序贯决策、难以获得标注数据的场景中具有独特优势。
  • 机器人拣货与装配:工业自动化中的序贯决策。
  • 多轮对话策略:对话系统的策略优化。
  • 数据中心与电网调度:资源调度与优化。
  • 药物分子设计:分子生成与优化。

发展趋势

  • 大模型与 RL 结合:RLHF、DPO 等人类偏好对齐方法。
  • 具身智能:机器人在真实环境中学习。
  • 多智能体 RL:协作与竞争场景。
  • 离线 RL:从已有数据学习,不与环境交互。
  • 安全 RL:约束满足、风险规避。

推荐资源

  • 书籍:Sutton & Barto《Reinforcement Learning: An Introduction》(免费在线版)
  • 课程:David Silver's RL Course(UCL)、UC Berkeley CS285
  • 实践:Gymnasium