Skip to content
"AI is likely to be either the best or worst thing to happen to humanity."— Stephen Hawking

扩散模型 (Diffusion Model)

概述

扩散模型是一类基于概率的生成模型,通过前向过程逐步向数据添加噪声,再通过反向过程学习逐步去噪,实现从随机噪声生成高质量数据。自 2020 年前后兴起以来,已成为图像、视频、3D 等内容生成的主流技术,在质量和可控性上超越 GAN 等早期方案。Stable Diffusion、DALL·E、Sora 等均基于扩散模型。

核心原理

前向扩散:从原始数据 x0 出发,按预定调度逐步添加高斯噪声,经 T 步后变为近似纯噪声。该过程固定、无需学习,数学形式为 q(xt|xt1)=N(xt;1βtxt1,βtI)

反向去噪:训练神经网络 ϵθ 预测每步添加的噪声。若预测准确,则可用「当前状态减去预测噪声」得到更清晰样本,从 xT 迭代至 x0。损失函数为 L=E[ϵϵθ(xt,t)2]

关键技术

DDPM:奠定扩散模型理论基础,采样步数多、速度慢。DDIM 采用确定性采样,可用少量步数(如 20 步)完成生成,大幅加速。

Latent Diffusion:在 VAE 编码的低维潜空间而非像素空间进行扩散,计算量显著降低。Stable Diffusion 即基于此。

Classifier-Free Guidance:无需额外分类器即可实现文本条件控制,通过调节引导强度控制生成与提示词的一致性。

代表性工作

模型类型应用
Stable Diffusion文生图高质量图像,开源可本地部署
DALL·E 3文生图文本理解强,与 ChatGPT 集成
Midjourney文生图艺术风格突出
Sora文生视频长视频,时空一致性
Runway Gen-3文生视频商业级视频生成
Point-E / Shap-E文生 3D3D 点云/网格生成

应用场景

  • 艺术创作:扩散模型使普通人也能用文字生成专业级图像。
  • 游戏素材:快速生成游戏场景与角色素材。
  • 影视概念设计:概念图与分镜设计。
  • 电商产品图:商品展示图生成与优化。
  • 医学图像增强:医学影像的增强与重建。
  • 个人娱乐:头像、壁纸等个性化图像生成。

发展趋势

  • 视频生成:长时序、时空一致性的视频生成。
  • 3D 生成:游戏、VR/AR 等场景的 3D 内容生成。
  • 加速采样:一致性模型、蒸馏实现少步生成。
  • 可控生成:ControlNet、IP-Adapter 等精细控制方法。
  • 多模态扩展:音频、代码等多模态生成。

推荐资源