扩散模型 (Diffusion Model)
概述
扩散模型是一类基于概率的生成模型,通过前向过程逐步向数据添加噪声,再通过反向过程学习逐步去噪,实现从随机噪声生成高质量数据。自 2020 年前后兴起以来,已成为图像、视频、3D 等内容生成的主流技术,在质量和可控性上超越 GAN 等早期方案。Stable Diffusion、DALL·E、Sora 等均基于扩散模型。
核心原理
前向扩散:从原始数据
反向去噪:训练神经网络
关键技术
DDPM:奠定扩散模型理论基础,采样步数多、速度慢。DDIM 采用确定性采样,可用少量步数(如 20 步)完成生成,大幅加速。
Latent Diffusion:在 VAE 编码的低维潜空间而非像素空间进行扩散,计算量显著降低。Stable Diffusion 即基于此。
Classifier-Free Guidance:无需额外分类器即可实现文本条件控制,通过调节引导强度控制生成与提示词的一致性。
代表性工作
| 模型 | 类型 | 应用 |
|---|---|---|
| Stable Diffusion | 文生图 | 高质量图像,开源可本地部署 |
| DALL·E 3 | 文生图 | 文本理解强,与 ChatGPT 集成 |
| Midjourney | 文生图 | 艺术风格突出 |
| Sora | 文生视频 | 长视频,时空一致性 |
| Runway Gen-3 | 文生视频 | 商业级视频生成 |
| Point-E / Shap-E | 文生 3D | 3D 点云/网格生成 |
应用场景
- 艺术创作:扩散模型使普通人也能用文字生成专业级图像。
- 游戏素材:快速生成游戏场景与角色素材。
- 影视概念设计:概念图与分镜设计。
- 电商产品图:商品展示图生成与优化。
- 医学图像增强:医学影像的增强与重建。
- 个人娱乐:头像、壁纸等个性化图像生成。
发展趋势
- 视频生成:长时序、时空一致性的视频生成。
- 3D 生成:游戏、VR/AR 等场景的 3D 内容生成。
- 加速采样:一致性模型、蒸馏实现少步生成。
- 可控生成:ControlNet、IP-Adapter 等精细控制方法。
- 多模态扩展:音频、代码等多模态生成。