扩散模型 (Diffusion Model)

概述

扩散模型是一类基于概率的生成模型，通过前向过程逐步向数据添加噪声，再通过反向过程学习逐步去噪，实现从随机噪声生成高质量数据。自 2020 年前后兴起以来，已成为图像、视频、3D 等内容生成的主流技术，在质量和可控性上超越 GAN 等早期方案。Stable Diffusion、DALL·E、Sora 等均基于扩散模型。

核心原理

前向扩散：从原始数据 $x_{0}$ 出发，按预定调度逐步添加高斯噪声，经 $T$ 步后变为近似纯噪声。该过程固定、无需学习，数学形式为 $q (x_{t} | x_{t - 1}) = N (x_{t}; \sqrt{1 - β_{t}} x_{t - 1}, β_{t} I)$ 。

反向去噪：训练神经网络 $ϵ_{θ}$ 预测每步添加的噪声。若预测准确，则可用「当前状态减去预测噪声」得到更清晰样本，从 $x_{T}$ 迭代至 $x_{0}$ 。损失函数为 $L = E [∥ ϵ - ϵ_{θ} (x_{t}, t) ∥^{2}]$ 。

关键技术

DDPM：奠定扩散模型理论基础，采样步数多、速度慢。DDIM 采用确定性采样，可用少量步数（如 20 步）完成生成，大幅加速。

Latent Diffusion：在 VAE 编码的低维潜空间而非像素空间进行扩散，计算量显著降低。Stable Diffusion 即基于此。

Classifier-Free Guidance：无需额外分类器即可实现文本条件控制，通过调节引导强度控制生成与提示词的一致性。

代表性工作

模型	类型	应用
Stable Diffusion	文生图	高质量图像，开源可本地部署
DALL·E 3	文生图	文本理解强，与 ChatGPT 集成
Midjourney	文生图	艺术风格突出
Sora	文生视频	长视频，时空一致性
Runway Gen-3	文生视频	商业级视频生成
Point-E / Shap-E	文生 3D	3D 点云/网格生成

应用场景

艺术创作：扩散模型使普通人也能用文字生成专业级图像。
游戏素材：快速生成游戏场景与角色素材。
影视概念设计：概念图与分镜设计。
电商产品图：商品展示图生成与优化。
医学图像增强：医学影像的增强与重建。
个人娱乐：头像、壁纸等个性化图像生成。

发展趋势

视频生成：长时序、时空一致性的视频生成。
3D 生成：游戏、VR/AR 等场景的 3D 内容生成。
加速采样：一致性模型、蒸馏实现少步生成。
可控生成：ControlNet、IP-Adapter 等精细控制方法。
多模态扩展：音频、代码等多模态生成。

通识必修

专业核心

专业选修

保研基本常识

夏令营

预推免

竞赛汇总

扩散模型 (Diffusion Model)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源

扩散模型 (Diffusion Model) ​

概述 ​

核心原理 ​

关键技术 ​

代表性工作 ​

应用场景 ​

发展趋势 ​

推荐资源 ​

扩散模型 (Diffusion Model)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源