生成对抗网络 (GAN)
概述
生成对抗网络(GAN,Generative Adversarial Network)由生成器(Generator)和判别器(Discriminator)两个网络组成,通过对抗训练共同进步。生成器从随机噪声映射到数据空间,试图生成以假乱真的样本;判别器判断输入是真实数据还是生成数据。二者在 min-max 博弈中优化,最终使生成器能够生成高质量、多样化的数据。GAN 由 Ian Goodfellow 于 2014 年提出,开创了对抗训练范式,在图像生成、风格迁移、超分辨率等领域有广泛应用。虽然扩散模型在部分任务上后来居上,GAN 仍因训练快、推理快、可控性强而在实时应用中占有一席之地。
核心原理
生成器 G:输入随机噪声
判别器 D:输入数据,输出 0~1 的分数表示「真」的概率。目标是正确区分真实数据与
对抗损失:
关键技术
DCGAN:将全连接层换为卷积层,引入 BatchNorm,大幅稳定 GAN 训练,成为后续工作基础。
WGAN:用 Wasserstein 距离替代 JS 散度,缓解模式崩塌、训练更稳定。
StyleGAN:通过「风格」控制生成,可精细调节人脸表情、年龄、光照等,生成高分辨率人脸。
Pix2Pix / CycleGAN:图像到图像翻译。Pix2Pix 需成对数据;CycleGAN 只需两域数据,无需一一对应。
训练挑战:模式崩塌(生成器只产出少数模式)、训练不稳定(G/D 平衡难维持)、评估困难(FID、IS 等指标各有局限)。
代表性工作
| 模型 | 特点 |
|---|---|
| DCGAN | 卷积架构,训练稳定 |
| WGAN | Wasserstein 距离,缓解模式崩塌 |
| StyleGAN | 风格控制,高质量人脸 |
| Pix2Pix / CycleGAN | 图像翻译 |
| BigGAN | 大规模,高保真高多样性 |
应用场景
- 图像生成与编辑:GAN 在需要快速推理、精细控制的场景中仍有优势。
- 风格迁移:图像风格转换与艺术化。
- 超分辨率:SRGAN、Real-ESRGAN 等。
- 数据增强:生成合成数据扩充训练集。
- AI 换脸:人脸替换与编辑。
- 虚拟试穿:电商虚拟试衣应用。
发展趋势
- GAN 与 Diffusion 融合:快速采样与高质量结合。
- 3D-aware GAN:EG3D 等多视角渲染。
- 视频生成:时序一致的视频生成。
- 少样本生成:小样本条件下的生成。
- 可控生成与解耦表示:更精细的生成控制。