生成对抗网络 (GAN)

概述

生成对抗网络（GAN，Generative Adversarial Network）由生成器（Generator）和判别器（Discriminator）两个网络组成，通过对抗训练共同进步。生成器从随机噪声映射到数据空间，试图生成以假乱真的样本；判别器判断输入是真实数据还是生成数据。二者在 min-max 博弈中优化，最终使生成器能够生成高质量、多样化的数据。GAN 由 Ian Goodfellow 于 2014 年提出，开创了对抗训练范式，在图像生成、风格迁移、超分辨率等领域有广泛应用。虽然扩散模型在部分任务上后来居上，GAN 仍因训练快、推理快、可控性强而在实时应用中占有一席之地。

核心原理

生成器 G：输入随机噪声 $z$ （通常从正态分布采样），输出「假」数据 $G (z)$ 。目标是让判别器无法区分真假。

判别器 D：输入数据，输出 0~1 的分数表示「真」的概率。目标是正确区分真实数据与 $G (z)$ 。

对抗损失： $min_{G} max_{D} E [\log D (x)] + E [\log (1 - D (G (z)))]$ 。判别器最大化该式（正确分类），生成器最小化（欺骗判别器）。二者交替优化，形成博弈。

关键技术

DCGAN：将全连接层换为卷积层，引入 BatchNorm，大幅稳定 GAN 训练，成为后续工作基础。

WGAN：用 Wasserstein 距离替代 JS 散度，缓解模式崩塌、训练更稳定。

StyleGAN：通过「风格」控制生成，可精细调节人脸表情、年龄、光照等，生成高分辨率人脸。

Pix2Pix / CycleGAN：图像到图像翻译。Pix2Pix 需成对数据；CycleGAN 只需两域数据，无需一一对应。

训练挑战：模式崩塌（生成器只产出少数模式）、训练不稳定（G/D 平衡难维持）、评估困难（FID、IS 等指标各有局限）。

代表性工作

模型	特点
DCGAN	卷积架构，训练稳定
WGAN	Wasserstein 距离，缓解模式崩塌
StyleGAN	风格控制，高质量人脸
Pix2Pix / CycleGAN	图像翻译
BigGAN	大规模，高保真高多样性

应用场景

图像生成与编辑：GAN 在需要快速推理、精细控制的场景中仍有优势。
风格迁移：图像风格转换与艺术化。
超分辨率：SRGAN、Real-ESRGAN 等。
数据增强：生成合成数据扩充训练集。
AI 换脸：人脸替换与编辑。
虚拟试穿：电商虚拟试衣应用。

发展趋势

GAN 与 Diffusion 融合：快速采样与高质量结合。
3D-aware GAN：EG3D 等多视角渲染。
视频生成：时序一致的视频生成。
少样本生成：小样本条件下的生成。
可控生成与解耦表示：更精细的生成控制。

通识必修

专业核心

专业选修

保研基本常识

夏令营

预推免

竞赛汇总

生成对抗网络 (GAN)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源

生成对抗网络 (GAN) ​

概述 ​

核心原理 ​

关键技术 ​

代表性工作 ​

应用场景 ​

发展趋势 ​

推荐资源 ​

生成对抗网络 (GAN)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源