视频理解 (Video Understanding)

概述

视频理解是计算机视觉的核心任务之一，研究如何让 AI 系统理解视频中的时空信息。与图像理解相比，视频理解需要额外处理时间维度的建模：动作的时序演化、事件的因果关系、长程依赖等。视频理解涵盖动作识别、事件检测、视频描述、时序推理等任务，是智能监控、内容审核、人机交互等应用的基础。

视频理解的核心在于时空特征提取与时序建模。空间维度捕捉单帧内的物体、场景、纹理；时间维度捕捉帧间的运动、变化与因果。早期工作将视频视为帧序列，分别提取空间特征后聚合；现代方法则采用 3D 卷积、双流网络或 Transformer 直接在时空维度上联合建模。

另一关键原理是多尺度时序建模。短视频（数秒）与长视频（数分钟至数小时）需要不同的建模策略：短视频可对整个序列建模，长视频需采样、分段或层次化处理，以平衡计算成本与信息保留。

时空特征提取：3D 卷积（C3D）直接在时空维度上卷积；双流网络分别处理 RGB 帧与光流，融合外观与运动信息；SlowFast 采用双速率设计，慢路径捕捉空间语义，快路径捕捉运动；TimeSformer、ViViT 将 Transformer 扩展到视频，通过时空注意力建模长程依赖。

时序建模：时序注意力实现跨帧信息聚合；时序卷积网络（TCN）用一维因果卷积处理序列；状态空间模型（SSM）如 Mamba 以线性复杂度建模长序列。

视频-语言模型：VideoBERT 等早期工作将视频与文本联合预训练；Video-LLaVA、InternVideo 等将大语言模型与视频编码器结合，支持视频问答、描述、检索等任务。