大语言模型 (Large Language Model)
概述
大语言模型(LLM,Large Language Model)是基于 Transformer 架构的大规模神经网络,在海量文本上预训练后具备强大的文本生成、理解和推理能力。GPT、Claude、通义千问等主流 AI 助手均属此类。LLM 通过建模语言的统计规律和语义关系,实现自然语言交互,是当前 AI 领域最活跃的研究方向之一。
核心原理
LLM 的核心是自回归语言建模:给定前文,预测下一个 token 的概率分布。Token 是文本的切分单元,可为词或子词。模型在训练时学习「下一个词是什么」的条件概率,推理时按此分布逐 token 生成输出。
Transformer 是 LLM 的架构基础。Self-Attention 机制使每个 token 能关注序列中任意位置,从而建立长距离依赖;多头注意力从不同子空间捕捉多种语义关系;位置编码注入序列顺序信息。这种设计使模型能高效处理长文本并捕捉全局语义。
关键技术
Self-Attention:计算 query、key、value 三个向量,通过注意力权重聚合上下文信息。每个 token 的输出由其对所有 token 的加权和决定,权重由相似度计算。
训练范式:预训练阶段通过 Next Token Prediction 在大规模语料上学习语言知识;指令微调(Instruction Tuning)使用指令-回答对让模型学会遵循人类指令;RLHF 通过人类偏好反馈优化输出,使模型更符合人类价值观。
推理优化:KV Cache 缓存已计算的 Key/Value,避免重复计算;采样策略(Top-k、Top-p、Temperature)控制生成的随机性与多样性。
代表性工作
| 模型 | 机构 | 参数量 | 特点 |
|---|---|---|---|
| GPT-4 | OpenAI | 未公开 | 多模态,强推理,闭源 |
| LLaMA 3 | Meta | 8B-405B | 开源,高效,社区生态丰富 |
| Claude | Anthropic | 未公开 | 安全对齐,长上下文 |
| Qwen | 阿里 | 0.5B-72B | 中文优秀,开源可商用 |
| DeepSeek | DeepSeek | 7B-236B | MoE 架构,高性价比 |
应用场景
- 智能客服与知识问答:企业级应用常结合 RAG(检索增强)接入私有知识库。
- 代码生成:如 Copilot 等编程辅助工具。
- 翻译与文本润色:多语言翻译与文本风格优化。
- 创意写作:辅助内容创作与文案生成。
- 教育辅导:个性化学习辅导与答疑。
发展趋势
- 长上下文建模:支持 100K+ token 的长文本处理。
- MoE 稀疏激活:降低计算成本,提升效率。
- 多模态融合:视觉、音频等多模态输入输出。
- 高效推理:投机解码、量化等技术加速推理。
- Agent 化:自主规划与工具调用能力。
推荐资源
- 论文:Attention Is All You Need
- 论文:GPT-4 Technical Report
- 课程:Stanford CS324 - Large Language Models
- 实践:Hugging Face Transformers