大语言模型 (Large Language Model)

概述

大语言模型（LLM，Large Language Model）是基于 Transformer 架构的大规模神经网络，在海量文本上预训练后具备强大的文本生成、理解和推理能力。GPT、Claude、通义千问等主流 AI 助手均属此类。LLM 通过建模语言的统计规律和语义关系，实现自然语言交互，是当前 AI 领域最活跃的研究方向之一。

核心原理

LLM 的核心是自回归语言建模：给定前文，预测下一个 token 的概率分布。Token 是文本的切分单元，可为词或子词。模型在训练时学习「下一个词是什么」的条件概率，推理时按此分布逐 token 生成输出。

Transformer 是 LLM 的架构基础。Self-Attention 机制使每个 token 能关注序列中任意位置，从而建立长距离依赖；多头注意力从不同子空间捕捉多种语义关系；位置编码注入序列顺序信息。这种设计使模型能高效处理长文本并捕捉全局语义。

关键技术

Self-Attention：计算 query、key、value 三个向量，通过注意力权重聚合上下文信息。每个 token 的输出由其对所有 token 的加权和决定，权重由相似度计算。

训练范式：预训练阶段通过 Next Token Prediction 在大规模语料上学习语言知识；指令微调（Instruction Tuning）使用指令-回答对让模型学会遵循人类指令；RLHF 通过人类偏好反馈优化输出，使模型更符合人类价值观。

推理优化：KV Cache 缓存已计算的 Key/Value，避免重复计算；采样策略（Top-k、Top-p、Temperature）控制生成的随机性与多样性。

代表性工作

模型	机构	参数量	特点
GPT-4	OpenAI	未公开	多模态，强推理，闭源
LLaMA 3	Meta	8B-405B	开源，高效，社区生态丰富
Claude	Anthropic	未公开	安全对齐，长上下文
Qwen	阿里	0.5B-72B	中文优秀，开源可商用
DeepSeek	DeepSeek	7B-236B	MoE 架构，高性价比

应用场景

智能客服与知识问答：企业级应用常结合 RAG（检索增强）接入私有知识库。
代码生成：如 Copilot 等编程辅助工具。
翻译与文本润色：多语言翻译与文本风格优化。
创意写作：辅助内容创作与文案生成。
教育辅导：个性化学习辅导与答疑。

发展趋势

长上下文建模：支持 100K+ token 的长文本处理。
MoE 稀疏激活：降低计算成本，提升效率。
多模态融合：视觉、音频等多模态输入输出。
高效推理：投机解码、量化等技术加速推理。
Agent 化：自主规划与工具调用能力。

通识必修

专业核心

专业选修

保研基本常识

夏令营

预推免

竞赛汇总

大语言模型 (Large Language Model)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源

大语言模型 (Large Language Model) ​

概述 ​

核心原理 ​

关键技术 ​

代表性工作 ​

应用场景 ​

发展趋势 ​

推荐资源 ​

大语言模型 (Large Language Model)

概述

核心原理

关键技术

代表性工作

应用场景

发展趋势

推荐资源