大模型推理 (LLM Reasoning)

概述

大模型推理研究如何让大语言模型具备逻辑推理、数学证明、规划决策等高级认知能力。LLM 在简单问答和文本生成上已很强，但在数学、逻辑、多步推理等任务上仍易出错。通过链式思维、搜索算法、自我反思和工具增强等技术，可显著提升模型在复杂任务上的表现。这是当前 LLM 研究最活跃的方向之一，直接关系到模型能否从模式匹配进化为真正的推理能力。DeepSeek-R1、GPT-4、Claude 等在推理上的突破均依赖这些技术。

核心原理

显式推理：引导模型将推理过程逐步写出，而非直接给出答案。中间步骤有助于理清思路、减少错误，并便于检查和纠错。

搜索与规划：当存在多条推理路径时，通过树状或图状搜索系统探索，而非随机采样单一路径，提高找到正确解的概率。

工具增强：将计算、检索等子任务交给外部工具（代码解释器、知识库），弥补模型在精确计算和时效知识上的不足。

关键技术

Chain-of-Thought（CoT）：在提示词中引导模型先写推理步骤再写答案。Zero-shot CoT 仅加「Let's think step by step」即可激发推理能力。Self-Consistency 对同一问题多次采样，取多数投票作为最终答案。

Tree-of-Thought（ToT）：将推理建模为树，每节点为中间状态，可扩展多个子节点，通过 BFS/DFS 等搜索探索多条路径。Graph-of-Thought（GoT）用图结构建模更复杂的推理拓扑。

自我反思：Reflexion 从错误中生成「反思」并在后续避免；Self-Refine 迭代自我修正；Critic Model 专门评估推理质量。

工具增强：代码执行（避免心算出错）、RAG（检索增强弥补知识盲区）、多模态推理（结合图像、图表）。

代表性工作与基准

基准	评估内容
GSM8K	小学数学应用题
MATH	高等数学竞赛题
HumanEval	代码生成与正确性
ARC	抽象推理
GPQA	专家级多跳推理

应用场景

教育辅导：解题讲解、步骤拆解。
科研助手：文献综述、假设推演。
代码开发：需求分析、Bug 定位。
商业决策：数据分析、策略推演。
法律与医疗案例分析：需人工审核的复杂案例分析。

发展趋势

推理专用模型：如 DeepSeek-R1，支持「思考过程」与「最终答案」分离。
Agent 与规划：自主多步任务、工具调用。
形式化验证：自然语言与形式证明结合。
多智能体推理：协作、辩论、纠错。
长对话与长文档：持续推理能力。

通识必修

专业核心

专业选修

保研基本常识

夏令营

预推免

竞赛汇总

大模型推理 (LLM Reasoning)

概述

核心原理

关键技术

代表性工作与基准

应用场景

发展趋势

推荐资源

大模型推理 (LLM Reasoning) ​

概述 ​

核心原理 ​

关键技术 ​

代表性工作与基准 ​

应用场景 ​

发展趋势 ​

推荐资源 ​

大模型推理 (LLM Reasoning)

概述

核心原理

关键技术

代表性工作与基准

应用场景

发展趋势

推荐资源