快速事实
- 1提出: Wei et al. (2022)、Google Brain — NeurIPS 2022基础论文
- 2关键结果: Zero-shot CoT将PaLM 540B在MultiArith上的精度从17.7% → 78.7%
- 3触发短语: 「让我们逐步思考」(Zero-shot)或工作示例(Few-shot)
- 42026年进化: 内置推理模式(o3、Claude Extended Thinking)自动化内部CoT
- 5成本影响: 提示词级CoT = 更多输出token; 推理模式 = 独立思维token预算
- 6提示词级CoT最优: 非推理模型(Claude Haiku 4.5、Gemini Flash、GPT-4o mini、LLaMA 4 Scout)
什么是链式思维提示词
链式思维提示词要求模型在给出最终结论前逐步推理。 模型不是直接返回"答案",而是写出中间计算、逻辑步骤或解释。
你可以通过"逐步思考"、"展示你的推理"这样的指令,或提供显式推理的具体例子来触发这种行为。结果是一个可读的推理过程,让你理解模型是如何得出结论的。
为什么链式思维提示词很重要
链式思维提示词很重要,因为它在涉及多步推理的任务上提高了模型行为的透明度。 看到每个步骤,你能发现误解、缺失的假设或算术错误。
这在分析、规划和故障排查等领域特别有价值。你获得的不是单一的不透明输出,而是可以检查、纠正或重复使用为文档的推理过程。
🔍 适用于本地模型
链式思维在任何具有 7B+ 参数的模型上都能工作。用 Ollama 或 LM Studio 在本地测试它。
链式思维何时有效
链式思维提示词在能自然分解为清晰步骤的任务上最有效,但并非所有提示词都需要它。 当过程本身和结果一样重要时,它表现最佳。
Chain-of-Thought 推理是工具调用型代理在多步骤任务中保持可靠性的关键。要搭建一套让具备 CoT 能力的模型可以查询数据库、编辑文件的本地代理,请参阅使用 MCP 的本地 AI 代理。
适用场景包括:
- 数学和定量推理问题。
- 多步逻辑谜题或决策分析。
- 根本原因分析、事故事后分析和权衡讨论。
- 操作顺序必须明确的计划任务。
链式思维何时不必要
对于简单分类、快速文案或简短事实性答案,链式思维往往只增加冗余而不增加价值。在敏感领域,你可能希望保持推理内部,仅向最终用户展示最终答案。
案例: 有无链式思维的对比
对比直接答案提示词和明确要求推理的提示词时,差异变得清晰。 以下是一个简单的决策例子。
差的提示词
"我们应该在下个季度优先考虑哪个项目?"
好的提示词
"你是产品运营经理。我们有三个下个季度的候选项目。使用链式思维推理来决定优先考虑哪个项目。1) 列出你将使用的决策标准(例如收入影响、风险、战略一致性)。2) 按步骤根据这些标准评估每个项目。3) 做出明确的建议并用3-5个句子说明理由。最后,在单独一行提供一个以"建议:"开头的简短最终答案。"
在"好的"版本中,模型解释了它如何选择标准、每个项目如何评分,然后陈述你可以质疑或接受的建议。
如何编写有效的链式思维提示词
要编写有效的链式思维提示词,你需要定义推理的结构和最终答案的结构。 模糊的要求如"多解释一些"远不如具体指令有效。
一个实用的模式是:
- 告诉模型它的角色(例如"你是高级数据分析师")。
- 指定它应该逐步思考或使用链式思维。
- 定义你期望的推理部分(例如假设、计算、比较、结论)。
- 要求在最后有一个简短的、清楚标记的最终答案,以便你能快速使用它。
实用建议
这将详细的推理与简洁的输出分离,当你将结果集成到其他工具或报告中时很有帮助。
PromptQuorum中的链式思维提示词
PromptQuorum是一个多模型AI调度工具,你可以在不同模型上一致地应用链式思维提示词。 你写一个结构化的链式思维提示词并将其并行发送到多个提供商。
在PromptQuorum中,你可以:
- 结合链式思维指令与TRACE、APE等推理聚焦框架,使思维步骤明确标记。
- 比较不同模型如何处理相同推理任务,并肩并肩检查其逐步推理过程。
- 将链式思维提示词保存为模板,用于重复分析、事故回顾或战略决策。
持续应用
这将链式思维提示词从一次性技巧转变为你决策过程中可重复的部分。
开始使用链式思维(CoT)提示词
- 1对于逻辑、推理或调试任务,要求模型在回答前"逐步思考"。 与其问"bug是什么?",不如问"逐步追踪执行,然后识别bug"。
- 2提供一个显示逐步推理的具体例子。 不仅要描述它——向模型展示逐步推理是什么样子。例如:"首先,我检查函数签名...然后,我用输入X追踪第一个调用..."
- 3使用明确的提示词如"让我们逐步思考"或"首先...然后..." 这些会在模型中触发更深思熟虑的推理。
- 4对于复杂问题,要求模型追踪中间输出。 例如:"用输入5追踪此函数的执行。在每行后显示每个变量的值。"
- 5将CoT与可验证的输出结合:要求模型展示其工作以便你能审计它。 "在每个步骤解释你的推理。如果你犯了错误,我应该能从你展示的工作中发现它。"
数学示例: 收益计算
无CoT时,模型可能给出单一最终答案。有CoT时,模型逐步展示计算。
无CoT:
「一个客户以每单位15美元的价格购买50个单位,但获得10%折扣。客户支付多少?」
模型: 「675美元」
有CoT:
「一个客户以每单位15美元的价格购买50个单位,但获得10%折扣。逐步进行: 1)计算小计。 2)计算折扣金额。 3)从小计中减去折扣得到最终价格。」
模型: 「1)小计 = 50 × 15美元 = 750美元。 2)折扣 = 750美元的10% = 75美元。 3)最终价格 = 750美元 − 75美元 = 675美元。」
两者给出相同答案,但CoT版本展示了数学,你可以发现错误(例如,如果有人计算错了750美元的10%)。
CoT对内置推理模型 (2026)
2026年,前沿模型 – Claude Opus 4.7、OpenAI o3、Gemini Deep Think – 具有内置推理模式,可自动内部化链式思维。 你不需要在这些模型上添加「逐步思考」指令。
何时使用提示词级CoT: 非推理模型(Claude Haiku 4.5、GPT-4o mini、Gemini Flash、Llama 4)、本地LLM,或想避免推理token预算额外成本时。
何时使用内置推理模式: 前沿模型最大精度、数学密集任务、复杂分析。这些模型分别计费思维token(通常比输出token费率更高)。
| 方法 | 最适用于 | 成本 | 透明度 | 模型 |
|---|---|---|---|---|
| 提示词级CoT(「逐步思考」) | 小型模型、本地LLM、成本敏感任务 | 增加输出token | 完全: 输出中可见步骤 | Haiku、Flash、LLaMA、Qwen |
| Claude Extended Thinking (Opus 4.7、Sonnet 4.6) | 复杂分析、最高精度 | 独立思维token预算(输入费率) | 通过API可检查的trace | Claude Opus 4.7、Claude Sonnet 4.6 |
| OpenAI o3 | 最难问题(数学、编码、竞赛) | 思维token预算(更高层级) | 隐藏推理、可见输出 | OpenAI o3 |
| Gemini Deep Think | Google Cloud集成、Gemini生态 | 思维token与输出分开 | thinking_level参数(LOW、MEDIUM、HIGH) | Gemini 3.1 Pro |
| DeepSeek R1 | 开源权重选项、设备上推理 | 输出文本中流式传输的可见推理 | 完全: 输出中的内联CoT | DeepSeek R1 |
💡 提示
为降低成本,在较小的模型上使用提示词级CoT。为了在难题上获得最高精度,使用o3或Claude Extended Thinking并让模型内部处理推理。
链式思维变体和扩展
除了基本的「逐步思考」模式,研究人员开发了几种CoT变体,每种都针对不同的问题类型优化。
- Zero-shot CoT: 询问「让我们逐步思考」无示例。在大多数模型上工作,最简单实现。提升: 推理任务上约10-20%精度改善。
- Few-shot CoT: 显示2-5个带显式推理的工作示例,然后要求模型对新问题应用相同模式。比Zero-shot更可靠但需要手动示例创建。提升: 约20-40%精度。
- Self-Consistency (Wang et al., 2023): 生成多个独立CoT推理路径,然后对最终答案进行多数投票。对错误明显更鲁棒。提升: 难任务上约30-50%。
- 树思维(ToT): 代替线性链,探索多个推理分支并修剪较差的。当有许多可能的解决方案路径时使用(规划、游戏、创意任务)。
- ReAct (推理+行为): 将推理与外部操作交错——调用API、搜索数据库、执行代码——并将结果并入下一个推理步骤。最适合需要实时数据或验证的现实任务。
模型对比: 2026年模型如何处理CoT提示词
| 模型 | 提示词级CoT | 内置推理 | 最佳用途 | 成本(约) |
|---|---|---|---|---|
| Claude Opus 4.7 | 不需要 | Extended Thinking(通过API可检查trace) | 最高精度分析 | 更高(输入+输出+思维token) |
| Claude Sonnet 4.6 | 不需要 | Extended Thinking | 平衡成本/精度 | 中等 |
| Claude Haiku 4.5 | 推荐 | 无 | 快速、经济推理 | 低 |
| OpenAI o3 | 不需要 | 努力级别(低、中、高、超高) | 竞赛级问题 | 非常高(思维token层级) |
| GPT-4o mini | 推荐 | 无 | 预算意识部署 | 非常低 |
| Gemini 3.1 Pro | 有效 | Deep Think(thinking_level参数) | Google Cloud集成 | 中-高 |
| Gemini Flash | 推荐 | 无 | 快速响应 | 低 |
| DeepSeek R1 | 不需要 | 输出内的内联推理 | 开源、设备上 | 免费(开源) |
| Llama 4 | 推荐 | 无 | 本地部署、隐私 | 自托管(计算依赖) |
常见问题
链式思维在所有模型上都有效吗?
链式思维在大多数7B+参数模型上工作,但效益各不相同。在中型和小型模型(Haiku、Flash、Llama 4)上最有效。在前沿模型(Claude Opus 4.7、o3)上,内置推理模式通常比提示词级CoT更有效。
链式思维会增加成本吗?
是的。提示词级CoT增加输出token数量(因为模型在最终答案前写出推理)。内置推理模式(Claude Extended Thinking、OpenAI o3)使用单独的思维token预算,可能有不同的计费费率。测试两种方式对你的使用情况进行成本对精度的权衡。
何时使用Few-shot CoT而不是Zero-shot?
首先使用Zero-shot CoT——它更简单,在大多数情况下有效。如果Zero-shot不可靠,或你的领域需要特定推理模式(例如财务分析具有标准化行项目结构),则转为Few-shot(2-5个示例)。
我可以将链式思维与结构化输出(JSON)结合吗?
是的。你可以要求模型首先以纯文本显示推理,然后以JSON对象输出最终答案。组合指令: 「逐步思考。然后以有效JSON输出你的结果。」这在生产系统中很常见。
链式思维与树思维有什么区别?
链式思维是线性序列: 步骤1 → 步骤2 → ... → 结论。树思维探索多个分支(替代推理路径)并在得出答案前修剪较弱的。树思维更强大但更贵(需要多个模型调用)。
OpenAI o3需要链式思维提示词吗?
不需要。OpenAI o3具有自动激活的内置推理。你不需要添加「逐步思考」指令。只需给o3问题并设置努力级别(低/中/高/超高)以控制要花费多少思维预算。
我可以审计内置推理模型的推理吗?
可以,但取决于模型。Claude Extended Thinking推理trace通过API可检查。OpenAI o3推理默认隐藏(竞争优势)。Gemini Deep Think推理也隐藏。要获得完全可审计性,使用提示词级CoT或DeepSeek R1。
链式思维提示词适合实时应用吗?
提示词级CoT增加延迟(更多输出token = 更慢生成)。对于实时用途,使用最少推理的小型模型,或使用流端点在token到达时显示。内置推理模式可能增加更多延迟;基准你的具体使用情况。
来源和进一步阅读
- Wei, J., Wang, X., Schuurmans, D., et al. (2022). 「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」 NeurIPS 2022。arXiv:2201.11903
- Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). 「Large Language Models are Zero-Shot Reasoners」 NeurIPS 2022。arXiv:2205.11916
- Wang, X., Wei, J., Schuurmans, D., et al. (2023). 「Self-Consistency Improves Chain of Thought Reasoning in Language Models」 ICLR 2023。arXiv:2203.11171
- Anthropic. (2024). 「Extended Thinking in Claude」 关于Claude Opus 4.7和Sonnet 4.6推理能力的技术文档。
- OpenAI. (2026). 「OpenAI o3: Reasoning Models for Competition-Level Problem Solving」 OpenAI文档和研究公告。