PromptQuorumPromptQuorum
主页/提示词工程/树思考与 ReAct: 复杂问题的高级推理技术
技巧

树思考与 ReAct: 复杂问题的高级推理技术

·阅读约13分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

树思考(Tree-of-Thought)和 ReAct 提示是两种高级推理技术:树思考探索多条可能的解决路径,就像决策树一样,而 ReAct 将推理与显式"行动"(如搜索或信息检索)交织在一起。

树思考(ToT)指示模型在提交前探索多个解决分支——适用于规划和战略。ReAct(推理+行动)在推理与工具调用和观察之间交替——是所有现代 AI 代理的基础。在 2026 年,ReAct 通过原生工具使用内置于前沿模型;ToT 仍然是结构化探索的提示级技术。

关键要点

  • 树思考探索多个推理分支、评估、选择最优——像模型响应内的决策树
  • ReAct 在工具行动(搜索、查找、代码执行)与推理之间交替,观察结果——所有现代 AI 代理的基础
  • 树思考用于探索备选方案(战略、计划、创意)。ReAct 用于信息交互(研究、调试、数据分析)
  • 2026 年,ReAct 通过原生工具使用内置于前沿模型——GPT-4o、Claude、Gemini 上无需手动 Thought:/Action:/Observation: 格式化
  • 树思考使用比线性 CoT 多 2-5 倍的 token。在高风险决策上选择性使用
  • 两者可组合:战略探索用 ToT,选定分支内的数据驱动执行用 ReAct
  • 使用 PromptQuorum 在模型间并行测试两种模式

⚡ Quick Facts

  • ·ToT 论文: Yao et al. (2023), NeurIPS — Princeton/Google DeepMind. arXiv:2305.10601
  • ·ReAct 论文: Yao et al. (2023), ICLR — Princeton/Google. arXiv:2210.03629
  • ·Token 成本: ToT 使用比线性 CoT 多 2–5 倍的 token;ReAct 成本取决于工具调用次数
  • ·2026 年状态: ReAct 现已内置于前沿模型(GPT-4o、Claude Sonnet 4.6+、Gemini 3.1 Pro),通过原生工具使用
  • ·ToT 最佳模型: Claude Opus 4.7(扩展思维)、GPT-4o(推理模式)、Gemini 3.1 Pro(深度思维)
  • ·组合模式: 战略探索用 ToT;选定分支内的数据驱动执行用 ReAct
  • ·ToT 何时划算: 需要 5+ 推理步骤的问题、分支决策,或错误路径会浪费大量 token。简单线性任务不必要
  • ·ReAct 循环: 每次迭代 = 思考(推理)+ 行动(工具/API 调用)+ 观察(结果反馈)。循环直到达成目标或达到最大迭代次数

树思考是什么?

📍 In One Sentence

树思考告诉模型:"探索 3 种方法,评估,选择最佳"。

💬 In Plain Terms

就像要求某人考虑 3 条不同的路线,权衡每条的利弊,然后选择最好的,而不是只跟随第一条想到的路线。

树思考指示模型探索多条推理路径,评估每条,然后在给出最终答案前选择最佳路径。与线性 Chain-of-Thought 不同,树思考明确创建并比较替代方案。

🔍 专业提示

始终指定分支数量("生成正好 3 个方法")和评估标准("按可行性、成本和上市时间比较")。没有明确标准,模型倾向于选择它生成的第一个分支。

ReAct 是什么?

📍 In One Sentence

ReAct 交替执行:思考→行动→观察→重复。

💬 In Plain Terms

你形成假设,搜索信息来测试它,阅读结果,更新假设——这正是 ReAct 逐步做的。

ReAct(推理+行动)在推理步骤与行动(工具调用、搜索、查找)之间交替,观察结果。这是所有现代 AI 代理(从自主编码到网络研究)的基本模式。

🔍 你知道吗

每次 Claude Code 编辑文件、运行测试并根据输出修复错误时,它都在执行 ReAct 循环。2023 年论文中的 Thought-Action-Observation 模式现在是数百万开发者使用的自主 AI 编码工具的核心。

主要区别

Chain-of-Thought (CoT): 单一线性路径。模型"逐步思考",不探索替代方案。

树思考 (ToT): 有意分支。探索 2-5 个分支、评估、选择最优。Token 消耗要大得多。

ReAct: 有工具交互的线性循环。模型在推理和外部工具调用(搜索、API、代码执行)之间交替。

何时使用 —— CoT 用于简单解释和逻辑。ToT 用于选择重要的战略和计划。ReAct 用于需要外部交互的研究和调试。

对比表:CoT vs ToT vs ReAct

维度Chain-of-Thought (CoT)树思考 (ToT)ReAct
推理形状线性(单路径)分支(多路径→选最优)工具循环线性
核心动作"逐步思考""探索 3 种方法、评估、选择""推理→行动→观察→重复"
外部工具?否(仅内部)是——搜索、API、代码执行
Token 成本~1.5-2 倍~2-5 倍可变(工具调用数)
最适用于数学、逻辑、解释战略、计划、创意探索研究、调试、数据分析
2026 模型支持所有模型推理模型最优(Opus 4.7、o3)内置于所有前沿模型
需要手动格式化?是(非推理)是(明确格式有帮助)否(原生工具使用),开源权重除外

如何编写树思考提示

按以下步骤构建有效的 ToT 提示:

  1. 1
    说明问题并指定分支数量:"为 问题 生成正好 3 个方法"
  2. 2
    选择前定义评估标准:"按 可行性/成本/风险/时间 比较"
  3. 3
    让模型评估每个分支并评分或排名
  4. 4
    添加选择指示:"选择在 标准 上平衡最好的方法"
  5. 5
    用选定分支的完整推理完成任务

如何编写 ReAct 提示

为推理-行动-观察循环使用此模板:

在具有原生工具使用的前沿模型上,这个格式由内部处理。模型决定何时调用工具、接收结果、继续推理——无需手动格式化。

text
推理:首先需要做什么?
行动:[具体工具调用或明确步骤]
观察:[行动的结果]
推理:这告诉我什么?
行动:[下一步]
...
最终答案:[综合结论]

2026 年的 ReAct:从提示模式到内置行为

原始 ReAct 论文(2023)提议手动 Thought/Action/Observation 格式作为提示模式。2026 年,GPT-4o、Claude Opus 4.7/Sonnet 4.6 和 Gemini 3.1 Pro 通过 Function Calling/原生工具自动实现 ReAct 循环。

模型决定何时调用工具、接收结果、继续推理——无需手动格式化。只需定义可用工具;模型管理循环。

手动格式化仍然相关的情况:

1. 开源权重模型:没有原生工具使用(Mistral、旧 LLaMA 变体、Qwen)

2. 教育/调试上下文:希望看到完整追踪

3. 模拟工具交互:没有真实 API 连接

生产 ReAct: 自主 AI 编码工具(Claude Code、OpenAI Codex、Cursor)是大规模 productionized ReAct,其中"行动"= 文件编辑和测试运行。

⚠️ 警告

树思考提示可以生成标准提示 3-5 倍的输出 token。在 $0.025/1M 输出 token(Claude Opus 4.7),生成 5,000 token 的复杂 ToT 每次运行成本约为 $0.125。相应进行预算。

代理系统中的树思考与 ReAct

Claude Code/OpenAI Codex: Productionized ReAct(推理→写代码→运行→观察错误→修复→迭代)

研究代理(Perplexity、Deep Research):制定问题→搜索→阅读→综合→再搜索

Claude 管理的代理(2026): 完全托管 ReAct,安全沙箱和内置工具

代理规划: 某些框架在规划阶段使用 ToT——提议多个方法、评估可行性、通过 ReAct 执行最优

MCP(模型上下文协议): 标准化工具连接,使 ReAct 样式循环即插即用

提示示例

模糊

帮我为 SaaS 产品制定营销策略。

结构化树思考

为我们的 SaaS 产品生成正好 3 种营销策略。按以下比较每种:成本、覆盖范围、实施时间、预期转化率。评估每个,分配分数,选择最优。

无结构

研究 GPU RTX 5090 性能。

明确观察的 ReAct

推理:哪些来源比较 RTX 5090 GPU?行动:执行 2026 GPU 基准 Web 搜索。观察:[基准结果]。推理:关键点是什么?行动:提取延迟和功耗。最终答案:[综合]

非迭代

修复代码。

调试用迭代 ReAct

推理:错误是什么?行动:运行代码,显示输出。观察:[错误:KeyError 第 42 行]。推理:键丢失,需要添加键存在检查。行动:更新代码。观察:[无错误,正常输出]。最终答案:修复的代码,有解释。

Token 成本

ToT:因为模型生成多个分支后再选择,所以基线输出 token 的 2-5 倍。

ReAct:工具调用数可变(每个行动/观察轮次添加 token)。

成本示例(Claude Opus 4.7 上 $0.025/1M 输出 token):生成 5,000 token 的复杂 ToT = 每次运行约 $0.125。

高容量指导:在战略决策上有选择地使用 ToT;日常任务优先使用线性 CoT。

入门方法

  1. 1
    战略/计划 → 使用带明确分支数和评估标准的 ToT
  2. 2
    带工具的研究/调试 → 使用 ReAct(或只在前沿模型上使用原生工具使用)
  3. 3
    组合:计划阶段用 ToT,选定分支内的执行用 ReAct
  4. 4
    在 PromptQuorum 上跨 GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro 并行测试两种模式

在 PromptQuorum 中

跨 GPT-4o、Claude Opus 4.7/Sonnet 4.6、Gemini 3.1 Pro 并行测试 ToT 和 ReAct 模式。测量 token 成本、输出质量和延迟,无需向多个 API 暴露数据。

常见问题

树思考提示是什么?

树思考指示模型探索多条推理路径(如决策树分支),评估每条,然后在给出最终答案前选择最佳路径。与线性 CoT 不同,树思考明确创建并比较多个选项。

ReAct 提示是什么?

ReAct(推理+行动)是一个提示框架,其中模型在推理步骤和行动(工具调用、搜索、查找)之间交替。每次行动后,模型观察结果并更新其推理。这个模式是现代 AI 代理的基础。

树思考与 Chain-of-Thought 有何不同?

Chain-of-Thought 遵循单一线性推理路径。树思考分支为多条路径、评估并选择最优。可以这样想:CoT 是走一条路,ToT 是探索分岔口后再选择要走的路。

2026 年还需要手动格式化 ReAct 吗?

在具有原生工具使用的前沿模型(GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro)上不需要。这些模型自动实现循环。手动 Thought:/Action:/Observation: 格式化对于没有工具使用的开源权重模型或教学目的仍然有用。

我可以结合树思考和 ReAct 吗?

可以。在战略层面使用 ToT 来探索和比较多个方法,然后在选定分支内使用 ReAct 处理需要工具交互或数据查找的步骤。这在复杂的规划任务中很常见。

哪些模型最适合树思考?

具有扩展思维/推理模式的模型最自然地处理 ToT:Claude Opus 4.7(扩展思维)、GPT-4o(推理模式)和 Gemini 3.1 Pro(深度思维)。这些模型可以在内部探索多个分支。

ReAct 的实际应用是什么?

所有现代 AI 代理都是 ReAct 循环:Claude Code(推理代码→编辑→运行测试→观察→迭代)、研究助手(思考问题→Web 搜索→阅读结果→综合)、支持机器人(思考请求→查询知识库→设计响应→验证)。模式从简单查找扩展到数小时的自主会话。

树思考如何影响 Token 成本?

树思考使用明显更多的 token,因为模型生成多个分支后再选择。计划使用标准 CoT 提示输出 token 的 2-5 倍。在 $0.025/1M 输出 token(Claude Opus 4.7),生成 5,000 token 的复杂 ToT 每次运行成本约为 $0.125。为高容量使用进行预算。

中国企业如何确保树思考和 ReAct 的合规性?

根据中国 2021 年《数据安全法》,本地推理满足数据驻留和处理合规要求。树思考和 ReAct 在本地部署模型上支持金融、医疗和法律部门的法规要求,无需将敏感数据发送到外部 API。

我可以在生产环境中使用树思考和 ReAct 吗?

可以。ReAct 是生产 AI 代理(Claude Code、OpenAI Codex)的基本模式。树思考用于复杂的战略决策。为额外的 token 成本进行预算,并在生产案例中测试模型行为。

来源

  • Yao, S., Yu, D., Zhao, J., et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arXiv:2305.10601
  • Yao, S., Zhao, J., Yu, D., et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. arXiv:2210.03629
  • Wei, J., Wang, X., Schuurmans, D., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
  • Shinn, N., Cassirer, A., Goyal, A., et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv:2303.11366
  • Anthropic. (2026). "Tool Use — Claude API Documentation." Retrieved from https://docs.anthropic.com
  • OpenAI. (2026). "Function Calling — Responses API." Retrieved from https://platform.openai.com/docs

使用PromptQuorum将这些技术同时应用于25+个AI模型。

免费试用PromptQuorum →

← 返回提示词工程

树思考 vs ReAct 2026: 哪种高级推理技术? | PromptQuorum