树思考是什么?
📍 In One Sentence
树思考告诉模型:"探索 3 种方法,评估,选择最佳"。
💬 In Plain Terms
就像要求某人考虑 3 条不同的路线,权衡每条的利弊,然后选择最好的,而不是只跟随第一条想到的路线。
树思考指示模型探索多条推理路径,评估每条,然后在给出最终答案前选择最佳路径。与线性 Chain-of-Thought 不同,树思考明确创建并比较替代方案。
🔍 专业提示
始终指定分支数量("生成正好 3 个方法")和评估标准("按可行性、成本和上市时间比较")。没有明确标准,模型倾向于选择它生成的第一个分支。
ReAct 是什么?
📍 In One Sentence
ReAct 交替执行:思考→行动→观察→重复。
💬 In Plain Terms
你形成假设,搜索信息来测试它,阅读结果,更新假设——这正是 ReAct 逐步做的。
ReAct(推理+行动)在推理步骤与行动(工具调用、搜索、查找)之间交替,观察结果。这是所有现代 AI 代理(从自主编码到网络研究)的基本模式。
🔍 你知道吗
每次 Claude Code 编辑文件、运行测试并根据输出修复错误时,它都在执行 ReAct 循环。2023 年论文中的 Thought-Action-Observation 模式现在是数百万开发者使用的自主 AI 编码工具的核心。
主要区别
Chain-of-Thought (CoT): 单一线性路径。模型"逐步思考",不探索替代方案。
树思考 (ToT): 有意分支。探索 2-5 个分支、评估、选择最优。Token 消耗要大得多。
ReAct: 有工具交互的线性循环。模型在推理和外部工具调用(搜索、API、代码执行)之间交替。
何时使用 —— CoT 用于简单解释和逻辑。ToT 用于选择重要的战略和计划。ReAct 用于需要外部交互的研究和调试。
对比表:CoT vs ToT vs ReAct
| 维度 | Chain-of-Thought (CoT) | 树思考 (ToT) | ReAct |
|---|---|---|---|
| 推理形状 | 线性(单路径) | 分支(多路径→选最优) | 工具循环线性 |
| 核心动作 | "逐步思考" | "探索 3 种方法、评估、选择" | "推理→行动→观察→重复" |
| 外部工具? | 否 | 否(仅内部) | 是——搜索、API、代码执行 |
| Token 成本 | ~1.5-2 倍 | ~2-5 倍 | 可变(工具调用数) |
| 最适用于 | 数学、逻辑、解释 | 战略、计划、创意探索 | 研究、调试、数据分析 |
| 2026 模型支持 | 所有模型 | 推理模型最优(Opus 4.7、o3) | 内置于所有前沿模型 |
| 需要手动格式化? | 是(非推理) | 是(明确格式有帮助) | 否(原生工具使用),开源权重除外 |
如何编写树思考提示
按以下步骤构建有效的 ToT 提示:
- 1说明问题并指定分支数量:"为 问题 生成正好 3 个方法"
- 2选择前定义评估标准:"按 可行性/成本/风险/时间 比较"
- 3让模型评估每个分支并评分或排名
- 4添加选择指示:"选择在 标准 上平衡最好的方法"
- 5用选定分支的完整推理完成任务
如何编写 ReAct 提示
为推理-行动-观察循环使用此模板:
在具有原生工具使用的前沿模型上,这个格式由内部处理。模型决定何时调用工具、接收结果、继续推理——无需手动格式化。
推理:首先需要做什么?
行动:[具体工具调用或明确步骤]
观察:[行动的结果]
推理:这告诉我什么?
行动:[下一步]
...
最终答案:[综合结论]2026 年的 ReAct:从提示模式到内置行为
原始 ReAct 论文(2023)提议手动 Thought/Action/Observation 格式作为提示模式。2026 年,GPT-4o、Claude Opus 4.7/Sonnet 4.6 和 Gemini 3.1 Pro 通过 Function Calling/原生工具自动实现 ReAct 循环。
模型决定何时调用工具、接收结果、继续推理——无需手动格式化。只需定义可用工具;模型管理循环。
手动格式化仍然相关的情况:
1. 开源权重模型:没有原生工具使用(Mistral、旧 LLaMA 变体、Qwen)
2. 教育/调试上下文:希望看到完整追踪
3. 模拟工具交互:没有真实 API 连接
生产 ReAct: 自主 AI 编码工具(Claude Code、OpenAI Codex、Cursor)是大规模 productionized ReAct,其中"行动"= 文件编辑和测试运行。
⚠️ 警告
树思考提示可以生成标准提示 3-5 倍的输出 token。在 $0.025/1M 输出 token(Claude Opus 4.7),生成 5,000 token 的复杂 ToT 每次运行成本约为 $0.125。相应进行预算。
代理系统中的树思考与 ReAct
Claude Code/OpenAI Codex: Productionized ReAct(推理→写代码→运行→观察错误→修复→迭代)
研究代理(Perplexity、Deep Research):制定问题→搜索→阅读→综合→再搜索
Claude 管理的代理(2026): 完全托管 ReAct,安全沙箱和内置工具
代理规划: 某些框架在规划阶段使用 ToT——提议多个方法、评估可行性、通过 ReAct 执行最优
MCP(模型上下文协议): 标准化工具连接,使 ReAct 样式循环即插即用
提示示例
❌ 模糊
帮我为 SaaS 产品制定营销策略。
✅ 结构化树思考
为我们的 SaaS 产品生成正好 3 种营销策略。按以下比较每种:成本、覆盖范围、实施时间、预期转化率。评估每个,分配分数,选择最优。
❌ 无结构
研究 GPU RTX 5090 性能。
✅ 明确观察的 ReAct
推理:哪些来源比较 RTX 5090 GPU?行动:执行 2026 GPU 基准 Web 搜索。观察:[基准结果]。推理:关键点是什么?行动:提取延迟和功耗。最终答案:[综合]
❌ 非迭代
修复代码。
✅ 调试用迭代 ReAct
推理:错误是什么?行动:运行代码,显示输出。观察:[错误:KeyError 第 42 行]。推理:键丢失,需要添加键存在检查。行动:更新代码。观察:[无错误,正常输出]。最终答案:修复的代码,有解释。
Token 成本
ToT:因为模型生成多个分支后再选择,所以基线输出 token 的 2-5 倍。
ReAct:工具调用数可变(每个行动/观察轮次添加 token)。
成本示例(Claude Opus 4.7 上 $0.025/1M 输出 token):生成 5,000 token 的复杂 ToT = 每次运行约 $0.125。
高容量指导:在战略决策上有选择地使用 ToT;日常任务优先使用线性 CoT。
入门方法
- 1战略/计划 → 使用带明确分支数和评估标准的 ToT
- 2带工具的研究/调试 → 使用 ReAct(或只在前沿模型上使用原生工具使用)
- 3组合:计划阶段用 ToT,选定分支内的执行用 ReAct
- 4在 PromptQuorum 上跨 GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro 并行测试两种模式
在 PromptQuorum 中
跨 GPT-4o、Claude Opus 4.7/Sonnet 4.6、Gemini 3.1 Pro 并行测试 ToT 和 ReAct 模式。测量 token 成本、输出质量和延迟,无需向多个 API 暴露数据。
常见问题
树思考提示是什么?
树思考指示模型探索多条推理路径(如决策树分支),评估每条,然后在给出最终答案前选择最佳路径。与线性 CoT 不同,树思考明确创建并比较多个选项。
ReAct 提示是什么?
ReAct(推理+行动)是一个提示框架,其中模型在推理步骤和行动(工具调用、搜索、查找)之间交替。每次行动后,模型观察结果并更新其推理。这个模式是现代 AI 代理的基础。
树思考与 Chain-of-Thought 有何不同?
Chain-of-Thought 遵循单一线性推理路径。树思考分支为多条路径、评估并选择最优。可以这样想:CoT 是走一条路,ToT 是探索分岔口后再选择要走的路。
2026 年还需要手动格式化 ReAct 吗?
在具有原生工具使用的前沿模型(GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro)上不需要。这些模型自动实现循环。手动 Thought:/Action:/Observation: 格式化对于没有工具使用的开源权重模型或教学目的仍然有用。
我可以结合树思考和 ReAct 吗?
可以。在战略层面使用 ToT 来探索和比较多个方法,然后在选定分支内使用 ReAct 处理需要工具交互或数据查找的步骤。这在复杂的规划任务中很常见。
哪些模型最适合树思考?
具有扩展思维/推理模式的模型最自然地处理 ToT:Claude Opus 4.7(扩展思维)、GPT-4o(推理模式)和 Gemini 3.1 Pro(深度思维)。这些模型可以在内部探索多个分支。
ReAct 的实际应用是什么?
所有现代 AI 代理都是 ReAct 循环:Claude Code(推理代码→编辑→运行测试→观察→迭代)、研究助手(思考问题→Web 搜索→阅读结果→综合)、支持机器人(思考请求→查询知识库→设计响应→验证)。模式从简单查找扩展到数小时的自主会话。
树思考如何影响 Token 成本?
树思考使用明显更多的 token,因为模型生成多个分支后再选择。计划使用标准 CoT 提示输出 token 的 2-5 倍。在 $0.025/1M 输出 token(Claude Opus 4.7),生成 5,000 token 的复杂 ToT 每次运行成本约为 $0.125。为高容量使用进行预算。
中国企业如何确保树思考和 ReAct 的合规性?
根据中国 2021 年《数据安全法》,本地推理满足数据驻留和处理合规要求。树思考和 ReAct 在本地部署模型上支持金融、医疗和法律部门的法规要求,无需将敏感数据发送到外部 API。
我可以在生产环境中使用树思考和 ReAct 吗?
可以。ReAct 是生产 AI 代理(Claude Code、OpenAI Codex)的基本模式。树思考用于复杂的战略决策。为额外的 token 成本进行预算,并在生产案例中测试模型行为。
来源
- Yao, S., Yu, D., Zhao, J., et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arXiv:2305.10601
- Yao, S., Zhao, J., Yu, D., et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. arXiv:2210.03629
- Wei, J., Wang, X., Schuurmans, D., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
- Shinn, N., Cassirer, A., Goyal, A., et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv:2303.11366
- Anthropic. (2026). "Tool Use — Claude API Documentation." Retrieved from https://docs.anthropic.com
- OpenAI. (2026). "Function Calling — Responses API." Retrieved from https://platform.openai.com/docs