O que é Tree-of-Thought?
📍 In One Sentence
O prompting Tree-of-Thought instrui um modelo a explorar múltiplas ramificações de raciocínio, avaliá-las e selecionar a melhor antes de finalizar uma resposta.
💬 In Plain Terms
Em vez de pensar passo a passo em uma única direção, você pede ao modelo que gere 3 abordagens diferentes, compare-as, escolha a melhor e então a execute.
O prompting Tree-of-Thought (ToT) instrui um modelo de linguagem a explorar múltiplos caminhos de raciocínio possíveis — como ramificações de uma árvore de decisão — avaliar cada um e então selecionar o melhor caminho antes de dar uma resposta final. Ao contrário do prompting chain-of-thought, que segue um único caminho de raciocínio linear, o ToT gera e compara alternativas explicitamente. Isso o torna útil para estratégia, planejamento e tomada de decisões complexas, onde explorar múltiplas opções leva a melhores resultados.
O termo vem do artigo de 2023 de Yao et al. de Princeton e Google DeepMind: "Tree of Thoughts: Deliberate Problem Solving with Large Language Models" (NeurIPS 2023).
Em termos simples: Chain-of-thought é como caminhar por uma única estrada e explicar seus passos. Tree-of-Thought é como explorar uma bifurcação na estrada, comparar ambos os caminhos e então se comprometer com o que faz mais sentido.
🔍 Dica Pro
Ao usar Tree-of-Thought, sempre especifique o número de ramificações ("Gere exatamente 3 abordagens") e os critérios de avaliação ("Compare em termos de viabilidade, custo e prazo de implementação"). Sem critérios explícitos, o modelo tende a selecionar a primeira ramificação que gera.
O que é ReAct?
📍 In One Sentence
ReAct é o padrão de raciocinar, tomar uma ação, observar o resultado e então ajustar seu raciocínio com base no que aprendeu.
💬 In Plain Terms
Você pede ao modelo que pense no que precisa, tome uma ação específica (como buscar informações), veja o que encontrou e então decida o que fazer a seguir com base nos resultados.
ReAct (Reason + Act) é um framework de prompting onde o modelo alterna entre etapas de raciocínio ("pensamentos") e ações (chamadas a ferramentas, buscas, lookups). Após cada ação, o modelo observa o resultado e atualiza seu raciocínio. Esse padrão é a base dos agentes de IA modernos — toda vez que uma ferramenta de IA busca na web, lê um arquivo ou executa código, está executando um loop ReAct.
O padrão vem do artigo de 2023 de Yao et al.: "ReAct: Synergizing Reasoning and Acting in Language Models" (ICLR 2023).
Formato ReAct manual (para educação ou rastreamento explícito):
```
Thought: O que preciso fazer primeiro?
Action: buscar na web, consultar banco de dados, executar código, etc.
Observation: resultado dessa ação
Thought: Com base nesse resultado, qual é meu próximo passo?
Action: próxima ação
... (repetir até a resposta final)
Final Answer: conclusão sintetizada
```
🔍 Você sabia?
Toda vez que o Claude Code edita um arquivo, executa um teste e corrige um erro com base no output, está executando um loop ReAct. O padrão Thought-Action-Observation do artigo de 2023 é agora a espinha dorsal de ferramentas de codificação autônoma de IA usadas por milhões de desenvolvedores.
Como eles diferem
Chain-of-Thought (CoT) é um único caminho de raciocínio linear. Você diz "pense passo a passo" e o modelo explica sua lógica do início ao fim sem ramificar ou pausar para tomar ações.
Tree-of-Thought (ToT) ramifica o raciocínio. O modelo gera múltiplos caminhos, avalia cada um e seleciona o melhor antes de finalizar.
ReAct intercala raciocínio com ações externas. O modelo raciocina, toma um passo concreto (busca, lookup, execução de código), observa o resultado e ajusta seu raciocínio de acordo.
Resumo de casos de uso:
- CoT quando: Você precisa de raciocínio claro para um problema bem definido (matemática, lógica, explicações diretas)
- ToT quando: Você está explorando estratégia, planejamento ou tomando uma decisão de alto risco onde comparar alternativas importa
- ReAct quando: Você precisa recuperar informações, depurar ou interagir com ferramentas ou sistemas externos
Tabela comparativa: CoT vs ToT vs ReAct
| Dimensão | Chain-of-Thought (CoT) | Tree-of-Thought (ToT) | ReAct |
|---|---|---|---|
| Forma de raciocínio | Linear (caminho único) | Ramificado (múltiplos caminhos → selecionar o melhor) | Linear com loops de ferramentas |
| Ação central | "Pense passo a passo" | "Explore 3 abordagens, avalie, escolha" | "Raciocine → Aja → Observe → Repita" |
| Ferramentas externas? | Não | Não (apenas raciocínio interno) | Sim — busca, APIs, execução de código |
| Custo em tokens vs linha de base | ~1,5-2× | ~2-5× | Variável (depende de chamadas a ferramentas) |
| Melhor para | Matemática, lógica, explicações | Estratégia, planejamento, exploração criativa | Pesquisa, depuração, verificação de fatos |
| Suporte de modelos em 2026 | Todos os modelos | Melhor com modelos de raciocínio (Opus 4.8, o3) | Integrado em todos os modelos frontier via uso de ferramentas |
| Formatação manual necessária? | Sim (em modelos sem raciocínio) | Sim (estrutura de ramificação explícita ajuda) | Não (uso nativo de ferramentas), exceto open-weights |
Como escrever um prompt Tree-of-Thought
- 1Declare o problema e o número de ramificações explicitamente. Exemplo: "Gere exatamente 3 abordagens para problema." Ser específico sobre o número de ramificações ajuda o modelo a explorar de forma sistemática.
- 2Especifique os critérios de avaliação antes de pedir ao modelo que selecione. Exemplo: "Compare-as em termos de viabilidade, custo e prazo de implementação." Defina o que torna uma ramificação melhor do que outra.
- 3Peça ao modelo que avalie cada ramificação. Peça que pontue ou classifique as abordagens: "Para cada abordagem, liste os prós, contras e fatores de risco."
- 4Adicione uma instrução de seleção. Exemplo: "Selecione a abordagem que melhor equilibra seus critérios. Explique sua escolha em 2 frases."
- 5Conclua a tarefa com a ramificação selecionada. Uma vez que o modelo se compromete com um caminho, faça-o executar com raciocínio completo: "Agora, forneça instruções passo a passo para implementar abordagem selecionada."
Como escrever um prompt ReAct
Para rastreamento ReAct explícito (útil para educação, depuração ou quando você quer ver cada passo), use este formato manual:
```
Thought: Que informações preciso para responder essa pergunta?
Action: buscar o tópico X, consultar Y no banco de dados, executar o comando Z
Observation: resultado da ação — cole dados reais ou output aqui
Thought: Com base nesse resultado, qual é meu próximo passo?
Action: próxima ação
Observation: resultado
... (repetir conforme necessário)
Final Answer: conclusão sintetizada com base em todas as observações
```
Para modelos frontier com uso nativo de ferramentas (GPT-5.5, Claude Opus 4.8/Sonnet 4.6, Gemini 3.1 Pro), você não precisa formatar isso manualmente. Apenas declare o que quer fazer: "Pesquise o cenário de modelos de IA em 2026 e compare GPT-5.5, Claude Opus 4.8 e Gemini 3.1 Pro." O modelo chamará ferramentas automaticamente, observará os resultados e continuará raciocinan do.
ReAct em 2026: de padrão de prompting a comportamento integrado
O artigo original do ReAct (2023) propôs o loop Thought-Action-Observation como um formato de prompting — uma técnica para estruturar como você instrui um modelo a raciocinar e agir. Em 2023–2024, os usuários tinham que formatar isso manualmente em seus prompts.
Em 2026, todos os modelos frontier implementam o loop ReAct automaticamente via uso nativo de ferramentas / chamada de funções. Quando você pede ao GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro ou Claude Sonnet 4.6 que pesquise um tópico, execute código ou busque algo, o modelo decide quando chamar uma ferramenta, recebe o resultado e continua raciocinan do — sem necessidade de formatação manual de `Thought: / Action: / Observation:`.
Quando a formatação manual do ReAct ainda importa:
- Modelos open-weights sem uso nativo de ferramentas (ex.: LLaMA 4, Mistral, variantes mais antigas do Qwen). Esses modelos não têm chamada de funções integrada, então a formatação explícita do ReAct pode melhorar o raciocínio estruturado.
- Contextos educacionais/de depuração onde você quer ver o rastro completo de raciocínio e cada passo que o modelo dá.
- Cenários simulados onde você está configurando um ambiente simulado sem APIs reais conectadas.
🔍 Atenção
Prompts Tree-of-Thought podem gerar 3–5× os tokens de output de um prompt padrão porque o modelo escreve múltiplas ramificações antes de selecionar uma. A $25/1M tokens de output (Claude Opus 4.8), um prompt ToT complexo que gera 5.000 tokens custa ~$0,125 por execução. Planeje seu orçamento para uso de alto volume.
Tree-of-Thought e ReAct em sistemas agênticos
Claude Code / OpenAI Codex / Cursor são ReAct produtivizado: o agente raciocina sobre o que precisa ser codificado → escreve código → executa testes → observa erros → corrige e itera.
Agentes de pesquisa (Perplexity, funcionalidades Deep Research no Claude/ChatGPT) usam ReAct: formular pergunta → buscar na web → ler resultados → sintetizar resposta → buscar novamente se necessário.
Claude Managed Agents (lançados em 2026) são um harness ReAct totalmente gerenciado com sandbox seguro, gerenciamento de ferramentas e tratamento de loop integrado.
ToT no planejamento agêntico: Alguns frameworks de agentes avançados usam ToT na etapa de planejamento — propor múltiplas estratégias de alto nível, avaliar a viabilidade, então executar a melhor via loops ReAct em cada etapa.
MCP (Model Context Protocol) padroniza conexões de ferramentas, tornando os loops de agentes estilo ReAct plug-and-play.
Exemplos de prompts
❌ Genérico (sem estrutura)
Dê-me três formas de melhorar a retenção de clientes. Qual é a melhor?
✅ ToT com critérios explícitos
Gere exatamente 3 estratégias para melhorar a retenção de clientes. Para cada estratégia, avalie: (1) dificuldade de implementação (escala 1-5), (2) impacto esperado na retenção (%, 6 meses) e (3) custo de implementação. Em seguida, selecione a estratégia que melhor equilibra impacto e viabilidade. Explique sua escolha.
❌ Sem ações explícitas
Qual é a pesquisa mais recente sobre leis de escalonamento de transformers?
✅ Estrutura ReAct (buscar, observar, sintetizar)
Preciso entender as leis de escalonamento de transformers a partir de 2026. Por favor: (1) Busque artigos recentes ou benchmarks sobre leis de escalonamento, (2) Procure dados sobre trade-offs de tamanho de modelo vs. desempenho, (3) Encontre informações sobre relações entre custo de treinamento e custo de inferência. Após coletar informações, resuma os achados principais.
Custo em tokens
Tree-of-Thought usa significativamente mais tokens do que chain-of-thought linear porque o modelo gera múltiplas ramificações antes de selecionar uma. Espere 2–5× os tokens de output de um prompt CoT padrão.
Exemplo: Um prompt CoT simples pode gerar 500 tokens de output. Um prompt ToT que explora 3 ramificações pode gerar 3 × 500 = 1.500 tokens, mais talvez 200 para a síntese final. Total: ~1.700 tokens de output.
Para uso de alto volume, reserve o ToT para decisões estratégicas e de alto risco onde explorar alternativas vale o custo.
O custo do ReAct é variável com base no número de chamadas a ferramentas. Cada rodada de ação/observação adiciona tokens, mas o trabalho pode valer a pena se os dados externos melhoram significativamente a resposta.
Como começar
- 1Para estratégia e planejamento → use Tree-of-Thought. Você está tomando uma decisão de alto risco (roadmap de produto, investimento, arquitetura de sistema). Peça explicitamente ao modelo que gere 3 abordagens, avalie-as segundo seus critérios e selecione a melhor.
- 2Para pesquisa, depuração ou busca de fatos → use ReAct ou uso nativo de ferramentas. Peça ao modelo que busque coisas, observe os resultados e sintetize. Em modelos frontier (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro), o uso nativo de ferramentas trata o ReAct automaticamente.
- 3Combine ambas as técnicas. Use ToT na etapa de planejamento: "Gere 3 estratégias para X. Para cada uma, liste os passos necessários." Então use ReAct dentro da estratégia escolhida: "Para a estratégia selecionada, pesquise o seguinte: pergunta 1, pergunta 2. Observe os resultados, então execute."
- 4Teste ambas no seu caso de uso no PromptQuorum. Compare como GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro e Mistral Large lidam com seu prompt ToT ou ReAct específico. Você verá qual estilo de raciocínio do modelo se adapta melhor à sua tarefa.
Erros comuns
❌ Usar ToT para tarefas simples
Why it hurts: ToT adiciona 2–5× o custo em tokens. Para uma tarefa de "resuma este email", chain-of-thought linear é mais rápido, mais barato e igualmente preciso.
Fix: Teste com chain-of-thought primeiro. Se a precisão for >90%, não atualize para ToT.
❌ Pedir muitas ramificações
Why it hurts: "Gere 10 abordagens" sobrecarrega a capacidade do modelo de avaliar de forma significativa. Além de 5 ramificações, a qualidade da avaliação cai.
Fix: 3–5 ramificações é o ponto ideal. Para problemas complexos, use 3. Para brainstormings criativos, use 5.
❌ ReAct sem ferramentas reais
Why it hurts: ReAct simulado (onde o modelo imagina resultados de ações) é mais fraco do que ReAct real (onde o modelo chama APIs/ferramentas reais). Ações simuladas ainda alucinam dados.
Fix: Para ReAct de produção, use um framework de agentes (LangChain, CrewAI) com bindings de ferramentas reais.
❌ Sem critérios de avaliação no ToT
Why it hurts: "Escolha a melhor abordagem" sem critérios significa que o modelo escolhe aleatoriamente ou por preferência padrão.
Fix: Especifique 3–5 critérios de avaliação: "Avalie cada ramificação em viabilidade (1-5), custo (1-5), prazo de implementação (1-5). Escolha a pontuação total mais alta."
❌ Combinar ToT + ReAct em cada problema
Why it hurts: A combinação é poderosa, mas cara e lenta. A maioria dos problemas precisa de uma técnica, não de ambas.
Fix: Use ToT para problemas de "qual estratégia". Use ReAct para problemas de "encontrar informações e raciocinar". Combine apenas quando precisar das duas.
❌ Não especificar critérios de seleção de ramificação no ToT
Why it hurts: Modelos frequentemente param após gerar ramificações, mas não declaram claramente por que estão escolhendo uma sobre as outras.
Fix: Exija raciocínio explícito: "Após avaliar cada ramificação, declare: A ramificação A pontua X no critério Y porque razão. Escolha final: Ramificação Z porque pontuação total e justificativa."
❌ Usar ReAct sem loops de observação
Why it hurts: O modelo raciocina, toma uma ação e então continua imediatamente sem pausar para observar o resultado. Isso perde o benefício do feedback do mundo real.
Fix: Imponha o loop: "Após cada ação, PARE e declare: Observação: o que aprendeu. Raciocínio atualizado: como isso muda sua abordagem. Próxima ação: o que fará diferente."
❌ Permitir que ramificações do ToT derivem para exploração irrelevante
Why it hurts: Sem restrições claras, o modelo pode gerar ramificações imaginativas, mas irrelevantes, que não ajudam a resolver o problema original.
Fix: Defina limites de ramificação: "Gere 3 abordagens para problema específico. Cada abordagem deve abordar diretamente restrição."
❌ Usar o mesmo número de ramificações para cada problema
Why it hurts: Problemas simples com 3 ramificações podem mostrar uma opção dominante e desperdiçar o orçamento de tokens. Problemas complexos com apenas 2 ramificações podem perder alternativas importantes.
Fix: Adapte o número de ramificações à complexidade do problema: 2 para decisões binárias, 3 para problemas típicos, 4–5 para trabalho criativo aberto, 1 (apenas CoT) para tarefas simples.
Usando ToT e ReAct no PromptQuorum
O PromptQuorum permite testar os padrões Tree-of-Thought e ReAct lado a lado no GPT-5.5, Claude Opus 4.8, Claude Sonnet 4.6, Gemini 3.1 Pro e modelos open-weights como Mistral Large e LLaMA 4.
Escreva um prompt ToT ou ReAct uma vez, e o PromptQuorum o enviará a todos os modelos simultaneamente. Veja como cada um interpreta a estrutura de ramificação ou o loop ação-observação. Ver as diferenças ajuda você a refinar seu prompting para casos de uso específicos.
Exemplo de fluxo de trabalho:
1. Escreva um prompt ToT: "Gere 3 formas de otimizar uma consulta de banco de dados. Avalie em velocidade, complexidade e manutenibilidade."
2. Envie para GPT-5.5, Claude Opus 4.8 e Gemini 3.1 Pro via PromptQuorum.
3. Compare os resultados. Qual modelo explorou mais ramificações? Qual explicação foi mais clara? Qual análise de trade-offs foi mais útil?
4. Para sua próxima iteração, você agora sabe qual modelo e tom funcionam melhor para sua equipe.
Leitura relacionada
Perguntas frequentes
O que é o prompting Tree-of-Thought?
O prompting Tree-of-Thought (ToT) instrui um modelo a explorar múltiplos caminhos de raciocínio — como ramificações de uma árvore de decisão — avaliar cada um e então selecionar o melhor caminho antes de dar uma resposta final. Ao contrário do chain-of-thought linear, o ToT gera e compara alternativas explicitamente.
O que é o prompting ReAct?
ReAct (Reason + Act) é um framework de prompting onde o modelo alterna entre etapas de raciocínio ("pensamentos") e ações (chamadas a ferramentas, buscas, lookups). Após cada ação, o modelo observa o resultado e atualiza seu raciocínio. Esse padrão é a base dos agentes de IA modernos.
Como o Tree-of-Thought difere do chain-of-thought?
Chain-of-thought segue um único caminho de raciocínio linear. Tree-of-Thought ramifica em múltiplos caminhos, avalia-os e seleciona o melhor. Pense no CoT como caminhar por uma única estrada vs. o ToT como explorar uma bifurcação na estrada antes de escolher qual caminho seguir.
Ainda preciso formatar o ReAct manualmente em 2026?
Para modelos frontier com uso nativo de ferramentas (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro), não. Esses modelos implementam o loop Reason-Act-Observe automaticamente via APIs de chamada de funções. A formatação manual ainda é útil para modelos open-weights sem uso de ferramentas, para fins educacionais ou em cenários simulados.
Posso combinar Tree-of-Thought e ReAct?
Sim. Use ToT no nível estratégico para explorar e comparar múltiplas abordagens de alto nível, então use ReAct dentro da ramificação escolhida para executar etapas que requerem interações com ferramentas ou lookups de dados.
Quais modelos lidam melhor com Tree-of-Thought?
Modelos com modos de pensamento estendido / raciocínio lidam com ToT de forma mais natural: Claude Opus 4.8 (extended thinking), GPT-5.5 (modo de raciocínio) e Gemini 3.1 Pro (Deep Think).
Quais são as aplicações do mundo real do ReAct?
Cada agente de IA moderno é um loop ReAct: Claude Code (raciocinar sobre código → editar → executar testes → observar → iterar), assistentes de pesquisa (raciocinar sobre pergunta → buscar na web → ler resultados → sintetizar), bots de suporte ao cliente.
Como o Tree-of-Thought afeta o custo em tokens?
ToT usa significativamente mais tokens do que CoT linear porque o modelo gera múltiplas ramificações antes de selecionar uma. Espere 2–5× os tokens de output de um prompt CoT padrão.
Fontes e leitura adicional
- Yao, S., Yu, D., Zhao, J., et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arXiv:2305.10601
- Yao, S., Zhao, J., Yu, D., et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. arXiv:2210.03629
- Wei, J., Wang, X., Schuurmans, D., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
- Shinn, N., Cassirer, A., Goyal, A., et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv:2303.11366
- Anthropic. (2026). "Tool Use — Claude API Documentation." Retrieved from https://docs.anthropic.com
- OpenAI. (2026). "Function Calling — Responses API." Retrieved from https://platform.openai.com/docs