Início/Prompt Engineering/Tree of Thought e ReAct: Raciocínio avançado para problemas difíceis

Techniques

Tree of Thought e ReAct: Raciocínio avançado para problemas difíceis

Última atualização: 26 de março de 2026·13 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Tree-of-Thought e ReAct Prompting são duas técnicas avançadas de raciocínio: o Tree-of-Thought explora múltiplos caminhos de solução possíveis como uma árvore de decisão, enquanto o ReAct intercala o raciocínio com "ações" explícitas, como buscar ou recuperar informações. Ambas visam tornar a resolução de problemas complexos mais confiável e transparente.

Tree-of-Thought (ToT) instrui um modelo a explorar múltiplas ramificações de solução antes de se comprometer — útil para planejamento e estratégia. ReAct (Reason + Act) alterna raciocínio com chamadas a ferramentas e observações — a base de todo agente de IA moderno. Em 2026, o ReAct está integrado nos modelos frontier via uso nativo de ferramentas; o ToT permanece uma técnica de nível de prompt para exploração estruturada.

Pontos principais

Tree-of-Thought (ToT) explora múltiplas ramificações de raciocínio, avalia-as e seleciona a melhor — como uma árvore de decisão dentro da resposta do modelo.
ReAct (Reason + Act) intercala raciocínio com ações de ferramentas (busca, lookup, execução de código), observando os resultados antes de continuar — a base dos agentes de IA modernos.
ToT é para explorar alternativas (estratégia, planejamento, ideação criativa). ReAct é para interagir com informações (pesquisa, depuração, análise de dados).
Em 2026, o ReAct está em grande parte integrado nos modelos frontier via uso nativo de ferramentas / chamada de funções — você não precisa formatar manualmente `Thought: / Action: / Observation:` no GPT-5.6, Claude ou Gemini.
ToT usa 2–5× mais tokens do que chain-of-thought linear. Use-o seletivamente em decisões de alto risco.
Ambas as técnicas podem ser combinadas: ToT para exploração estratégica, ReAct dentro de cada ramificação para execução orientada por dados.
Use o PromptQuorum para comparar como diferentes modelos lidam com os padrões ToT e ReAct lado a lado.

⚡ Fatos rápidos

·Artigo ToT: Yao et al. (2023), NeurIPS — Princeton/Google DeepMind. arXiv:2305.10601
·Artigo ReAct: Yao et al. (2023), ICLR — Princeton/Google. arXiv:2210.03629
·Custo em tokens: ToT usa 2–5× mais tokens do que CoT linear; o custo do ReAct depende do número de chamadas a ferramentas
·Status em 2026: ReAct agora está integrado nos modelos frontier (GPT-5.6, Claude Sonnet 5, Gemini 3.1 Pro) via uso nativo de ferramentas / chamada de funções
·Melhores modelos para ToT: Claude Opus 4.8 (extended thinking), GPT-5.6 (modo de raciocínio), Gemini 3.1 Pro (Deep Think)
·Padrão de combinação: ToT para exploração estratégica; ReAct dentro da ramificação escolhida para execução orientada por dados
·Quando ToT compensa: Problemas que requerem 5+ etapas de raciocínio, decisões com ramificações, ou onde caminhos errados desperdiçam tokens significativos. Excessivo para tarefas simples e lineares
·Loops ReAct: Cada iteração = thought (raciocinar) + action (chamada a ferramenta/API) + observation (feedback do resultado). Loops até atingir o objetivo ou o máximo de iterações

O que é Tree-of-Thought?

📍 In One Sentence

O prompting Tree-of-Thought instrui um modelo a explorar múltiplas ramificações de raciocínio, avaliá-las e selecionar a melhor antes de finalizar uma resposta.

💬 In Plain Terms

Em vez de pensar passo a passo em uma única direção, você pede ao modelo que gere 3 abordagens diferentes, compare-as, escolha a melhor e então a execute.

O prompting Tree-of-Thought (ToT) instrui um modelo de linguagem a explorar múltiplos caminhos de raciocínio possíveis — como ramificações de uma árvore de decisão — avaliar cada um e então selecionar o melhor caminho antes de dar uma resposta final. Ao contrário do prompting chain-of-thought, que segue um único caminho de raciocínio linear, o ToT gera e compara alternativas explicitamente. Isso o torna útil para estratégia, planejamento e tomada de decisões complexas, onde explorar múltiplas opções leva a melhores resultados.

O termo vem do artigo de 2023 de Yao et al. de Princeton e Google DeepMind: "Tree of Thoughts: Deliberate Problem Solving with Large Language Models" (NeurIPS 2023).

Em termos simples: Chain-of-thought é como caminhar por uma única estrada e explicar seus passos. Tree-of-Thought é como explorar uma bifurcação na estrada, comparar ambos os caminhos e então se comprometer com o que faz mais sentido.

🔍 Dica Pro

Ao usar Tree-of-Thought, sempre especifique o número de ramificações ("Gere exatamente 3 abordagens") e os critérios de avaliação ("Compare em termos de viabilidade, custo e prazo de implementação"). Sem critérios explícitos, o modelo tende a selecionar a primeira ramificação que gera.

O que é ReAct?

📍 In One Sentence

ReAct é o padrão de raciocinar, tomar uma ação, observar o resultado e então ajustar seu raciocínio com base no que aprendeu.

💬 In Plain Terms

Você pede ao modelo que pense no que precisa, tome uma ação específica (como buscar informações), veja o que encontrou e então decida o que fazer a seguir com base nos resultados.

ReAct (Reason + Act) é um framework de prompting onde o modelo alterna entre etapas de raciocínio ("pensamentos") e ações (chamadas a ferramentas, buscas, lookups). Após cada ação, o modelo observa o resultado e atualiza seu raciocínio. Esse padrão é a base dos agentes de IA modernos — toda vez que uma ferramenta de IA busca na web, lê um arquivo ou executa código, está executando um loop ReAct.

O padrão vem do artigo de 2023 de Yao et al.: "ReAct: Synergizing Reasoning and Acting in Language Models" (ICLR 2023).

Formato ReAct manual (para educação ou rastreamento explícito):

```

Thought: O que preciso fazer primeiro?

Action: buscar na web, consultar banco de dados, executar código, etc.

Observation: resultado dessa ação

Thought: Com base nesse resultado, qual é meu próximo passo?

Action: próxima ação

... (repetir até a resposta final)

Final Answer: conclusão sintetizada

```

🔍 Você sabia?

Toda vez que o Claude Code edita um arquivo, executa um teste e corrige um erro com base no output, está executando um loop ReAct. O padrão Thought-Action-Observation do artigo de 2023 é agora a espinha dorsal de ferramentas de codificação autônoma de IA usadas por milhões de desenvolvedores.

Como eles diferem

Chain-of-Thought (CoT) é um único caminho de raciocínio linear. Você diz "pense passo a passo" e o modelo explica sua lógica do início ao fim sem ramificar ou pausar para tomar ações.

Tree-of-Thought (ToT) ramifica o raciocínio. O modelo gera múltiplos caminhos, avalia cada um e seleciona o melhor antes de finalizar.

ReAct intercala raciocínio com ações externas. O modelo raciocina, toma um passo concreto (busca, lookup, execução de código), observa o resultado e ajusta seu raciocínio de acordo.

Resumo de casos de uso:

CoT quando: Você precisa de raciocínio claro para um problema bem definido (matemática, lógica, explicações diretas)

ToT quando: Você está explorando estratégia, planejamento ou tomando uma decisão de alto risco onde comparar alternativas importa

ReAct quando: Você precisa recuperar informações, depurar ou interagir com ferramentas ou sistemas externos

Tabela comparativa: CoT vs ToT vs ReAct

Dimensão	Chain-of-Thought (CoT)	Tree-of-Thought (ToT)	ReAct
Forma de raciocínio	Linear (caminho único)	Ramificado (múltiplos caminhos → selecionar o melhor)	Linear com loops de ferramentas
Ação central	"Pense passo a passo"	"Explore 3 abordagens, avalie, escolha"	"Raciocine → Aja → Observe → Repita"
Ferramentas externas?	Não	Não (apenas raciocínio interno)	Sim — busca, APIs, execução de código
Custo em tokens vs linha de base	~1,5-2×	~2-5×	Variável (depende de chamadas a ferramentas)
Melhor para	Matemática, lógica, explicações	Estratégia, planejamento, exploração criativa	Pesquisa, depuração, verificação de fatos
Suporte de modelos em 2026	Todos os modelos	Melhor com modelos de raciocínio (Opus 4.8, o3)	Integrado em todos os modelos frontier via uso de ferramentas
Formatação manual necessária?	Sim (em modelos sem raciocínio)	Sim (estrutura de ramificação explícita ajuda)	Não (uso nativo de ferramentas), exceto open-weights

Como escrever um prompt Tree-of-Thought

1
Declare o problema e o número de ramificações explicitamente. Exemplo: "Gere exatamente 3 abordagens para problema." Ser específico sobre o número de ramificações ajuda o modelo a explorar de forma sistemática.
2
Especifique os critérios de avaliação antes de pedir ao modelo que selecione. Exemplo: "Compare-as em termos de viabilidade, custo e prazo de implementação." Defina o que torna uma ramificação melhor do que outra.
3
Peça ao modelo que avalie cada ramificação. Peça que pontue ou classifique as abordagens: "Para cada abordagem, liste os prós, contras e fatores de risco."
4
Adicione uma instrução de seleção. Exemplo: "Selecione a abordagem que melhor equilibra seus critérios. Explique sua escolha em 2 frases."
5
Conclua a tarefa com a ramificação selecionada. Uma vez que o modelo se compromete com um caminho, faça-o executar com raciocínio completo: "Agora, forneça instruções passo a passo para implementar abordagem selecionada."

Como escrever um prompt ReAct

Para rastreamento ReAct explícito (útil para educação, depuração ou quando você quer ver cada passo), use este formato manual:

```

Thought: Que informações preciso para responder essa pergunta?

Action: buscar o tópico X, consultar Y no banco de dados, executar o comando Z

Observation: resultado da ação — cole dados reais ou output aqui

Thought: Com base nesse resultado, qual é meu próximo passo?

Action: próxima ação

Observation: resultado

... (repetir conforme necessário)

Final Answer: conclusão sintetizada com base em todas as observações

```

Para modelos frontier com uso nativo de ferramentas (GPT-5.6, Claude Opus 4.8/Sonnet 5, Gemini 3.1 Pro), você não precisa formatar isso manualmente. Apenas declare o que quer fazer: "Pesquise o cenário de modelos de IA em 2026 e compare GPT-5.6, Claude Opus 4.8 e Gemini 3.1 Pro." O modelo chamará ferramentas automaticamente, observará os resultados e continuará raciocinan do.

ReAct em 2026: de padrão de prompting a comportamento integrado

O artigo original do ReAct (2023) propôs o loop Thought-Action-Observation como um formato de prompting — uma técnica para estruturar como você instrui um modelo a raciocinar e agir. Em 2023–2024, os usuários tinham que formatar isso manualmente em seus prompts.

Em 2026, todos os modelos frontier implementam o loop ReAct automaticamente via uso nativo de ferramentas / chamada de funções. Quando você pede ao GPT-5.6, Claude Opus 4.8, Gemini 3.1 Pro ou Claude Sonnet 5 que pesquise um tópico, execute código ou busque algo, o modelo decide quando chamar uma ferramenta, recebe o resultado e continua raciocinan do — sem necessidade de formatação manual de `Thought: / Action: / Observation:`.

Quando a formatação manual do ReAct ainda importa:

Modelos open-weights sem uso nativo de ferramentas (ex.: LLaMA 4, Mistral, variantes mais antigas do Qwen). Esses modelos não têm chamada de funções integrada, então a formatação explícita do ReAct pode melhorar o raciocínio estruturado.

Contextos educacionais/de depuração onde você quer ver o rastro completo de raciocínio e cada passo que o modelo dá.

Cenários simulados onde você está configurando um ambiente simulado sem APIs reais conectadas.

🔍 Atenção

Prompts Tree-of-Thought podem gerar 3–5× os tokens de output de um prompt padrão porque o modelo escreve múltiplas ramificações antes de selecionar uma. A $25/1M tokens de output (Claude Opus 4.8), um prompt ToT complexo que gera 5.000 tokens custa ~$0,125 por execução. Planeje seu orçamento para uso de alto volume.

Tree-of-Thought e ReAct em sistemas agênticos

Claude Code / OpenAI Codex / Cursor são ReAct produtivizado: o agente raciocina sobre o que precisa ser codificado → escreve código → executa testes → observa erros → corrige e itera.

Agentes de pesquisa (Perplexity, funcionalidades Deep Research no Claude/ChatGPT) usam ReAct: formular pergunta → buscar na web → ler resultados → sintetizar resposta → buscar novamente se necessário.

Claude Managed Agents (lançados em 2026) são um harness ReAct totalmente gerenciado com sandbox seguro, gerenciamento de ferramentas e tratamento de loop integrado.

ToT no planejamento agêntico: Alguns frameworks de agentes avançados usam ToT na etapa de planejamento — propor múltiplas estratégias de alto nível, avaliar a viabilidade, então executar a melhor via loops ReAct em cada etapa.

MCP (Model Context Protocol) padroniza conexões de ferramentas, tornando os loops de agentes estilo ReAct plug-and-play.

Exemplos de prompts

❌ Genérico (sem estrutura)

Dê-me três formas de melhorar a retenção de clientes. Qual é a melhor?

✅ ToT com critérios explícitos

Gere exatamente 3 estratégias para melhorar a retenção de clientes. Para cada estratégia, avalie: (1) dificuldade de implementação (escala 1-5), (2) impacto esperado na retenção (%, 6 meses) e (3) custo de implementação. Em seguida, selecione a estratégia que melhor equilibra impacto e viabilidade. Explique sua escolha.

❌ Sem ações explícitas

Qual é a pesquisa mais recente sobre leis de escalonamento de transformers?

✅ Estrutura ReAct (buscar, observar, sintetizar)

Preciso entender as leis de escalonamento de transformers a partir de 2026. Por favor: (1) Busque artigos recentes ou benchmarks sobre leis de escalonamento, (2) Procure dados sobre trade-offs de tamanho de modelo vs. desempenho, (3) Encontre informações sobre relações entre custo de treinamento e custo de inferência. Após coletar informações, resuma os achados principais.

Custo em tokens

Tree-of-Thought usa significativamente mais tokens do que chain-of-thought linear porque o modelo gera múltiplas ramificações antes de selecionar uma. Espere 2–5× os tokens de output de um prompt CoT padrão.

Exemplo: Um prompt CoT simples pode gerar 500 tokens de output. Um prompt ToT que explora 3 ramificações pode gerar 3 × 500 = 1.500 tokens, mais talvez 200 para a síntese final. Total: ~1.700 tokens de output.

Para uso de alto volume, reserve o ToT para decisões estratégicas e de alto risco onde explorar alternativas vale o custo.

O custo do ReAct é variável com base no número de chamadas a ferramentas. Cada rodada de ação/observação adiciona tokens, mas o trabalho pode valer a pena se os dados externos melhoram significativamente a resposta.

Como começar

1
Para estratégia e planejamento → use Tree-of-Thought. Você está tomando uma decisão de alto risco (roadmap de produto, investimento, arquitetura de sistema). Peça explicitamente ao modelo que gere 3 abordagens, avalie-as segundo seus critérios e selecione a melhor.
2
Para pesquisa, depuração ou busca de fatos → use ReAct ou uso nativo de ferramentas. Peça ao modelo que busque coisas, observe os resultados e sintetize. Em modelos frontier (GPT-5.6, Claude Opus 4.8, Gemini 3.1 Pro), o uso nativo de ferramentas trata o ReAct automaticamente.
3
Combine ambas as técnicas. Use ToT na etapa de planejamento: "Gere 3 estratégias para X. Para cada uma, liste os passos necessários." Então use ReAct dentro da estratégia escolhida: "Para a estratégia selecionada, pesquise o seguinte: pergunta 1, pergunta 2. Observe os resultados, então execute."
4
Teste ambas no seu caso de uso no PromptQuorum. Compare como GPT-5.6, Claude Opus 4.8, Gemini 3.1 Pro e Mistral Large lidam com seu prompt ToT ou ReAct específico. Você verá qual estilo de raciocínio do modelo se adapta melhor à sua tarefa.

Erros comuns

❌ Usar ToT para tarefas simples

Why it hurts: ToT adiciona 2–5× o custo em tokens. Para uma tarefa de "resuma este email", chain-of-thought linear é mais rápido, mais barato e igualmente preciso.

Fix: Teste com chain-of-thought primeiro. Se a precisão for >90%, não atualize para ToT.

❌ Pedir muitas ramificações

Why it hurts: "Gere 10 abordagens" sobrecarrega a capacidade do modelo de avaliar de forma significativa. Além de 5 ramificações, a qualidade da avaliação cai.

Fix: 3–5 ramificações é o ponto ideal. Para problemas complexos, use 3. Para brainstormings criativos, use 5.

❌ ReAct sem ferramentas reais

Why it hurts: ReAct simulado (onde o modelo imagina resultados de ações) é mais fraco do que ReAct real (onde o modelo chama APIs/ferramentas reais). Ações simuladas ainda alucinam dados.

Fix: Para ReAct de produção, use um framework de agentes (LangChain, CrewAI) com bindings de ferramentas reais.

❌ Sem critérios de avaliação no ToT

Why it hurts: "Escolha a melhor abordagem" sem critérios significa que o modelo escolhe aleatoriamente ou por preferência padrão.

Fix: Especifique 3–5 critérios de avaliação: "Avalie cada ramificação em viabilidade (1-5), custo (1-5), prazo de implementação (1-5). Escolha a pontuação total mais alta."

❌ Combinar ToT + ReAct em cada problema

Why it hurts: A combinação é poderosa, mas cara e lenta. A maioria dos problemas precisa de uma técnica, não de ambas.

Fix: Use ToT para problemas de "qual estratégia". Use ReAct para problemas de "encontrar informações e raciocinar". Combine apenas quando precisar das duas.

❌ Não especificar critérios de seleção de ramificação no ToT

Why it hurts: Modelos frequentemente param após gerar ramificações, mas não declaram claramente por que estão escolhendo uma sobre as outras.

Fix: Exija raciocínio explícito: "Após avaliar cada ramificação, declare: A ramificação A pontua X no critério Y porque razão. Escolha final: Ramificação Z porque pontuação total e justificativa."

❌ Usar ReAct sem loops de observação

Why it hurts: O modelo raciocina, toma uma ação e então continua imediatamente sem pausar para observar o resultado. Isso perde o benefício do feedback do mundo real.

Fix: Imponha o loop: "Após cada ação, PARE e declare: Observação: o que aprendeu. Raciocínio atualizado: como isso muda sua abordagem. Próxima ação: o que fará diferente."

❌ Permitir que ramificações do ToT derivem para exploração irrelevante

Why it hurts: Sem restrições claras, o modelo pode gerar ramificações imaginativas, mas irrelevantes, que não ajudam a resolver o problema original.

Fix: Defina limites de ramificação: "Gere 3 abordagens para problema específico. Cada abordagem deve abordar diretamente restrição."

❌ Usar o mesmo número de ramificações para cada problema

Why it hurts: Problemas simples com 3 ramificações podem mostrar uma opção dominante e desperdiçar o orçamento de tokens. Problemas complexos com apenas 2 ramificações podem perder alternativas importantes.

Fix: Adapte o número de ramificações à complexidade do problema: 2 para decisões binárias, 3 para problemas típicos, 4–5 para trabalho criativo aberto, 1 (apenas CoT) para tarefas simples.

Usando ToT e ReAct no PromptQuorum

O PromptQuorum permite testar os padrões Tree-of-Thought e ReAct lado a lado no GPT-5.6, Claude Opus 4.8, Claude Sonnet 5, Gemini 3.1 Pro e modelos open-weights como Mistral Large e LLaMA 4.

Escreva um prompt ToT ou ReAct uma vez, e o PromptQuorum o enviará a todos os modelos simultaneamente. Veja como cada um interpreta a estrutura de ramificação ou o loop ação-observação. Ver as diferenças ajuda você a refinar seu prompting para casos de uso específicos.

Exemplo de fluxo de trabalho:

1. Escreva um prompt ToT: "Gere 3 formas de otimizar uma consulta de banco de dados. Avalie em velocidade, complexidade e manutenibilidade."

2. Envie para GPT-5.6, Claude Opus 4.8 e Gemini 3.1 Pro via PromptQuorum.

3. Compare os resultados. Qual modelo explorou mais ramificações? Qual explicação foi mais clara? Qual análise de trade-offs foi mais útil?

4. Para sua próxima iteração, você agora sabe qual modelo e tom funcionam melhor para sua equipe.

Leitura relacionada

Perguntas frequentes

O que é o prompting Tree-of-Thought?

O prompting Tree-of-Thought (ToT) instrui um modelo a explorar múltiplos caminhos de raciocínio — como ramificações de uma árvore de decisão — avaliar cada um e então selecionar o melhor caminho antes de dar uma resposta final. Ao contrário do chain-of-thought linear, o ToT gera e compara alternativas explicitamente.

O que é o prompting ReAct?

ReAct (Reason + Act) é um framework de prompting onde o modelo alterna entre etapas de raciocínio ("pensamentos") e ações (chamadas a ferramentas, buscas, lookups). Após cada ação, o modelo observa o resultado e atualiza seu raciocínio. Esse padrão é a base dos agentes de IA modernos.

Como o Tree-of-Thought difere do chain-of-thought?

Chain-of-thought segue um único caminho de raciocínio linear. Tree-of-Thought ramifica em múltiplos caminhos, avalia-os e seleciona o melhor. Pense no CoT como caminhar por uma única estrada vs. o ToT como explorar uma bifurcação na estrada antes de escolher qual caminho seguir.

Ainda preciso formatar o ReAct manualmente em 2026?

Para modelos frontier com uso nativo de ferramentas (GPT-5.6, Claude Opus 4.8, Gemini 3.1 Pro), não. Esses modelos implementam o loop Reason-Act-Observe automaticamente via APIs de chamada de funções. A formatação manual ainda é útil para modelos open-weights sem uso de ferramentas, para fins educacionais ou em cenários simulados.

Posso combinar Tree-of-Thought e ReAct?

Sim. Use ToT no nível estratégico para explorar e comparar múltiplas abordagens de alto nível, então use ReAct dentro da ramificação escolhida para executar etapas que requerem interações com ferramentas ou lookups de dados.

Quais modelos lidam melhor com Tree-of-Thought?

Modelos com modos de pensamento estendido / raciocínio lidam com ToT de forma mais natural: Claude Opus 4.8 (extended thinking), GPT-5.6 (modo de raciocínio) e Gemini 3.1 Pro (Deep Think).

Quais são as aplicações do mundo real do ReAct?

Cada agente de IA moderno é um loop ReAct: Claude Code (raciocinar sobre código → editar → executar testes → observar → iterar), assistentes de pesquisa (raciocinar sobre pergunta → buscar na web → ler resultados → sintetizar), bots de suporte ao cliente.

Como o Tree-of-Thought afeta o custo em tokens?

ToT usa significativamente mais tokens do que CoT linear porque o modelo gera múltiplas ramificações antes de selecionar uma. Espere 2–5× os tokens de output de um prompt CoT padrão.

Fontes e leitura adicional

Yao, S., Yu, D., Zhao, J., et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arXiv:2305.10601
Yao, S., Zhao, J., Yu, D., et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. arXiv:2210.03629
Wei, J., Wang, X., Schuurmans, D., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
Shinn, N., Cassirer, A., Goyal, A., et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv:2303.11366
Anthropic. (2026). "Tool Use — Claude API Documentation." Retrieved from https://docs.anthropic.com
OpenAI. (2026). "Function Calling — Responses API." Retrieved from https://platform.openai.com/docs

Aplique estas técnicas com um LLM local ou suas próprias chaves de API — o PromptQuorum funciona com qualquer backend.

Experimente o PromptQuorum gratuitamente →

← Voltar ao Prompt Engineering