Skip to main content
PromptQuorumPromptQuorum
Inicio/Prompt Engineering/Tree of Thought y ReAct: Razonamiento avanzado para problemas difíciles
Techniques

Tree of Thought y ReAct: Razonamiento avanzado para problemas difíciles

·13 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Tree-of-Thought y ReAct Prompting son dos técnicas de razonamiento avanzadas: Tree-of-Thought explora múltiples caminos de solución posibles como un árbol de decisiones, mientras que ReAct entrelaza el razonamiento con "acciones" explícitas como buscar o recuperar información. Ambas buscan hacer la resolución de problemas complejos más fiable y transparente.

Tree-of-Thought (ToT) instruye a un modelo a explorar múltiples ramas de solución antes de comprometerse — útil para planificación y estrategia. ReAct (Reason + Act) alterna el razonamiento con llamadas a herramientas y observaciones — la base de todo agente de IA moderno. En 2026, ReAct está integrado en los modelos frontier a través del uso nativo de herramientas; ToT sigue siendo una técnica a nivel de prompt para exploración estructurada.

Puntos clave

  • Tree-of-Thought (ToT) explora múltiples ramas de razonamiento, las evalúa y selecciona la mejor — como un árbol de decisiones dentro de la respuesta del modelo.
  • ReAct (Reason + Act) entrelaza el razonamiento con acciones de herramientas (búsqueda, lookup, ejecución de código), observando resultados antes de continuar — la base de los agentes de IA modernos.
  • ToT es para explorar alternativas (estrategia, planificación, ideación creativa). ReAct es para interactuar con información (investigación, debugging, análisis de datos).
  • En 2026, ReAct está en gran medida integrado en los modelos frontier a través del uso nativo de herramientas / llamada a funciones — no necesitas formatear manualmente `Thought: / Action: / Observation:` en GPT-4o, Claude o Gemini.
  • ToT usa 2–5× más tokens que el chain-of-thought lineal. Úsalo selectivamente en decisiones de alto riesgo.
  • Ambas técnicas pueden combinarse: ToT para exploración estratégica, ReAct dentro de cada rama para ejecución basada en datos.
  • Usa PromptQuorum para comparar cómo diferentes modelos manejan los patrones ToT y ReAct en paralelo.

⚡ Quick Facts

  • ·Artículo ToT: Yao et al. (2023), NeurIPS — Princeton/Google DeepMind. arXiv:2305.10601
  • ·Artículo ReAct: Yao et al. (2023), ICLR — Princeton/Google. arXiv:2210.03629
  • ·Costo en tokens: ToT usa 2–5× más tokens que CoT lineal; el costo de ReAct depende del número de llamadas a herramientas
  • ·Estado en 2026: ReAct ahora está integrado en los modelos frontier (GPT-4o, Claude Sonnet 4.6+, Gemini 3.1 Pro) a través del uso nativo de herramientas / llamada a funciones
  • ·Mejores modelos para ToT: Claude Opus 4.7 (pensamiento extendido), GPT-4o (modo de razonamiento), Gemini 3.1 Pro (Deep Think)
  • ·Patrón combinado: ToT para exploración estratégica; ReAct dentro de la rama elegida para ejecución basada en datos
  • ·Cuándo ToT vale la pena: Problemas que requieren 5+ pasos de razonamiento, decisiones ramificadas o donde los caminos incorrectos desperdician tokens significativos. Excesivo para tareas simples y lineales
  • ·Bucles ReAct: Cada iteración = thought (razonar) + action (llamada a herramienta/API) + observation (retroalimentación del resultado). Se repite hasta alcanzar el objetivo o el máximo de iteraciones

¿Qué es Tree-of-Thought?

📍 In One Sentence

El Tree-of-Thought prompting instruye a un modelo a explorar múltiples ramas de razonamiento, evaluarlas y seleccionar la mejor antes de finalizar una respuesta.

💬 In Plain Terms

En lugar de pensar paso a paso en una sola dirección, le pides al modelo que genere 3 enfoques diferentes, los compare, elija el mejor y luego lo ejecute.

El prompting Tree-of-Thought (ToT) instruye a un modelo de lenguaje a explorar múltiples caminos de razonamiento posibles — como ramas de un árbol de decisiones — evaluar cada uno y luego seleccionar el mejor camino antes de dar una respuesta final. A diferencia del chain-of-thought prompting, que sigue un único camino de razonamiento lineal, ToT genera y compara alternativas explícitamente. Esto lo hace útil para estrategia, planificación y toma de decisiones complejas donde explorar múltiples opciones lleva a mejores resultados.

El término proviene del artículo de 2023 de Yao et al. de Princeton y Google DeepMind: "Tree of Thoughts: Deliberate Problem Solving with Large Language Models" (NeurIPS 2023).

En términos simples: el chain-of-thought es como caminar por un único camino y explicar tus pasos. Tree-of-Thought es como explorar un cruce de caminos, comparar ambas rutas, y luego comprometerte con la que tiene más sentido.

¿Qué es ReAct?

📍 In One Sentence

ReAct es el patrón de razonar, tomar una acción, observar el resultado y luego ajustar tu razonamiento basándote en lo que aprendiste.

💬 In Plain Terms

Le pides al modelo que piense qué necesita, tome una acción específica (como buscar información), vea qué encontró, y luego decida qué hacer a continuación basándose en los resultados.

ReAct (Reason + Act) es un framework de prompting donde el modelo alterna entre pasos de razonamiento ("pensamientos") y acciones (llamadas a herramientas, búsquedas, lookups). Después de cada acción, el modelo observa el resultado y actualiza su razonamiento. Este patrón es la base de los agentes de IA modernos — cada vez que una herramienta de IA busca en la web, lee un archivo o ejecuta código, está ejecutando un bucle ReAct.

El patrón proviene del artículo de 2023 de Yao et al.: "ReAct: Synergizing Reasoning and Acting in Language Models" (ICLR 2023).

Formato ReAct manual (para educación o rastreo explícito):

```

Thought: ¿Qué necesito hacer primero?

Action: buscar en la web, consultar base de datos, ejecutar código, etc.

Observation: resultado de esa acción

Thought: Basado en este resultado, ¿cuál es mi próximo paso?

Action: siguiente acción

... (repetir hasta la respuesta final)

Final Answer: conclusión sintetizada

```

En qué se diferencian

Chain-of-Thought (CoT) es un único camino de razonamiento lineal. Dices "piensa paso a paso" y el modelo explica su lógica de principio a fin sin ramificar ni pausar para tomar acciones.

Tree-of-Thought (ToT) ramifica el razonamiento. El modelo genera múltiples caminos, evalúa cada uno y selecciona el mejor antes de finalizar.

ReAct entrelaza el razonamiento con acciones externas. El modelo razona, toma un paso concreto (búsqueda, lookup, ejecución de código), observa el resultado y ajusta su razonamiento en consecuencia.

Resumen de casos de uso:

  • CoT cuando: Necesitas razonamiento claro para un problema bien definido (matemáticas, lógica, explicaciones sencillas)
  • ToT cuando: Estás explorando estrategia, planificación o tomando una decisión de alto riesgo donde comparar alternativas importa
  • ReAct cuando: Necesitas recuperar información, depurar o interactuar con herramientas o sistemas externos

Tabla comparativa: CoT vs ToT vs ReAct

DimensiónChain-of-Thought (CoT)Tree-of-Thought (ToT)ReAct
Forma de razonamientoLineal (ruta única)Ramificado (múltiples rutas → seleccionar la mejor)Lineal con bucles de herramientas
Acción central"Piensa paso a paso""Explora 3 enfoques, evalúa, elige""Razona → Actúa → Observa → Repite"
¿Herramientas externas?NoNo (solo razonamiento interno)Sí — búsqueda, APIs, ejecución de código
Costo en tokens vs línea base~1.5-2×~2-5×Variable (depende de llamadas a herramientas)
Mejor paraMatemáticas, lógica, explicacionesEstrategia, planificación, exploración creativaInvestigación, debugging, verificación de hechos
Soporte de modelos en 2026Todos los modelosMejor con modelos de razonamiento (Opus 4.7, o3)Integrado en todos los modelos frontier a través del uso de herramientas
¿Formateo manual necesario?Sí (en modelos sin razonamiento)Sí (la estructura de ramificación explícita ayuda)No (uso nativo de herramientas), excepto en modelos open-weights

Cómo escribir un prompt Tree-of-Thought

  1. 1
    Enuncia el problema y el número de ramas explícitamente. Ejemplo: "Genera exactamente 3 enfoques para problema." Ser específico sobre el número de ramas ayuda al modelo a explorar de forma sistemática.
  2. 2
    Especifica los criterios de evaluación antes de pedirle al modelo que seleccione. Ejemplo: "Compáralos en términos de viabilidad, costo y tiempo de implementación." Define qué hace que una rama sea mejor que otra.
  3. 3
    Pídele al modelo que evalúe cada rama. Pídele que puntúe o clasifique los enfoques: "Para cada enfoque, lista los pros, contras y factores de riesgo."
  4. 4
    Añade una instrucción de selección. Ejemplo: "Selecciona el enfoque que mejor equilibre tus criterios. Explica tu elección en 2 oraciones."
  5. 5
    Completa la tarea con la rama seleccionada. Una vez que el modelo se compromete con un camino, hazlo ejecutar con razonamiento completo: "Ahora, proporciona instrucciones paso a paso para implementar enfoque seleccionado."

Cómo escribir un prompt ReAct

Para rastreo ReAct explícito (útil para educación, debugging o cuando quieres ver cada paso), usa este formato manual:

```

Thought: ¿Qué información necesito para responder esta pregunta?

Action: buscar el tema X, consultar Y en la base de datos, ejecutar el comando Z

Observation: resultado de la acción — pega datos reales o salida aquí

Thought: Basado en este resultado, ¿cuál es mi próximo paso?

Action: siguiente acción

Observation: resultado

... (repetir según sea necesario)

Final Answer: conclusión sintetizada basada en todas las observaciones

```

Para modelos frontier con uso nativo de herramientas (GPT-4o, Claude Opus 4.7/Sonnet 4.6, Gemini 3.1 Pro), no necesitas formatear esto manualmente. Solo indica lo que quieres hacer: "Investiga el panorama de modelos de IA en 2026 y compara GPT-4o, Claude Opus 4.7 y Gemini 3.1 Pro." El modelo llamará a las herramientas automáticamente, observará los resultados y continuará razonando.

ReAct en 2026: del patrón de prompting al comportamiento integrado

El artículo original de ReAct (2023) propuso el bucle Thought-Action-Observation como un formato de prompting — una técnica para estructurar cómo instruyes a un modelo a razonar y actuar. En 2023–2024, los usuarios tenían que formatear esto manualmente en sus prompts.

En 2026, todos los modelos frontier implementan el bucle ReAct automáticamente a través del uso nativo de herramientas / llamada a funciones. Cuando le pides a GPT-4o, Claude Opus 4.7, Gemini 3.1 Pro o Claude Sonnet 4.6 que investigue un tema, ejecute código o busque algo, el modelo decide cuándo llamar a una herramienta, recibe el resultado y continúa razonando — no se necesita formateo manual de `Thought: / Action: / Observation:`.

Cuándo el formateo manual de ReAct sigue siendo relevante:

  • Modelos open-weights sin uso nativo de herramientas (ej. LLaMA 4, Mistral, variantes más antiguas de Qwen). Estos modelos no tienen llamada a funciones integrada, por lo que el formateo explícito de ReAct puede mejorar el razonamiento estructurado.
  • Contextos educativos/de debugging donde quieres ver el rastro completo de razonamiento y cada paso que toma el modelo.
  • Escenarios simulados donde configuras un entorno simulado sin APIs reales conectadas.

Tree-of-Thought y ReAct en sistemas agénticos

Claude Code / OpenAI Codex / Cursor son ReAct productivizado: el agente razona sobre qué código necesita escribirse → escribe código → ejecuta pruebas → observa errores → corrige e itera.

Agentes de investigación (Perplexity, funciones de Deep Research en Claude/ChatGPT) usan ReAct: formular pregunta → buscar en la web → leer resultados → sintetizar respuesta → buscar de nuevo si es necesario.

Claude Managed Agents (lanzados en 2026) son un arnés ReAct completamente gestionado con sandbox seguro, gestión de herramientas y manejo de bucles integrado.

ToT en planificación agéntica: Algunos frameworks de agentes avanzados usan ToT en la etapa de planificación — proponer múltiples estrategias de alto nivel, evaluar la viabilidad, luego ejecutar la mejor mediante bucles ReAct en cada paso.

MCP (Model Context Protocol) estandariza las conexiones de herramientas, haciendo que los bucles de agentes estilo ReAct sean plug-and-play.

Ejemplos de prompts

Genérico (sin estructura)

Dame tres maneras de mejorar la retención de clientes. ¿Cuál es la mejor?

ToT con criterios explícitos

Genera exactamente 3 estrategias para mejorar la retención de clientes. Para cada estrategia, evalúala en: (1) dificultad de implementación (escala 1-5), (2) impacto esperado en la retención (%, 6 meses), y (3) costo de implementación. Luego selecciona la estrategia que mejor equilibre impacto y viabilidad. Explica tu elección.

Sin acciones explícitas

¿Cuál es la investigación más reciente sobre las leyes de escalado de transformers?

Estructura ReAct (buscar, observar, sintetizar)

Necesito entender las leyes de escalado de transformers a partir de 2026. Por favor: (1) Busca artículos recientes o benchmarks sobre leyes de escalado, (2) Busca datos sobre la relación tamaño del modelo vs rendimiento, (3) Encuentra información sobre las relaciones entre costo de entrenamiento y costo de inferencia. Después de recopilar información, resume los hallazgos clave.

Costo en tokens

Tree-of-Thought usa significativamente más tokens que el chain-of-thought lineal porque el modelo genera múltiples ramas antes de seleccionar una. Espera 2–5× los tokens de salida de un prompt CoT estándar.

Ejemplo: Un prompt CoT simple podría generar 500 tokens de salida. Un prompt ToT que explora 3 ramas podría generar 3 × 500 = 1.500 tokens, más quizás 200 para la síntesis final. Total: ~1.700 tokens de salida.

Para uso de alto volumen, reserva ToT para decisiones estratégicas y de alto riesgo donde explorar alternativas valga el costo.

El costo de ReAct es variable según el número de llamadas a herramientas. Cada ronda de acción/observación añade tokens, pero el trabajo puede valer la pena si los datos externos mejoran significativamente la respuesta.

Cómo empezar

  1. 1
    Para estrategia y planificación → usa Tree-of-Thought. Estás tomando una decisión de alto riesgo (hoja de ruta de producto, inversión, arquitectura de sistemas). Pide explícitamente al modelo que genere 3 enfoques, los evalúe según tus criterios y seleccione el mejor.
  2. 2
    Para investigación, debugging o búsqueda de hechos → usa ReAct o el uso nativo de herramientas. Pide al modelo que busque cosas, observe los resultados y sintetice. En modelos frontier (GPT-4o, Claude Opus 4.7, Gemini 3.1 Pro), el uso nativo de herramientas maneja ReAct automáticamente.
  3. 3
    Combina ambas técnicas. Usa ToT en la etapa de planificación: "Genera 3 estrategias para X. Para cada una, lista los pasos necesarios." Luego usa ReAct dentro de la estrategia elegida: "Para la estrategia seleccionada, investiga lo siguiente: pregunta 1, pregunta 2. Observa resultados, luego ejecuta."
  4. 4
    Prueba ambas en tu caso de uso en PromptQuorum. Compara cómo GPT-4o, Claude Opus 4.7, Gemini 3.1 Pro y Mistral Large manejan tu prompt ToT o ReAct específico. Verás qué estilo de razonamiento del modelo se adapta mejor a tu tarea.

Errores comunes

Usar ToT para tareas simples

Why it hurts: ToT añade 2–5× el costo en tokens. Para una tarea de "resume este email", el chain-of-thought lineal es más rápido, más barato e igualmente preciso.

Fix: Prueba primero con chain-of-thought. Si la precisión es >90%, no actualices a ToT.

Pedir demasiadas ramas

Why it hurts: "Genera 10 enfoques" abruma la capacidad del modelo para evaluar de forma significativa. Más allá de 5 ramas, la calidad de la evaluación cae.

Fix: 3–5 ramas es el punto óptimo. Para problemas complejos, usa 3. Para lluvias de ideas creativas, usa 5.

ReAct sin herramientas reales

Why it hurts: El ReAct simulado (donde el modelo imagina los resultados de las acciones) es más débil que el ReAct real (donde el modelo llama a APIs/herramientas reales). Las acciones simuladas siguen alucinando datos.

Fix: Para ReAct de producción, usa un framework de agentes (LangChain, CrewAI) con enlazado de herramientas real.

Sin criterios de evaluación en ToT

Why it hurts: "Elige el mejor enfoque" sin criterios significa que el modelo elige de forma aleatoria o por preferencia predeterminada.

Fix: Especifica 3–5 criterios de evaluación: "Evalúa cada rama en viabilidad (1-5), costo (1-5), tiempo de implementación (1-5). Elige la puntuación total más alta."

Combinar ToT + ReAct en cada problema

Why it hurts: La combinación es potente pero costosa y lenta. La mayoría de los problemas necesitan una técnica, no ambas.

Fix: Usa ToT para problemas de "qué estrategia". Usa ReAct para problemas de "encontrar información y razonar". Combínalas solo cuando necesites ambas.

No especificar criterios de selección de ramas en ToT

Why it hurts: Los modelos a menudo se detienen después de generar ramas pero no declaran claramente por qué eligen una sobre las otras.

Fix: Requiere razonamiento explícito: "Después de evaluar cada rama, indica: La rama A puntúa X en el criterio Y porque razón. Elección final: Rama Z porque puntuación total y justificación."

Usar ReAct sin bucles de observación

Why it hurts: El modelo razona, toma una acción y luego continúa inmediatamente sin pausar para observar el resultado. Esto pierde el beneficio de la retroalimentación del mundo real.

Fix: Impone el bucle: "Después de cada acción, DETENTE y di: Observación: lo que aprendiste. Razonamiento actualizado: cómo esto cambia tu enfoque. Siguiente acción: qué harás diferente."

Permitir que las ramas de ToT deriven hacia exploración irrelevante

Why it hurts: Sin restricciones claras, el modelo puede generar ramas imaginativas pero irrelevantes que no ayudan a resolver el problema original.

Fix: Establece límites de ramas: "Genera 3 enfoques para problema específico. Cada enfoque debe abordar directamente restricción."

Usar el mismo número de ramas para cada problema

Why it hurts: Los problemas simples con 3 ramas pueden mostrar una opción dominante y desperdiciar el presupuesto de tokens. Los problemas complejos con solo 2 ramas pueden perderse alternativas importantes.

Fix: Adapta el número de ramas a la complejidad del problema: 2 para decisiones binarias, 3 para problemas típicos, 4–5 para trabajo creativo abierto, 1 (solo CoT) para tareas simples.

Usar ToT y ReAct en PromptQuorum

PromptQuorum te permite probar los patrones Tree-of-Thought y ReAct en paralelo en GPT-4o, Claude Opus 4.7, Claude Sonnet 4.6, Gemini 3.1 Pro y modelos open-weights como Mistral Large y LLaMA 4.

Escribe un prompt ToT o ReAct una vez, y PromptQuorum lo enviará a todos los modelos simultáneamente. Observa cómo cada uno interpreta la estructura de ramificación o el bucle acción-observación. Ver las diferencias te ayuda a refinar tu prompting para casos de uso específicos.

Flujo de trabajo de ejemplo:

1. Escribe un prompt ToT: "Genera 3 formas de optimizar una consulta de base de datos. Evalúa en velocidad, complejidad y mantenibilidad."

2. Envía a GPT-4o, Claude Opus 4.7 y Gemini 3.1 Pro vía PromptQuorum.

3. Compara resultados. ¿Qué modelo exploró más ramas? ¿Cuál explicación fue más clara? ¿Cuál análisis de compromisos fue más útil?

4. Para tu próxima iteración, ya sabes qué modelo y tono funciona mejor para tu equipo.

Preguntas frecuentes

¿Qué es el Tree-of-Thought prompting?

El Tree-of-Thought (ToT) prompting instruye a un modelo a explorar múltiples caminos de razonamiento — como ramas de un árbol de decisiones — evaluar cada uno y luego seleccionar el mejor camino antes de dar una respuesta final. A diferencia del chain-of-thought lineal, ToT genera y compara alternativas explícitamente.

¿Qué es el ReAct prompting?

ReAct (Reason + Act) es un framework de prompting donde el modelo alterna entre pasos de razonamiento ("pensamientos") y acciones (llamadas a herramientas, búsquedas, lookups). Después de cada acción, el modelo observa el resultado y actualiza su razonamiento. Este patrón es la base de los agentes de IA modernos.

¿En qué se diferencia Tree-of-Thought del chain-of-thought?

El chain-of-thought sigue un único camino de razonamiento lineal. Tree-of-Thought se ramifica en múltiples caminos, los evalúa y selecciona el mejor. Piensa en CoT como caminar por un único camino vs. ToT como explorar un cruce de caminos antes de elegir cuál tomar.

¿Todavía necesito formatear ReAct manualmente en 2026?

Para modelos frontier con uso nativo de herramientas (GPT-4o, Claude Opus 4.7, Gemini 3.1 Pro), no. Estos modelos implementan el bucle Reason-Act-Observe automáticamente a través de las APIs de llamada a funciones. El formateo manual sigue siendo útil para modelos open-weights sin uso de herramientas, con fines educativos o en escenarios simulados.

¿Puedo combinar Tree-of-Thought y ReAct?

Sí. Usa ToT a nivel estratégico para explorar y comparar múltiples enfoques de alto nivel, luego usa ReAct dentro de la rama elegida para ejecutar pasos que requieran interacciones con herramientas o lookups de datos.

¿Qué modelos manejan mejor Tree-of-Thought?

Los modelos con modos de pensamiento extendido / razonamiento manejan ToT de forma más natural: Claude Opus 4.7 (pensamiento extendido), GPT-4o (modo de razonamiento) y Gemini 3.1 Pro (Deep Think).

¿Cuáles son las aplicaciones del mundo real de ReAct?

Cada agente de IA moderno es un bucle ReAct: Claude Code (razonar sobre código → editar → ejecutar pruebas → observar → iterar), asistentes de investigación (razonar sobre pregunta → buscar en la web → leer resultados → sintetizar), bots de soporte al cliente.

¿Cómo afecta Tree-of-Thought al costo en tokens?

ToT usa significativamente más tokens que el CoT lineal porque el modelo genera múltiples ramas antes de seleccionar una. Espera 2–5× los tokens de salida de un prompt CoT estándar.

Fuentes y lecturas adicionales

  • Yao, S., Yu, D., Zhao, J., et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arXiv:2305.10601
  • Yao, S., Zhao, J., Yu, D., et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. arXiv:2210.03629
  • Wei, J., Wang, X., Schuurmans, D., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
  • Shinn, N., Cassirer, A., Goyal, A., et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv:2303.11366
  • Anthropic. (2026). "Tool Use — Claude API Documentation." Retrieved from https://docs.anthropic.com
  • OpenAI. (2026). "Function Calling — Responses API." Retrieved from https://platform.openai.com/docs

Aplica estas técnicas en más de 25 modelos de IA simultáneamente con PromptQuorum.

Prueba PromptQuorum gratis →

← Volver a Prompt Engineering

Tree of Thought vs ReAct 2026: ¿Qué técnica de razonamiento avanzada usar?