Datos rápidos
- 1Acuñado por: Wei et al. (2022), Google Brain — artículo fundacional en NeurIPS 2022
- 2Resultado clave: CoT zero-shot elevó la precisión de PaLM 540B del 17,7 % al 78,7 % en MultiArith
- 3Frase activadora: "Pensemos paso a paso" (zero-shot) o ejemplos resueltos (few-shot)
- 4Evolución en 2026: Los modos de razonamiento integrados (o3, Claude extended thinking) automatizan CoT internamente
- 5Impacto en costo: CoT a nivel de prompt = más tokens de salida; modos de razonamiento = presupuesto de tokens de pensamiento separado
- 6Mejores modelos para CoT a nivel de prompt: Modelos sin razonamiento (Claude Haiku 4.5, Gemini Flash, GPT-4o mini, LLaMA 4 Scout)
Qué es el chain-of-thought prompting
El chain-of-thought prompting le pide al modelo que razone paso a paso antes de llegar a una conclusión final. En lugar de devolver solo "la respuesta", el modelo escribe cálculos intermedios, pasos lógicos o explicaciones.
Puedes activar este comportamiento con instrucciones como "piensa paso a paso", "muestra tu razonamiento" o proporcionando ejemplos resueltos donde el razonamiento es explícito. El resultado es un rastro que puedes leer para entender cómo llegó el modelo a su conclusión.
Por qué importa el chain-of-thought prompting
El chain-of-thought prompting importa porque hace que el comportamiento del modelo sea más transparente en tareas que implican razonamiento de múltiples pasos. Cuando ves cada paso, puedes detectar malinterpretaciones, suposiciones faltantes o errores aritméticos.
Esto es especialmente valioso en áreas como análisis, planificación y resolución de problemas. En lugar de una salida opaca, obtienes una narrativa que puedes verificar, corregir o reutilizar como documentación.
🔍 Funciona con modelos locales
Chain-of-thought funciona en cualquier modelo con 7B+ parámetros. Pruébalo localmente con Ollama o LM Studio.
Cuándo ayuda el chain-of-thought (y cuándo no)
El chain-of-thought prompting ayuda más en tareas que se dividen naturalmente en pasos claros, pero no es necesario para cada prompt. Brilla donde el camino es tan importante como el destino.
El razonamiento chain-of-thought es lo que permite que un agente con llamadas a herramientas sea fiable en tareas de múltiples pasos. Para un stack de agentes locales con MCP, consulta Agentes de IA locales con MCP.
Los buenos casos de uso incluyen:
- Problemas matemáticos y de razonamiento cuantitativo.
- Puzzles lógicos de múltiples pasos o análisis de decisiones.
- Análisis de causa raíz, postmortems de incidentes y discusiones de compensaciones.
- Tareas de planificación donde la secuencia de acciones debe ser explícita.
Para clasificación simple, redacción rápida o respuestas factuales cortas, el chain-of-thought a menudo añade verbosidad sin mucho valor adicional. En dominios sensibles, también puede que quieras mantener el razonamiento interno y mostrar solo la respuesta final a los usuarios.
Ejemplo: Sin y con chain-of-thought
La diferencia se hace clara cuando comparas un prompt de respuesta directa con uno que pide razonamiento explícitamente. Aquí hay un ejemplo de decisión simple.
Prompt deficiente
"¿Qué proyecto deberíamos priorizar el próximo trimestre?"
Prompt mejorado
"Eres un gerente de operaciones de producto. Tenemos tres proyectos candidatos para el próximo trimestre. Usa razonamiento chain-of-thought para decidir qué proyecto priorizar. 1) Lista los criterios de decisión que usarás (por ejemplo, impacto en ingresos, riesgo, alineación con la estrategia). 2) Evalúa cada proyecto contra estos criterios paso a paso. 3) Haz una recomendación clara y justifícala en 3–5 oraciones. Al final, proporciona una respuesta final corta comenzando con `Recomendación:` en una línea separada."
En la versión "mejorada", el modelo explica cómo eligió sus criterios, cómo puntúa cada proyecto y luego emite una recomendación que puedes cuestionar o aceptar.
Cómo escribir prompts chain-of-thought efectivos
Para escribir prompts chain-of-thought efectivos, debes definir la estructura del razonamiento y la estructura de la respuesta final. Las solicitudes vagas como "explica más" son menos fiables que las instrucciones concretas.
Un patrón práctico es:
- Dile al modelo su rol (por ejemplo, "Eres un analista de datos senior.").
- Especifica que debe pensar paso a paso o usar chain-of-thought.
- Define las secciones de razonamiento que esperas (por ejemplo, supuestos, cálculos, comparación, conclusión).
- Pide una respuesta final corta y claramente marcada al final para poder usarla rápidamente.
Esto separa el razonamiento detallado de la salida concisa, lo cual es útil cuando integras el resultado en otras herramientas o informes.
Chain-of-thought prompting en PromptQuorum
PromptQuorum es una herramienta de despacho de IA multi-modelo donde puedes aplicar chain-of-thought prompting de forma consistente en diferentes modelos. Escribes un prompt chain-of-thought estructurado y lo envías a varios proveedores en paralelo.
En PromptQuorum puedes:
- Combinar instrucciones chain-of-thought con frameworks orientados al razonamiento como TRACE o APE para que los pasos de pensamiento estén etiquetados explícitamente.
- Comparar cómo diferentes modelos manejan la misma tarea de razonamiento e inspeccionar sus rastros paso a paso lado a lado.
- Guardar prompts chain-of-thought como plantillas para análisis recurrentes, revisiones de incidentes o decisiones estratégicas.
Esto convierte el chain-of-thought prompting de un truco puntual en una parte repetible de tu proceso de toma de decisiones.
Cómo usar el CoT prompting
- 1Para tareas de lógica, razonamiento o depuración, pide al modelo que "piense paso a paso" antes de responder. En lugar de "¿cuál es el bug?", pregunta "Sigue la ejecución paso a paso, luego identifica el bug."
- 2Proporciona un ejemplo resuelto que muestre el razonamiento paso a paso. No lo describas solo — muéstrale al modelo cómo se ve el razonamiento paso a paso. Ejemplo: "Primero, reviso la firma de la función... Luego, sigo la primera llamada con la entrada X..."
- 3Usa prompts explícitos como "Pensemos paso a paso" o "Primero, identifica... Luego..." Estos activan un razonamiento más deliberado en el modelo.
- 4Para problemas complejos, pide al modelo que rastree las salidas intermedias. Ejemplo: "Sigue la ejecución de esta función para la entrada 5. Muestra el valor de cada variable después de cada línea."
- 5Combina CoT con salidas verificables: pide al modelo que muestre su trabajo para que puedas auditarlo. "Explica tu razonamiento en cada paso. Si cometes un error, debería ser visible en el trabajo que muestras."
Ejemplo matemático: cálculo de ingresos
Sin CoT, un modelo podría dar una sola respuesta final. Con CoT, el modelo muestra los cálculos paso a paso.
Sin CoT:
"Un cliente compra 50 unidades a $15 cada una, pero obtiene un 10 % de descuento. ¿Cuánto paga?"
Modelo: "$675"
Con CoT:
"Un cliente compra 50 unidades a $15 cada una, pero obtiene un 10 % de descuento. Trabaja esto paso a paso: 1) Calcula el subtotal. 2) Calcula el monto del descuento. 3) Resta el descuento del subtotal para obtener el precio final."
Modelo: "1) Subtotal = 50 × $15 = $750. 2) Descuento = 10 % de $750 = $75. 3) Precio final = $750 − $75 = $675."
Ambos dan la misma respuesta, pero la versión CoT permite ver la matemática y detectar errores (por ejemplo, si alguien calcula mal el 10 % de $750).
CoT vs modelos de razonamiento integrados (2026)
En 2026, los modelos de frontera — Claude Opus 4.7, OpenAI o3, Gemini Deep Think — tienen modos de razonamiento integrados que internalizan chain-of-thought automáticamente. No necesitas añadir instrucciones "piensa paso a paso" en estos modelos.
Cuándo usar CoT a nivel de prompt: Modelos sin razonamiento (Claude Haiku 4.5, GPT-4o mini, Gemini Flash, Llama 4), LLMs locales, o cuando quieres evitar el costo extra de los presupuestos de tokens de razonamiento.
Cuándo usar modos de razonamiento integrados: Máxima precisión en modelos de frontera, tareas con mucha matemática, análisis complejo. Estos modelos facturan los tokens de razonamiento por separado (normalmente a una tarifa mayor que los tokens de salida). Prueba tus prompts CoT en la consola de Anthropic o en el Playground de OpenAI antes de desplegarlos en producción.
| Enfoque | Mejor para | Costo | Transparencia | Modelos |
|---|---|---|---|---|
| CoT a nivel de prompt ("piensa paso a paso") | Modelos pequeños, LLMs locales, tareas sensibles al costo | Aumenta los tokens de salida | Total: pasos visibles en la salida | Haiku, Flash, LLaMA, Qwen |
| Claude extended thinking (Opus 4.7, Sonnet 4.6) | Análisis complejo, máxima precisión | Presupuesto de tokens de pensamiento separado (tarifa de entrada) | Traza de inspector vía API | Claude Opus 4.7, Claude Sonnet 4.6 |
| OpenAI o3 | Problemas más difíciles (matemáticas, código, competición) | Presupuesto de tokens de razonamiento (nivel más alto) | Razonamiento oculto, salida visible | OpenAI o3 |
| Gemini Deep Think | Integración con Google Cloud, ecosistema Gemini | Tokens de pensamiento separados de la salida | Parámetro thinking_level (LOW, MEDIUM, HIGH) | Gemini 3.1 Pro |
| DeepSeek R1 | Opción open-weights, razonamiento en dispositivo | Razonamiento visible transmitido como texto de salida | Total: CoT en línea en la salida | DeepSeek R1 |
💡 Consejo pro
Si construyes pensando en el costo, usa CoT a nivel de prompt en modelos más pequeños. Si construyes para precisión en problemas difíciles, usa o3 o Claude extended thinking y deja que el modelo gestione el razonamiento internamente.
Variantes y extensiones de chain-of-thought
Más allá del patrón básico "piensa paso a paso", los investigadores han desarrollado varias variantes de CoT, cada una optimizada para diferentes tipos de problemas.
- CoT zero-shot: Pregunta "Pensemos paso a paso" sin ejemplos. Funciona en la mayoría de los modelos y es el más simple de implementar. Mejora: ~10–20 % en tareas de razonamiento.
- CoT few-shot: Muestra 2–5 ejemplos resueltos donde el razonamiento es explícito, luego pide al modelo que aplique el mismo patrón a un nuevo problema. Más fiable que zero-shot pero requiere crear ejemplos manualmente. Mejora: ~20–40 % de precisión.
- Self-consistency (Wang et al., 2023): Genera múltiples rutas de razonamiento CoT de forma independiente, luego toma una votación mayoritaria en la respuesta final. Significativamente más robusto frente a errores. Mejora: ~30–50 % en tareas difíciles.
- Tree of Thought (ToT): En lugar de una cadena lineal, explora múltiples ramas de razonamiento y poda las pobres. Úsalo cuando hay muchas rutas de solución posibles (planificación, juegos, tareas creativas).
- ReAct (Reasoning + Acting): Intercala el razonamiento con acciones externas — llamar APIs, buscar en bases de datos o ejecutar código — e incorpora los resultados en el siguiente paso de razonamiento. Ideal para tareas del mundo real que necesitan datos en tiempo real o verificación.
Comparación de modelos: cómo manejan el CoT prompting (2026)
| Modelo | CoT a nivel de prompt | Razonamiento integrado | Mejor caso de uso | Costo (aprox.) |
|---|---|---|---|---|
| Claude Opus 4.7 | No necesario | Extended thinking (traza inspeccionable vía API) | Análisis de máxima precisión | Mayor (input + output + tokens de pensamiento) |
| Claude Sonnet 4.6 | No necesario | Extended thinking | Equilibrio precisión/costo | Medio |
| Claude Haiku 4.5 | Recomendado | Ninguno | Razonamiento rápido y económico | Bajo |
| OpenAI o3 | No necesario | Niveles de esfuerzo (low, medium, high, xhigh) | Problemas de nivel de competición | Muy alto (nivel de tokens de razonamiento) |
| GPT-4o mini | Recomendado | Ninguno | Despliegue económico | Muy bajo |
| Gemini 3.1 Pro | Funciona | Deep Think (parámetro thinking_level) | Integración con Google Cloud | Medio-alto |
| Gemini Flash | Recomendado | Ninguno | Respuestas rápidas | Bajo |
| DeepSeek R1 | No necesario | Razonamiento en línea en la salida | Open-weights, en dispositivo | Gratis (código abierto) |
| Llama 4 | Recomendado | Ninguno | Despliegue local, privacidad | Self-hosted (depende del cómputo) |
Lecturas relacionadas
Preguntas frecuentes
¿Funciona el chain-of-thought en todos los modelos?
El chain-of-thought funciona en la mayoría de los modelos con 7B+ parámetros, pero el beneficio varía. Es más efectivo en modelos medianos y pequeños (Haiku, Flash, Llama 4). En modelos de frontera (Claude Opus 4.7, o3), los modos de razonamiento integrados suelen ser más eficientes que el CoT a nivel de prompt.
¿El chain-of-thought aumenta el costo?
Sí, el CoT a nivel de prompt aumenta el número de tokens de salida (ya que el modelo escribe el razonamiento antes de la respuesta final). Los modos de razonamiento integrados (Claude extended thinking, OpenAI o3) usan presupuestos de tokens de pensamiento separados con tarifas de facturación distintas. Prueba ambos en tu caso de uso para comparar la compensación costo/precisión.
¿Cuándo debo usar CoT few-shot en lugar de zero-shot?
Usa CoT zero-shot primero — es más simple y funciona en la mayoría de los casos. Pasa a few-shot (con 2–5 ejemplos) si zero-shot no es fiable o si tu dominio requiere patrones de razonamiento específicos (por ejemplo, análisis financiero con estructura de líneas estándar).
¿Puedo combinar chain-of-thought con salida estructurada (JSON)?
Sí. Puedes pedir al modelo que muestre su razonamiento en texto plano primero, luego que produzca un objeto JSON con la respuesta final. Combina las instrucciones: "Piensa paso a paso. Luego produce tu resultado como JSON válido." Esto es común en sistemas de producción.
¿Cuál es la diferencia entre chain-of-thought y tree-of-thought?
Chain-of-thought es una secuencia lineal: paso 1 → paso 2 → ... → conclusión. Tree-of-thought explora múltiples ramas (rutas de razonamiento alternativas) y poda las más débiles antes de llegar a la respuesta. Tree-of-thought es más potente pero más costoso (requiere múltiples llamadas al modelo).
¿OpenAI o3 requiere chain-of-thought prompting?
No. OpenAI o3 tiene razonamiento integrado que se activa automáticamente. No necesitas añadir instrucciones "piensa paso a paso". Solo dale a o3 el problema y establece el nivel de esfuerzo (low/medium/high/xhigh) para controlar cuánto presupuesto de razonamiento gastar.
¿Puedo auditar el razonamiento de los modelos de razonamiento integrados?
Sí, pero depende del modelo. Las trazas de razonamiento de Claude extended thinking son inspeccionables vía API. El razonamiento de OpenAI o3 está oculto por defecto (por ventaja competitiva). El razonamiento de Gemini Deep Think también está oculto. Para auditabilidad completa, usa CoT a nivel de prompt o DeepSeek R1.
¿Es el chain-of-thought prompting adecuado para aplicaciones en tiempo real?
El CoT a nivel de prompt añade latencia (más tokens de salida = generación más lenta). Para casos de uso en tiempo real, usa modelos más pequeños con razonamiento mínimo, o usa endpoints de streaming para mostrar los tokens a medida que llegan. Los modos de razonamiento integrados pueden añadir aún más latencia; haz benchmarks de tu caso de uso específico.
Fuentes y lecturas adicionales
- Wei, J., Wang, X., Schuurmans, D., et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
- Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). "Large Language Models are Zero-Shot Reasoners." NeurIPS 2022. arXiv:2205.11916
- Wang, X., Wei, J., Schuurmans, D., et al. (2023). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171
- Anthropic. (2024). "Extended Thinking in Claude." Documentación técnica sobre las capacidades de razonamiento de Claude Opus 4.7 y Sonnet 4.6.
- OpenAI. (2026). "OpenAI o3: Reasoning Models for Competition-Level Problem Solving." Documentación e investigación de OpenAI.