¿Por qué la IA olvida lo que le dijiste?
Los LLM no tienen memoria a largo plazo — solo "ven" una ventana deslizante de tokens recientes, y todo lo que está fuera de esa ventana se olvida o se comprime. Este artículo explica qué significa eso para tus prompts y cómo trabajar dentro de (y alrededor de) estos límites.
¿Qué es una context window?
Una context window es la cantidad máxima de texto (medida en tokens) que un LLM puede tener en cuenta al generar su próxima salida.
Piénsala como el "texto visible" del modelo en cualquier momento dado. Cuando envías un mensaje a GPT-4o con una context window de 128k tokens, el modelo puede "ver" los últimos 128.000 tokens de la conversación — aproximadamente 96.000 palabras. Todo lo anterior es invisible para el modelo y no influye en su respuesta.
Tokens vs. palabras: Un token no es una palabra. En promedio, un token ≈ 4 caracteres o aproximadamente 0,75 palabras. Por lo tanto, una context window de 4.000 tokens ≈ 3.000 palabras de texto en inglés plano. Para código denso o idiomas como el japonés, la proporción es diferente — el texto japonés requiere aproximadamente 2 tokens por palabra debido a la codificación de caracteres.
Los tamaños de context window varían ampliamente entre los modelos:
| Modelo | Context window |
|---|---|
| GPT-4o mini | 4k tokens (≈ 3.000 palabras) |
| GPT-4o | 128k tokens (≈ 96.000 palabras) |
| Claude Opus 4.7 | 200k tokens (≈ 150.000 palabras) |
| Gemini 3.1 Pro | 2.000.000 tokens (≈ 1.500.000 palabras — el contexto disponible más grande en 2026) |
| Modelos locales (Ollama, LM Studio) | Configurable de 4k a 128k+, limitado por la VRAM disponible |
El principio es idéntico en todos los modelos: todo lo que está fuera de la ventana no es visible.
Por qué la IA "olvida"
Cuando el total de tokens en una conversación (prompt del sistema + historial de chat + entrada del usuario + herramientas + salida esperada) supera la context window, las partes más antiguas se truncan, se resumen o se eliminan por completo.
Esto no es una pérdida de memoria como el olvido humano. El modelo no "piensa y luego olvida." Literalmente no ve el texto truncado — ya no existe en el espacio de entrada del modelo.
Síntomas comunes al alcanzar el límite de contexto:
- La IA ignora o contradice una instrucción que diste hace 30 mensajes
- En una historia creativa larga, el modelo olvida nombres de personajes, detalles o restricciones que estableciste antes
- En un chat de investigación que abarca muchos turnos, los hechos se confunden o el modelo reinventa la información
- La IA cambia de tono repentinamente o viola tus restricciones originales sin explicación
Qué ocurre en realidad
La mayoría de las interfaces de chat utilizan una de estas estrategias:
- 1Eliminar los mensajes más antiguos — Los N mensajes más recientes caben en la ventana; los más antiguos se descartan por completo
- 2Resumir la conversación anterior — El sistema comprime los mensajes iniciales en un breve resumen ("Anteriormente, hablaste de X, Y, Z…") para preservar el contexto
- 3Fijar los prompts del sistema/desarrollador — El mensaje del sistema permanece fijo mientras los mensajes del usuario rotan
Todos estos métodos preservan la "esencia" pero pierden detalles específicos. Cuando el modelo ya no ve la instrucción original, no puede seguirla.
Context windows y alucinaciones
La sobrecarga de contexto amplifica las alucinaciones porque el modelo llena los vacíos con suposiciones plausibles cuando la información original ya no es visible.
Así es el patrón: le pides a la IA que haga referencia a algo que mencionaste hace 50 mensajes. Pero ese mensaje ha rotado fuera de la context window. El modelo no tiene acceso al hecho real, por lo que genera una respuesta que suena plausible basándose en lo que infiere del contexto actual. Resultado: fabricación.
Por eso los chats largos con mucho contexto a menudo producen más alucinaciones que los intercambios cortos y enfocados. El modelo no está perdiendo su capacidad de razonamiento — está trabajando con información incompleta.
La interacción es directa: Menos contexto → falta de anclaje → mayor riesgo de alucinación.
Este efecto se combina con configuraciones más altas de temperature y top-p, que ya aumentan la aleatoriedad. Consulta Temperature and Top-P: Control AI Creativity para entender cómo el ajuste de parámetros interactúa con las alucinaciones.
Cómo el diseño del prompt te ayuda a mantenerte dentro de la ventana
Estructurar tus prompts de forma estratégica te permite lograr más dentro de un presupuesto de contexto fijo.
Coloca las instrucciones críticas al principio. Pon tus restricciones, reglas y definiciones más importantes en el prompt del sistema o en el primer mensaje del usuario. Estas tienen menos probabilidad de caer fuera del contexto que las instrucciones enterradas 20 turnos después.
Evita la repetición. Si ya has explicado algo una vez, no lo pegues de nuevo. En su lugar, haz referencia a ello: "Como discutimos en el resumen anterior…" Esto ahorra tokens.
Resume explícitamente. Pide al modelo que resuma las decisiones, restricciones o hechos clave hasta el momento. Luego construye la siguiente respuesta a partir de ese resumen en lugar de depender del contexto anterior disperso.
Mantén los turnos enfocados. Un monólogo único con múltiples temas usa el contexto de forma ineficiente. Divídelo en intercambios separados y con alcance reducido.
Tamaños de context window (2026)
Trabajar con documentos largos
Pegar libros enteros o PDFs de cientos de páginas en una sola context window es ineficiente, incluso para la ventana de 2M tokens de Gemini 3.1 Pro, porque el modelo no puede enfocarse eficazmente en múltiples secciones dispares simultáneamente.
Un libro de 1.000 páginas ≈ 250.000 tokens. Técnicamente, Gemini 3.1 Pro puede ingerirlo. En la práctica, el razonamiento del modelo se degrada cuando se le pide que responda preguntas en secciones muy diferentes — es como pedirle a una persona que lea una novela completa de una sola vez y luego recuerde detalles específicos de las páginas 50, 200 y 400. El recuerdo se vuelve difuso.
Mejores enfoques para documentos largos:
- 1Procesa las secciones de forma secuencial. Extrae y analiza un capítulo o sección a la vez. Haz preguntas enfocadas por sección: "¿Cuáles son las conclusiones principales de la Sección 3?" Luego pasa a la siguiente sección.
- 2Resumen jerárquico. Extrae puntos clave de las páginas 1–10, luego de las páginas 11–20, y combina esos resúmenes en un resumen a nivel de capítulo. Luego combina los capítulos en un resumen a nivel de documento. Esto reduce el documento a sus hechos esenciales mientras preserva las relaciones.
- 3Extracción estructurada. Convierte el documento en tablas, JSON o listas de viñetas *antes* de hacer preguntas de nivel superior. Esto comprime la información: en lugar de pegar 50 páginas de especificaciones de producto, extrae las especificaciones en una tabla estructurada y luego haz preguntas sobre la tabla.
- 4Usa RAG (Retrieval-Augmented Generation). Para conjuntos de documentos verdaderamente grandes (100+ páginas), los sistemas basados en recuperación funcionan mejor. Consulta RAG Explained: How to Ground AI Answers in Real Data para saber cómo recuperar secciones relevantes en lugar de cargar todo a la vez.
Cómo PromptQuorum te ayuda a gestionar el contexto
Trabajar cerca de los límites de contexto es difícil porque cada modelo tiene diferentes límites, comportamiento de truncación, precios y (para los LLM locales) requisitos de VRAM. PromptQuorum hace que estas restricciones sean transparentes: antes de enviar, puedes ver cuánto contexto consume cada modelo y cuándo es probable que haya un desbordamiento.
Ajuste de la context window para LLM locales
Cuando ejecutas un modelo en LM Studio o Ollama, puedes configurar el tamaño de la context window. Por defecto, las herramientas suelen establecerla al máximo del modelo (por ejemplo, 32k para un modelo 7B). Pero eso rara vez es lo que necesitas.
PromptQuorum se integra con LM Studio y te permite ajustar la context window por tarea: elige 4k para preguntas y respuestas ligeras y rápidas; elige 32k para análisis profundo de documentos; elige 64k para conversaciones largas. Esto hace que el compromiso sea explícito en lugar de estar oculto en archivos de configuración.
Verificaciones automáticas de desbordamiento de contexto
PromptQuorum verifica *antes* de que envíes: dado el prompt del sistema + el historial de conversación actual + tu nueva entrada + la longitud de salida esperada, ¿encaja en la context window configurada para cada modelo?
Si el desbordamiento es probable, PromptQuorum te avisa o te pide que recortes o resumas la conversación antes de enviar. No más truncaciones sorpresa. No más adivinanzas sobre por qué la IA "olvidó."
Context window ↔ Intercambio de VRAM
Para los modelos locales, las context windows más grandes requieren considerablemente más VRAM. Un modelo 7B en cuantización Q4_K_M necesita ~5 GB a 4k de contexto, ~8–10 GB a 32k y ~12–14 GB a 128k. Si se supera la VRAM disponible, la GPU falla o revierte a la inferencia por CPU (10–100× más lenta).
PromptQuorum te muestra esta relación: "Este tamaño de context window usará ~12–14 GB de VRAM en tu hardware. Tienes 8 GB disponibles." Así puedes ajustar correctamente la context window para tu tarea y hardware, en lugar de descubrir los fallos durante la inferencia.
Para los modelos con las context windows disponibles más largas para despliegue local — incluidos los requisitos de hardware — consulta LLM locales de contexto largo.
Conciencia multimodelo
Cuando envías un prompt a GPT-4o (ventana de 128k), Claude (ventana de 200k) y un modelo 7B local (tu ventana elegida de 32k), PromptQuorum mantiene automáticamente tu prompt dentro de los tres límites. Un prompt, varios modelos, sin reescritura manual.
Recetas prácticas para la gestión del contexto
Receta 1: Chat largo sobre un proyecto — Mantener una conversación de múltiples turnos sobre un único proyecto sin perder las decisiones anteriores.
- 1En tu prompt del sistema, inserta las restricciones clave del proyecto (alcance, audiencia, tono, límites técnicos) una vez. No las repitas.
- 2Después de cada 10–15 intercambios, pide al modelo que resuma el estado actual: "¿Cuáles son las 5 decisiones más importantes que hemos tomado hasta ahora?"
- 3Usa ese resumen como contexto para tu siguiente turno en lugar de depender de mensajes anteriores dispersos.
- 4En PromptQuorum, establece una context window de 32k–64k y activa las alertas de desbordamiento para saber cuándo resumir.
Receta 2: Análisis de un informe largo — Extraer información de un documento de 50–100 páginas.
- 1Divide el documento en 3–5 secciones (capítulos, partes).
- 2Para cada sección, escribe un prompt enfocado: "Resume los hallazgos clave de esta sección en 5 puntos."
- 3Recopila esos 5 resúmenes de cada sección.
- 4En un turno final, pregunta: "Dados estos resúmenes de secciones, ¿cuál es la conclusión general?"
- 5Te has mantenido bien dentro de los límites de contexto y has evitado el problema de "perderse en un libro."
Receta 3: Prompting en el límite de la context window — Usar casi toda la context window sin desbordamiento.
- 1Calcula tu presupuesto: Tamaño de la context window − tokens del prompt del sistema − tokens de salida esperados = tokens disponibles para tu entrada + historial.
- 2Ejemplo: ventana de 128k, prompt del sistema de 200 tokens, búfer de salida de 1k = 126,8k tokens disponibles.
- 3Antes de enviar, verifica en PromptQuorum: "¿Cuántos tokens consume esta entrada?"
- 4Si está cerca del límite, recorta el turno más antiguo o resúmelo antes de continuar.
- 5Esto te mantiene operando intencionalmente cerca del límite, sin alcanzarlo por accidente.
Receta 4: LLM local con VRAM limitada — Ejecutar un modelo local eficazmente sin fallos.
- 1Comienza con una context window conservadora (8k–16k) para la VRAM de tu modelo.
- 2En la configuración de PromptQuorum, anota el requisito de VRAM en ese tamaño de ventana.
- 3Ejecuta tu tarea. Si tienes desbordamiento, resume la conversación y reinicia desde el resumen.
- 4Si nunca te acercas al límite, aumenta lentamente la context window y vuelve a probar.
- 5Encuentra la context window "del tamaño correcto" para tu modelo, hardware y tareas.
Errores comunes con las context windows
- "El modelo recuerda todos mis chats anteriores." No. Cada nueva conversación comienza con cero contexto de chats anteriores. Incluso dentro de un chat, una vez que tu intercambio supera la context window, se pierde.
- "Solo pegaré el mismo contexto largo en cada turno." Esto desperdicia tokens y no ayuda — el modelo sigue sin poder razonar eficazmente sobre 300 páginas. En su lugar, resume y haz referencia al resumen.
- "Mezclaré cinco proyectos diferentes en una conversación larga." Cada proyecto compite por tokens. Cuando el contexto se llena, los detalles se truncan. Usa conversaciones separadas por proyecto.
- "La IA es mala razonando — debe ser la temperature o el top-p." Quizás. Pero primero comprueba la context window. Si el modelo ya no ve la restricción original, no es un problema de parámetros; es información faltante.
- "Maximizaré la context window en mi LLM local." Entonces te quedas sin VRAM, el proceso falla y la inferencia revierte al modo CPU lento. Ajusta el contexto para que coincida con tu hardware.
- "La aplicación me advirtió del desbordamiento, pero lo envié de todas formas." Confía en la advertencia. El desbordamiento provoca truncación silenciosa, alucinaciones ocultas y tokens desperdiciados. Resume primero.
FAQ
¿El modelo recuerda mis chats anteriores?
No. Cada nueva sesión de conversación comienza con cero historial. El modelo solo ve los tokens dentro de la context window actual. Si quieres hacer referencia a un chat anterior, debes copiar las partes relevantes en la conversación actual.
¿Por qué la IA ignoró una instrucción que di hace 20 mensajes?
Esa instrucción probablemente cayó fuera de la context window. El modelo ya no la ve, por lo que no puede seguirla. Solución: Repite las instrucciones críticas en tu prompt del sistema o pide al modelo que las recapitule y reinserte a mitad de la conversación.
¿Una context window más grande es siempre mejor?
No. Una ventana más grande te permite incluir más contenido, pero también aumenta el costo (más tokens a procesar) y, para los modelos locales, el uso de VRAM. Elige una context window que coincida con tu tarea: 4k para preguntas y respuestas simples, 32k para conversaciones largas, 128k+ para análisis de documentos. Más grande no es "mejor" — *apropiado* es mejor.
¿Cómo sé cuándo he alcanzado el límite de contexto?
Las respuestas del modelo cambian de tono, contradicen instrucciones anteriores o pierden el rastro de detalles que estableciste antes. Usa la verificación de desbordamiento de contexto de PromptQuorum antes de enviar — te avisa cuando te estás acercando al límite.
¿Cómo afecta el tamaño de la context window a la VRAM en los modelos locales?
Un modelo 7B (cuantización Q4_K_M) necesita ~5 GB de VRAM a 4k de contexto, ~8–10 GB a 32k y ~12–14 GB a 128k. El aumento no es estrictamente lineal. Consulta la calculadora de VRAM de PromptQuorum para conocer el límite de tu hardware.
¿Pueden herramientas como PromptQuorum prevenir el desbordamiento de contexto?
Sí. PromptQuorum verifica el recuento de tokens de tu prompt, tu context window configurada y el límite real de tu modelo, y luego te avisa antes de enviar si el desbordamiento es probable. Entonces puedes recortar o resumir antes de continuar.
¿Los diferentes modelos manejan el contexto largo de manera diferente?
Sí. Claude Opus 4.7 mantiene bien el enfoque en 200k tokens — con Extended Thinking hasta 1M. GPT-4o es sólido a 128k. Los modelos más pequeños (por ejemplo, LLaMA 3.1 7B) a veces pierden la coherencia del razonamiento más allá de 8k–16k, incluso si su context window es técnicamente más grande. El enfoque más seguro: prueba tu modelo y tarea específicos.
Lecturas relacionadas
- Los 5 bloques de construcción de todo prompt — cómo estructurar los prompts antes de que el contexto se convierta en una restricción
- Alucinaciones de la IA: por qué la IA inventa cosas — por qué la falta de contexto aumenta el riesgo de alucinación
- RAG explicado: cómo anclar las respuestas de la IA en datos reales — cómo manejar conjuntos de documentos muy grandes con recuperación en lugar de contexto bruto
Fuentes
- OpenAI, 2026. "API reference: Models and context windows" — documentación oficial sobre límites de tokens y precios por modelo
- Anthropic, 2026. "Claude model context windows and token costs" — context windows de Claude y descripción general del modelo actual
- Raffel et al., 2020. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" — investigación fundamental sobre los efectos de la context window en los transformers