¿Qué modelos de Ollama admiten contexto de 128K?
Respuesta rápida
Llama 3.1 8B admite contexto de 128K en Ollama. Qwen 2.5 14B alcanza 1M de tokens. Nota: ejecutar el contexto completo aumenta drásticamente la VRAM — una ventana de 128K necesita entre 3 y 4 veces más VRAM que la ventana predeterminada de 4K.
- ▸Llama 3.1 8B: contexto de 128K, ~16 GB de VRAM con contexto completo
- ▸Qwen 2.5 14B: hasta 1M de tokens, 24+ GB de VRAM con contexto completo
- ▸Establece --num-ctx 4096 para uso normal y ahorra VRAM
Actualizado: 2026-05
Puntos clave
- ✓La mayoría de los modelos 7B de Ollama anuncian contexto de 128K pero su calidad se degrada por encima de los 32K tokens
- ✓Llama 3.1 8B y Qwen 2.5 14B son los dos modelos que ofrecen calidad fiable al máximo de 128K
- ✓Una ventana de contexto de 128K puede casi triplicar el uso de VRAM — un modelo 7B Q4 necesita ~15 GB con 128K frente a ~5,5 GB con el valor predeterminado
- ✓Establece <code>--num-ctx 4096</code> para tareas cotidianas; amplía el contexto solo cuando lo necesites
Qué modelos realmente alcanzan 128K
A mayo de 2026, la mayoría de los modelos de Ollama anuncian contexto de 128K, pero pocos ofrecen una calidad de salida útil a esa longitud. El problema es el efecto "perdido en el medio": los modelos entrenados con longitudes típicas de documento tienen dificultades para atender información colocada profundamente en un contexto largo.
Dos modelos mantienen de forma fiable la calidad con el contexto completo de 128K en Ollama: Llama 3.1 8B (entrenado de forma nativa a 128K) y Qwen 2.5 14B (hasta 1M de tokens, aunque las limitaciones de VRAM hacen que 128K sea el límite práctico para el consumidor). Para la mayoría de los demás modelos 7B, la calidad de salida se degrada notablemente por encima de los 32K tokens.
Si tu tarea implica documentos de más de 20.000 palabras, empieza con Llama 3.1 8B. Si necesitas la máxima calidad de contexto largo y tienes 12 GB o más de VRAM, Qwen 2.5 14B es la mejor opción.
El coste de VRAM del contexto largo
Ampliar la ventana de contexto aumenta el uso de VRAM de forma significativa. La KV-cache, que almacena el estado de atención para todos los tokens en contexto, puede añadir tanta VRAM como los propios pesos del modelo con contexto de 128K.
La tabla a continuación muestra cómo escala la VRAM de la KV-cache para un modelo 7B en Q4_K_M. Estas cifras asumen modelos que utilizan grouped query attention (GQA) — los modelos sin GQA usan significativamente más KV-cache.
Para ahorrar VRAM en tareas cotidianas, establece --num-ctx 4096 al ejecutar Ollama. Solo amplía a 32K o 128K cuando tu tarea específica lo requiera. Para la guía completa sobre LLM locales de contexto largo, incluyendo la selección de modelos y la división de RAM, consulta la guía de LLM locales de contexto largo.
| Longitud de contexto | KV-Cache (7B) | VRAM total (7B Q4) |
|---|---|---|
| 4K (predeterminado) | ~0,5 GB | ~5,5 GB |
| 16K | ~1,5 GB | ~6,5 GB |
| 32K | ~3 GB | ~8 GB |
| 128K | ~10 GB | ~15 GB |
Respuestas rápidas sobre los modelos de contexto largo
¿Cómo activo el contexto de 128K en Ollama?▾
--num-ctx 131072 a tu comando de ejecución: ollama run llama3.1:8b --num-ctx 131072. Sin esta opción, Ollama usa de forma predeterminada entre 2048 y 4096 tokens independientemente de la capacidad máxima del modelo.