¿Qué modelos de Ollama admiten contexto de 128K?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

Llama 3.3 8B admite contexto de 128K en Ollama. Qwen 3 14B alcanza 1M de tokens. Nota: ejecutar el contexto completo aumenta drásticamente la VRAM — una ventana de 128K necesita entre 3 y 4 veces más VRAM que la ventana predeterminada de 4K.

▸Llama 3.3 8B: contexto de 128K, ~16 GB de VRAM con contexto completo
▸Qwen 3 14B: hasta 1M de tokens, 24+ GB de VRAM con contexto completo
▸Establece --num-ctx 4096 para uso normal y ahorra VRAM

Actualizado: 2 de junio de 2026

Ollama

Puntos clave

✓La mayoría de los modelos 7B de Ollama anuncian contexto de 128K pero su calidad se degrada por encima de los 32K tokens
✓Llama 3.3 8B y Qwen 3 14B son los dos modelos que ofrecen calidad fiable al máximo de 128K
✓Una ventana de contexto de 128K puede casi triplicar el uso de VRAM — un modelo 7B Q4 necesita ~15 GB con 128K frente a ~5,5 GB con el valor predeterminado
✓Establece <code>--num-ctx 4096</code> para tareas cotidianas; amplía el contexto solo cuando lo necesites

Qué modelos realmente alcanzan 128K

A mayo de 2026, la mayoría de los modelos de Ollama anuncian contexto de 128K, pero pocos ofrecen una calidad de salida útil a esa longitud. El problema es el efecto "perdido en el medio": los modelos entrenados con longitudes típicas de documento tienen dificultades para atender información colocada profundamente en un contexto largo.

Dos modelos mantienen de forma fiable la calidad con el contexto completo de 128K en Ollama: Llama 3.3 8B (entrenado de forma nativa a 128K) y Qwen 3 14B (hasta 1M de tokens, aunque las limitaciones de VRAM hacen que 128K sea el límite práctico para el consumidor). Para la mayoría de los demás modelos 7B, la calidad de salida se degrada notablemente por encima de los 32K tokens.

Si tu tarea implica documentos de más de 20.000 palabras, empieza con Llama 3.3 8B. Si necesitas la máxima calidad de contexto largo y tienes 12 GB o más de VRAM, Qwen 3 14B es la mejor opción.

El coste de VRAM del contexto largo

Ampliar la ventana de contexto aumenta el uso de VRAM de forma significativa. La KV-cache, que almacena el estado de atención para todos los tokens en contexto, puede añadir tanta VRAM como los propios pesos del modelo con contexto de 128K.

La tabla a continuación muestra cómo escala la VRAM de la KV-cache para un modelo 7B en Q4_K_M. Estas cifras asumen modelos que utilizan grouped query attention (GQA) — los modelos sin GQA usan significativamente más KV-cache.

Para ahorrar VRAM en tareas cotidianas, establece --num-ctx 4096 al ejecutar Ollama. Solo amplía a 32K o 128K cuando tu tarea específica lo requiera. Para la guía completa sobre LLM locales de contexto largo, incluyendo la selección de modelos y la división de RAM, consulta la guía de LLM locales de contexto largo.

Longitud de contexto	KV-Cache (7B)	VRAM total (7B Q4)
4K (predeterminado)	~0,5 GB	~5,5 GB
16K	~1,5 GB	~6,5 GB
32K	~3 GB	~8 GB
128K	~10 GB	~15 GB

Respuestas rápidas sobre los modelos de contexto largo

¿Cómo activo el contexto de 128K en Ollama?▾

Añade --num-ctx 131072 a tu comando de ejecución: ollama run llama3.1:8b --num-ctx 131072. Sin esta opción, Ollama usa de forma predeterminada entre 2048 y 4096 tokens independientemente de la capacidad máxima del modelo.

¿Por qué el contexto largo usa tanta VRAM?▾

La KV-cache almacena el estado de atención para cada token en el contexto. Con 128K tokens, esta caché puede ser tan grande como los propios pesos del modelo. Un modelo 7B en Q4 necesita ~5,5 GB para los pesos, pero ~10 GB de KV-cache con contexto de 128K.

¿El contexto de 128K es útil para la codificación?▾

Sí, al trabajar con bases de código grandes. Introducir un repositorio completo o múltiples archivos en el contexto mejora enormemente las tareas de refactorización y razonamiento entre archivos. Para codificación con 128K, Qwen 3 14B es el modelo recomendado.

¿Qué modelo es el mejor para el análisis de documentos largos?▾

Qwen 3 14B en Q4_K_M es la primera opción para documentos largos en Ollama — mantiene mejor la calidad a la longitud de contexto completa que las alternativas 7B. Consulta los modelos de visión de Ollama si también necesitas comprensión de imágenes junto con documentos largos.

← Volver a Prompts en breve