Skip to main content
PromptQuorumPromptQuorum

¿Mejor cuantización para 6 GB de VRAM: qué nivel cabe?

Respuesta rápida

Q4_K_M es el punto óptimo — los modelos 7B/8B en Q4_K_M usan 4,7–4,9 GB, dejando 1,1 GB para la caché KV. Q5_K_M cabe pero requiere limitar el contexto a 2k tokens. Evita Q6_K y superiores en tarjetas de 6 GB.

  • Llama 3.1 8B / Mistral 7B / Qwen 2.5 7B en Q4_K_M: 4,7–4,9 GB — cabe en 6 GB con contexto 4k
  • Q5_K_M usa ~5,7 GB — cabe, pero limita el contexto a 2k tokens para evitar OOM
  • Los modelos 14B en Q4_K_M necesitan 9,3 GB — ninguna cuantización viable cabe en 6 GB

Actualizado: 2026-05

Quantization & VRAM

Puntos clave

  • Para tarjetas de 6 GB de VRAM (RTX 3060 6 GB, RTX 3050 6 GB, GTX 1660 Ti 6 GB): Q4_K_M es la cuantización correcta para modelos 7B y 8B
  • Q4_K_M deja 1,1 GB libre — suficiente para una caché KV de 4k tokens al tamaño de contexto predeterminado de Ollama de 2048
  • Q5_K_M mejora la perplejidad en ~1 punto pero usa 5,7 GB; reduce `--ctx-size` a 2048 para evitar errores de memoria insuficiente
  • Los modelos 14B (Qwen 2.5 14B, Llama 3.1 13B) requieren 9,3 GB en Q4_K_M — ningún nivel de cuantización los hace viables en 6 GB

Uso de VRAM por nivel de cuantización para modelos 7B/8B en 6 GB

El nivel de cuantización controla directamente cuánta VRAM ocupa un modelo. Para modelos de 7.000 y 8.000 millones de parámetros — la clase más grande que cabe en una GPU de 6 GB — las opciones prácticas van de Q3_K_M a Q5_K_M. Q2_K cabe pero degrada la calidad por debajo de niveles útiles; Q6_K y superiores superan el techo de 6 GB.

Q4_K_M es el valor predeterminado recomendado: un modelo 7B usa aproximadamente 4,7 GB y un modelo 8B usa 4,9 GB en esta cuantización. Esto deja 1,1 GB para la caché KV que Ollama asigna para la ventana de contexto. Con el contexto predeterminado de 2048 tokens, esto es suficiente. Aumentar el contexto a 4096 tokens requiere aproximadamente 0,5 GB adicionales de caché KV en un modelo 7B — aún dentro del presupuesto en la mayoría de tarjetas de 6 GB.

Q5_K_M es el siguiente paso. Un modelo 8B en Q5_K_M usa aproximadamente 5,7 GB, dejando solo 300 MB libres. Esto es suficiente para contextos muy cortos (512–2048 tokens) pero causará errores OOM con conversaciones más largas o prompts de sistema. Usa Q5_K_M solo si mantienes `num_ctx` en 2048 o menos.

CuantizaciónVRAM 7BVRAM 8B¿Cabe en 6 GB?Contexto máx. (aprox.)
Q2_K~2,8 GB~3,0 GB✓ (calidad baja)8k+
Q3_K_M~3,5 GB~3,7 GB✓ (aceptable)8k+
Q4_K_M~4,7 GB~4,9 GB✓ recomendado4k
Q5_K_M~5,5 GB~5,7 GB⚠ justo (solo ctx 2k)2k
Q6_K~6,4 GB~6,6 GB✗ OOM
Q8_0~7,5 GB~7,7 GB✗ OOM

Mejores modelos para ejecutar en Q4_K_M con 6 GB de VRAM

Tres modelos 7B/8B destacan en Q4_K_M en una tarjeta de 6 GB. Qwen 2.5 7B Instruct es el mejor equilibrado — excelente en código (HumanEval ~60%), soporte multilingüe y arquitectura de contexto 128k (aunque operarás a 4k por la VRAM). Ejecútalo con `ollama run qwen2.5:7b`.

Llama 3.1 8B es la opción más rápida. En Q4_K_M funciona a unos 25 tokens por segundo en una RTX 3060 6 GB y maneja chat general y seguimiento de instrucciones de forma fiable. Su puntuación MMLU de 66,6% es inferior a Qwen 2.5 7B, pero la ventaja en velocidad lo convierte en la mejor opción para sesiones interactivas.

Phi-4 Mini (3,8B) es la sorpresa. En Q8_0 ocupa unos 4,1 GB — cómodamente dentro de 6 GB — y supera su clase de tamaño en benchmarks de razonamiento. Úsalo cuando necesites una huella inferior a 5 GB con mejor razonamiento que los modelos 7B más antiguos. Ejecútalo con `ollama run phi4-mini`.

No intentes modelos 14B en 6 GB. Qwen 2.5 14B en Q4_K_M necesita 9,3 GB. Q2_K lo baja a unos 5,5 GB pero la penalidad de perplejidad es severa — el modelo produce salidas notablemente degradadas. Quédate con 7B/8B en Q4_K_M o 3B/4B en Q8_0.

Respuestas rápidas sobre cuantización con 6 GB de VRAM

¿Se puede ejecutar un modelo 14B en 6 GB de VRAM?
No existe ninguna solución viable. Qwen 2.5 14B en Q4_K_M necesita 9,3 GB. Bajarlo a Q2_K lo reduce a unos 5,5 GB, pero la degradación de calidad es severa — las salidas se vuelven notablemente incoherentes. El modelo correcto para 6 GB de VRAM es un modelo 7B u 8B en Q4_K_M.
¿Q4_K_M o Q4_K_S: cuál es mejor para 6 GB de VRAM?
Q4_K_M. La variante Q4_K_S ahorra unos 200 MB respecto a Q4_K_M pero con una mayor penalidad de perplejidad. En una tarjeta de 6 GB, Q4_K_M ya deja 1,1 GB de margen — los 200 MB adicionales de Q4_K_S no son necesarios y el compromiso de calidad no vale la pena.
¿Debo usar Q5_K_M en lugar de Q4_K_M con 6 GB de VRAM?
Solo si limitas estrictamente el contexto a 2k tokens. Q5_K_M mejora la perplejidad en unos 1–1,5 puntos respecto a Q4_K_M, pero usa 5,7 GB en un modelo 8B, dejando solo 300 MB para la caché KV. Establece `num_ctx 2048` en tu Modelfile o en los parámetros de Ollama para evitar OOM a mitad de sesión.
¿Qué ocurre si mi modelo supera los 6 GB de VRAM?
Ollama descarga las capas sobrantes a la RAM de la CPU (usando el layer offloading de llama.cpp). Esto provoca una caída drástica de la velocidad — de ~25 tok/s solo en GPU a ~3–5 tok/s con offloading parcial a CPU. Si ves advertencias de "n_gpu_layers" o los tokens por segundo caen por debajo de 5, tu modelo es demasiado grande para tu VRAM con la cuantización seleccionada.