¿Mejor cuantización para 6 GB de VRAM: qué nivel cabe?
Respuesta rápida
Q4_K_M es el punto óptimo — los modelos 7B/8B en Q4_K_M usan 4,7–4,9 GB, dejando 1,1 GB para la caché KV. Q5_K_M cabe pero requiere limitar el contexto a 2k tokens. Evita Q6_K y superiores en tarjetas de 6 GB.
- ▸Llama 3.1 8B / Mistral 7B / Qwen 2.5 7B en Q4_K_M: 4,7–4,9 GB — cabe en 6 GB con contexto 4k
- ▸Q5_K_M usa ~5,7 GB — cabe, pero limita el contexto a 2k tokens para evitar OOM
- ▸Los modelos 14B en Q4_K_M necesitan 9,3 GB — ninguna cuantización viable cabe en 6 GB
Actualizado: 2026-05
Puntos clave
- ✓Para tarjetas de 6 GB de VRAM (RTX 3060 6 GB, RTX 3050 6 GB, GTX 1660 Ti 6 GB): Q4_K_M es la cuantización correcta para modelos 7B y 8B
- ✓Q4_K_M deja 1,1 GB libre — suficiente para una caché KV de 4k tokens al tamaño de contexto predeterminado de Ollama de 2048
- ✓Q5_K_M mejora la perplejidad en ~1 punto pero usa 5,7 GB; reduce `--ctx-size` a 2048 para evitar errores de memoria insuficiente
- ✓Los modelos 14B (Qwen 2.5 14B, Llama 3.1 13B) requieren 9,3 GB en Q4_K_M — ningún nivel de cuantización los hace viables en 6 GB
Uso de VRAM por nivel de cuantización para modelos 7B/8B en 6 GB
El nivel de cuantización controla directamente cuánta VRAM ocupa un modelo. Para modelos de 7.000 y 8.000 millones de parámetros — la clase más grande que cabe en una GPU de 6 GB — las opciones prácticas van de Q3_K_M a Q5_K_M. Q2_K cabe pero degrada la calidad por debajo de niveles útiles; Q6_K y superiores superan el techo de 6 GB.
Q4_K_M es el valor predeterminado recomendado: un modelo 7B usa aproximadamente 4,7 GB y un modelo 8B usa 4,9 GB en esta cuantización. Esto deja 1,1 GB para la caché KV que Ollama asigna para la ventana de contexto. Con el contexto predeterminado de 2048 tokens, esto es suficiente. Aumentar el contexto a 4096 tokens requiere aproximadamente 0,5 GB adicionales de caché KV en un modelo 7B — aún dentro del presupuesto en la mayoría de tarjetas de 6 GB.
Q5_K_M es el siguiente paso. Un modelo 8B en Q5_K_M usa aproximadamente 5,7 GB, dejando solo 300 MB libres. Esto es suficiente para contextos muy cortos (512–2048 tokens) pero causará errores OOM con conversaciones más largas o prompts de sistema. Usa Q5_K_M solo si mantienes `num_ctx` en 2048 o menos.
| Cuantización | VRAM 7B | VRAM 8B | ¿Cabe en 6 GB? | Contexto máx. (aprox.) |
|---|---|---|---|---|
| Q2_K | ~2,8 GB | ~3,0 GB | ✓ (calidad baja) | 8k+ |
| Q3_K_M | ~3,5 GB | ~3,7 GB | ✓ (aceptable) | 8k+ |
| Q4_K_M | ~4,7 GB | ~4,9 GB | ✓ recomendado | 4k |
| Q5_K_M | ~5,5 GB | ~5,7 GB | ⚠ justo (solo ctx 2k) | 2k |
| Q6_K | ~6,4 GB | ~6,6 GB | ✗ OOM | — |
| Q8_0 | ~7,5 GB | ~7,7 GB | ✗ OOM | — |
Mejores modelos para ejecutar en Q4_K_M con 6 GB de VRAM
Tres modelos 7B/8B destacan en Q4_K_M en una tarjeta de 6 GB. Qwen 2.5 7B Instruct es el mejor equilibrado — excelente en código (HumanEval ~60%), soporte multilingüe y arquitectura de contexto 128k (aunque operarás a 4k por la VRAM). Ejecútalo con `ollama run qwen2.5:7b`.
Llama 3.1 8B es la opción más rápida. En Q4_K_M funciona a unos 25 tokens por segundo en una RTX 3060 6 GB y maneja chat general y seguimiento de instrucciones de forma fiable. Su puntuación MMLU de 66,6% es inferior a Qwen 2.5 7B, pero la ventaja en velocidad lo convierte en la mejor opción para sesiones interactivas.
Phi-4 Mini (3,8B) es la sorpresa. En Q8_0 ocupa unos 4,1 GB — cómodamente dentro de 6 GB — y supera su clase de tamaño en benchmarks de razonamiento. Úsalo cuando necesites una huella inferior a 5 GB con mejor razonamiento que los modelos 7B más antiguos. Ejecútalo con `ollama run phi4-mini`.
No intentes modelos 14B en 6 GB. Qwen 2.5 14B en Q4_K_M necesita 9,3 GB. Q2_K lo baja a unos 5,5 GB pero la penalidad de perplejidad es severa — el modelo produce salidas notablemente degradadas. Quédate con 7B/8B en Q4_K_M o 3B/4B en Q8_0.