Q4_K_M vs Q8_0: ¿cuál elegir?
Respuesta rápida
Usa Q4_K_M con 8 GB de VRAM o menos. Usa Q8_0 con 12+ GB. Q4_K_M ofrece el 95% de la calidad de Q8_0 aproximadamente a la mitad del tamaño de archivo.
- ▸Q4_K_M: ~5–6 GB para modelos 7B, ideal para 8 GB de VRAM
- ▸Q8_0: ~8–9 GB para modelos 7B, necesita 12+ GB de VRAM
- ▸La diferencia de calidad es inferior al 5% en uso real
Actualizado: 2026-05
Puntos clave
- ✓8 GB de VRAM o menos: usa Q4_K_M — ofrece el 95% de la calidad de Q8_0 aproximadamente a la mitad del tamaño de archivo
- ✓12+ GB de VRAM: Q8_0 vale la pena para calidad casi de plena precisión sin penalización de velocidad
- ✓Para la mayoría de usuarios que usan Ollama a diario, Q4_K_M es la elección correcta
El veredicto rápido
A mayo de 2026, Q8_0 es ~99% de la calidad de plena precisión. Q4_K_M es ~92%. La diferencia de 7 puntos es invisible en chat, programación y resúmenes — tres tareas que cubren el 95% del uso de LLMs locales. Q8_0 solo aventaja en recuperación factual de documentos largos, matemáticas de múltiples pasos y código que requiere sintaxis exacta en más de 500 líneas.
Q4_K_M es la opción predeterminada correcta porque la calidad extra de Q8_0 solo aparece en casos extremos: generación larga con recuperación factual exacta, o razonamiento matemático que requiere mayor precisión. Para todo lo demás, Q4_K_M iguala a Q8_0 en la práctica.
Si ya usas Q4_K_M y los resultados parecen incorrectos, el problema casi nunca es la cuantización — es el tamaño del modelo o la estructura del prompt.
Comparación lado a lado
La tabla siguiente compara Q4_K_M y Q8_0 para un modelo 7B. Ambos formatos funcionan con Ollama, LM Studio y llama.cpp sin configuración especial.
Para entender Q4_K_M y cómo funciona la compresión k-quant, consulta la guía explicativa de Q4_K_M. Para la referencia completa de cuantización, consulta niveles de cuantización comparados.
Tres tareas revelan la brecha de calidad de Q4_K_M: recuperación de documentos largos (50+ páginas), matemáticas de múltiples pasos con estado intermedio, y generación de código en más de 300 líneas. Para estos casos, la precisión extra de Q8_0 previene los pequeños errores de deriva que se acumulan en salidas largas. Para todo lo demás — chat, código de menos de 200 líneas, preguntas y respuestas, resúmenes — la brecha es invisible. Para un repaso antes de decidir, consulta qué significa Q4_K_M.
| Métrica | Q4_K_M | Q8_0 |
|---|---|---|
| Tamaño de archivo (modelo 7B) | ~4,1 GB | ~7,7 GB |
| VRAM necesaria (7B) | 5–6 GB | 8–9 GB |
| Calidad vs plena precisión | ~92% | ~99% |
| Mejor para | 6–8 GB VRAM | 12+ GB VRAM |
Respuestas rápidas sobre Q4_K_M vs Q8_0
¿Es Q8_0 notablemente mejor que Q4_K_M?▾
¿Es Q8_0 más rápido que Q4_K_M?▾
¿Puedo alternar entre Q4_K_M y Q8_0 para diferentes tareas?▾
ollama pull llama3:8b-q4_K_M y ollama pull llama3:8b-q8_0 son descargas separadas. Cambias especificando la etiqueta en ollama run.