Q4_K_M vs Q8_0: ¿cuál elegir?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

Usa Q4_K_M con 8 GB de VRAM o menos. Usa Q8_0 con 12+ GB. Q4_K_M ofrece el 95% de la calidad de Q8_0 aproximadamente a la mitad del tamaño de archivo.

▸Q4_K_M: ~5–6 GB para modelos 7B, ideal para 8 GB de VRAM
▸Q8_0: ~8–9 GB para modelos 7B, necesita 12+ GB de VRAM
▸La diferencia de calidad es inferior al 5% en uso real

Actualizado: 29 de mayo de 2026

Quantization & VRAM

Puntos clave

✓8 GB de VRAM o menos: usa Q4_K_M — ofrece el 95% de la calidad de Q8_0 aproximadamente a la mitad del tamaño de archivo
✓12+ GB de VRAM: Q8_0 vale la pena para calidad casi de plena precisión sin penalización de velocidad
✓Para la mayoría de usuarios que usan Ollama a diario, Q4_K_M es la elección correcta

El veredicto rápido

A mayo de 2026, Q8_0 es ~99% de la calidad de plena precisión. Q4_K_M es ~92%. La diferencia de 7 puntos es invisible en chat, programación y resúmenes — tres tareas que cubren el 95% del uso de LLMs locales. Q8_0 solo aventaja en recuperación factual de documentos largos, matemáticas de múltiples pasos y código que requiere sintaxis exacta en más de 500 líneas.

Q4_K_M es la opción predeterminada correcta porque la calidad extra de Q8_0 solo aparece en casos extremos: generación larga con recuperación factual exacta, o razonamiento matemático que requiere mayor precisión. Para todo lo demás, Q4_K_M iguala a Q8_0 en la práctica.

Si ya usas Q4_K_M y los resultados parecen incorrectos, el problema casi nunca es la cuantización — es el tamaño del modelo o la estructura del prompt.

Comparación lado a lado

La tabla siguiente compara Q4_K_M y Q8_0 para un modelo 7B. Ambos formatos funcionan con Ollama, LM Studio y llama.cpp sin configuración especial.

Para entender Q4_K_M y cómo funciona la compresión k-quant, consulta la guía explicativa de Q4_K_M. Para la referencia completa de cuantización, consulta niveles de cuantización comparados.

Tres tareas revelan la brecha de calidad de Q4_K_M: recuperación de documentos largos (50+ páginas), matemáticas de múltiples pasos con estado intermedio, y generación de código en más de 300 líneas. Para estos casos, la precisión extra de Q8_0 previene los pequeños errores de deriva que se acumulan en salidas largas. Para todo lo demás — chat, código de menos de 200 líneas, preguntas y respuestas, resúmenes — la brecha es invisible. Para un repaso antes de decidir, consulta qué significa Q4_K_M.

Métrica	Q4_K_M	Q8_0
Tamaño de archivo (modelo 7B)	~4,1 GB	~7,7 GB
VRAM necesaria (7B)	5–6 GB	8–9 GB
Calidad vs plena precisión	~92%	~99%
Mejor para	6–8 GB VRAM	12+ GB VRAM

Respuestas rápidas sobre Q4_K_M vs Q8_0

¿Es Q8_0 notablemente mejor que Q4_K_M?▾

Solo en casos extremos — matemáticas complejas de múltiples pasos, recuperación de citas exactas en documentos largos, o salidas muy largas. Para chat, programación y resúmenes (que cubren el 95% del uso), la mayoría de usuarios no nota la diferencia.

¿Es Q8_0 más rápido que Q4_K_M?▾

No. Q8_0 es más grande y requiere más ancho de banda de memoria, lo que lo hace ligeramente más lento por token que Q4_K_M. Tanto la velocidad como la calidad favorecen a Q4_K_M en configuraciones con VRAM limitada. Consulta qué significa Q4_K_M para la razón subyacente.

¿Puedo alternar entre Q4_K_M y Q8_0 para diferentes tareas?▾

Solo descargando y ejecutando diferentes etiquetas de modelo. En Ollama: ollama pull llama3:8b-q4_K_M y ollama pull llama3:8b-q8_0 son descargas separadas. Cambias especificando la etiqueta en ollama run.

¿Y Q4_K_S — vale la pena usarlo en lugar de Q4_K_M?▾

Q4_K_S ahorra unos 300 MB respecto a Q4_K_M pero ofrece menor calidad. Usa Q4_K_S solo si tu VRAM es muy limitada y Q4_K_M no cabe. En casi todos los casos, Q4_K_M es la mejor elección.

← Volver a Prompts en breve