Skip to main content
PromptQuorumPromptQuorum

Q4_K_M vs Q8_0: ¿cuál elegir?

Respuesta rápida

Usa Q4_K_M con 8 GB de VRAM o menos. Usa Q8_0 con 12+ GB. Q4_K_M ofrece el 95% de la calidad de Q8_0 aproximadamente a la mitad del tamaño de archivo.

  • Q4_K_M: ~5–6 GB para modelos 7B, ideal para 8 GB de VRAM
  • Q8_0: ~8–9 GB para modelos 7B, necesita 12+ GB de VRAM
  • La diferencia de calidad es inferior al 5% en uso real

Actualizado: 2026-05

Quantization & VRAM

Puntos clave

  • 8 GB de VRAM o menos: usa Q4_K_M — ofrece el 95% de la calidad de Q8_0 aproximadamente a la mitad del tamaño de archivo
  • 12+ GB de VRAM: Q8_0 vale la pena para calidad casi de plena precisión sin penalización de velocidad
  • Para la mayoría de usuarios que usan Ollama a diario, Q4_K_M es la elección correcta

El veredicto rápido

A mayo de 2026, Q8_0 es ~99% de la calidad de plena precisión. Q4_K_M es ~92%. La diferencia de 7 puntos es invisible en chat, programación y resúmenes — tres tareas que cubren el 95% del uso de LLMs locales. Q8_0 solo aventaja en recuperación factual de documentos largos, matemáticas de múltiples pasos y código que requiere sintaxis exacta en más de 500 líneas.

Q4_K_M es la opción predeterminada correcta porque la calidad extra de Q8_0 solo aparece en casos extremos: generación larga con recuperación factual exacta, o razonamiento matemático que requiere mayor precisión. Para todo lo demás, Q4_K_M iguala a Q8_0 en la práctica.

Si ya usas Q4_K_M y los resultados parecen incorrectos, el problema casi nunca es la cuantización — es el tamaño del modelo o la estructura del prompt.

Comparación lado a lado

La tabla siguiente compara Q4_K_M y Q8_0 para un modelo 7B. Ambos formatos funcionan con Ollama, LM Studio y llama.cpp sin configuración especial.

Para entender Q4_K_M y cómo funciona la compresión k-quant, consulta la guía explicativa de Q4_K_M. Para la referencia completa de cuantización, consulta niveles de cuantización comparados.

Tres tareas revelan la brecha de calidad de Q4_K_M: recuperación de documentos largos (50+ páginas), matemáticas de múltiples pasos con estado intermedio, y generación de código en más de 300 líneas. Para estos casos, la precisión extra de Q8_0 previene los pequeños errores de deriva que se acumulan en salidas largas. Para todo lo demás — chat, código de menos de 200 líneas, preguntas y respuestas, resúmenes — la brecha es invisible. Para un repaso antes de decidir, consulta qué significa Q4_K_M.

MétricaQ4_K_MQ8_0
Tamaño de archivo (modelo 7B)~4,1 GB~7,7 GB
VRAM necesaria (7B)5–6 GB8–9 GB
Calidad vs plena precisión~92%~99%
Mejor para6–8 GB VRAM12+ GB VRAM

Respuestas rápidas sobre Q4_K_M vs Q8_0

¿Es Q8_0 notablemente mejor que Q4_K_M?
Solo en casos extremos — matemáticas complejas de múltiples pasos, recuperación de citas exactas en documentos largos, o salidas muy largas. Para chat, programación y resúmenes (que cubren el 95% del uso), la mayoría de usuarios no nota la diferencia.
¿Es Q8_0 más rápido que Q4_K_M?
No. Q8_0 es más grande y requiere más ancho de banda de memoria, lo que lo hace ligeramente más lento por token que Q4_K_M. Tanto la velocidad como la calidad favorecen a Q4_K_M en configuraciones con VRAM limitada. Consulta qué significa Q4_K_M para la razón subyacente.
¿Puedo alternar entre Q4_K_M y Q8_0 para diferentes tareas?
Solo descargando y ejecutando diferentes etiquetas de modelo. En Ollama: ollama pull llama3:8b-q4_K_M y ollama pull llama3:8b-q8_0 son descargas separadas. Cambias especificando la etiqueta en ollama run.
¿Y Q4_K_S — vale la pena usarlo en lugar de Q4_K_M?
Q4_K_S ahorra unos 300 MB respecto a Q4_K_M pero ofrece menor calidad. Usa Q4_K_S solo si tu VRAM es muy limitada y Q4_K_M no cabe. En casi todos los casos, Q4_K_M es la mejor elección.