Skip to main content
PromptQuorumPromptQuorum

¿Qué es la cuantización Q4_K_M?

Respuesta rápida

Q4_K_M significa cuantización de 4 bits con compresión k-quant (K) a calidad media (M). Es la mejor opción por defecto para la mayoría de modelos: mejor calidad que Q4_0, menor tamaño que Q8_0.

  • Q = cuantizado, 4 = 4 bits, K = k-quant, M = medio
  • Mejor calidad que Q4_0 al mismo tamaño de archivo
  • Usa Q4_K_M como cuantización predeterminada

Actualizado: 2026-05

Quantization & VRAM

Puntos clave

  • Q4_K_M = cuantización de 4 bits con compresión k-quant a calidad media — mejor que Q4_0 al mismo tamaño de archivo
  • Un modelo 7B en Q4_K_M ocupa ~4,1 GB en disco y necesita ~5,5 GB de VRAM para ejecutarse
  • Usa Q4_K_M como predeterminado — ofrece la mejor relación calidad/GB para la mayoría de presupuestos de VRAM

Qué significa cada letra de Q4_K_M

A mayo de 2026, Q4_K_M existe porque los formatos antiguos de 4 bits (Q4_0) perdían demasiada calidad en los pesos críticos. La compresión k-quant resuelve esto asignando más bits a los pesos que más afectan a la salida, y menos bits a los de menor impacto. Resultado: 5–8% más calidad que Q4_0 al mismo tamaño de archivo.

La "K" es el diferenciador clave. La compresión k-quant aplica una asignación de bits no uniforme — los pesos críticos reciben más bits, los menos importantes reciben menos. Esto recupera 5–8% de calidad respecto al antiguo formato Q4_0 al mismo tamaño de archivo.

La "M" es el ajuste de calidad dentro de k-quant. Q4_K_S (small) es ligeramente más pequeño con menor calidad. Q4_K_M (medium) es el mejor equilibrio. Q4_K_L (large) es marginalmente mejor pero rara vez justifica el tamaño extra.

K-quant funciona agrupando pesos y asignando bits según su importancia. Los clusters de mayor importancia reciben 6 bits por peso. Los de nivel medio reciben 4 bits. Los de baja importancia reciben 3 bits. El nivel "M" promedia 4,5 bits por peso en todo el modelo — esto explica por qué Q4_K_M se sitúa entre Q4_K_S y Q5_K_M en tamaño y calidad. Para cuando el nivel M no es suficiente, consulta Q4_K_M vs Q8_0.

Cómo se compara Q4_K_M con otras cuantizaciones

La tabla siguiente muestra los compromisos para un modelo 7B. La calidad es relativa al baseline de plena precisión Q8_0. A menos que tengas 12+ GB de VRAM, Q4_K_M ofrece la mejor relación calidad/GB.

Para una comparación directa de Q4_K_M vs Q8_0, consulta la guía de decisión Q4_K_M vs Q8_0. Para la referencia completa de cuantización, consulta la comparación de niveles de cuantización.

FormatoTamaño de archivo (7B)Calidad vs Q8_0
Q4_03,8 GBBase (~87%)
Q4_K_M4,1 GB~92% (+5%)
Q5_K_M5,0 GB~95% (+3%)
Q8_07,7 GB100% (referencia)

Respuestas rápidas sobre cuantización

¿Es Q4_K_M lo mismo que Q4_0?
No. Q4_K_M usa compresión k-quant que recupera 5–8% de calidad sobre Q4_0 a la misma profundidad de bits. Siempre prefiere Q4_K_M sobre Q4_0. Consulta la guía Q4_K_M vs Q8_0 para saber cuándo subir de nivel.
¿Qué cuantización debo usar con 8 GB de VRAM?
Q4_K_M para modelos 7B (5,5 GB VRAM). Si quieres mejor calidad y tienes margen, Q5_K_M usa 6,5 GB y añade ~3% de calidad. Ambas caben cómodamente en 8 GB.
¿Qué significa la 'M' en Q4_K_M?
Medium (medio) — se refiere al nivel de calidad dentro de la compresión k-quant. Q4_K_S es la variante pequeña (menor calidad), Q4_K_M es medium (recomendada), y Q4_K_L es large (mejora marginal respecto a M).
¿Qué modelos en Ollama usan Q4_K_M por defecto?
La mayoría — Llama 3, Mistral, Qwen, Phi y Gemma usan etiquetas Q4_K_M por defecto. Especifica :q5_K_M o :q8_0 en la etiqueta del modelo para cambiar la cuantización.