¿Qué es la cuantización Q4_K_M?
Respuesta rápida
Q4_K_M significa cuantización de 4 bits con compresión k-quant (K) a calidad media (M). Es la mejor opción por defecto para la mayoría de modelos: mejor calidad que Q4_0, menor tamaño que Q8_0.
- ▸Q = cuantizado, 4 = 4 bits, K = k-quant, M = medio
- ▸Mejor calidad que Q4_0 al mismo tamaño de archivo
- ▸Usa Q4_K_M como cuantización predeterminada
Actualizado: 2026-05
Puntos clave
- ✓Q4_K_M = cuantización de 4 bits con compresión k-quant a calidad media — mejor que Q4_0 al mismo tamaño de archivo
- ✓Un modelo 7B en Q4_K_M ocupa ~4,1 GB en disco y necesita ~5,5 GB de VRAM para ejecutarse
- ✓Usa Q4_K_M como predeterminado — ofrece la mejor relación calidad/GB para la mayoría de presupuestos de VRAM
Qué significa cada letra de Q4_K_M
A mayo de 2026, Q4_K_M existe porque los formatos antiguos de 4 bits (Q4_0) perdían demasiada calidad en los pesos críticos. La compresión k-quant resuelve esto asignando más bits a los pesos que más afectan a la salida, y menos bits a los de menor impacto. Resultado: 5–8% más calidad que Q4_0 al mismo tamaño de archivo.
La "K" es el diferenciador clave. La compresión k-quant aplica una asignación de bits no uniforme — los pesos críticos reciben más bits, los menos importantes reciben menos. Esto recupera 5–8% de calidad respecto al antiguo formato Q4_0 al mismo tamaño de archivo.
La "M" es el ajuste de calidad dentro de k-quant. Q4_K_S (small) es ligeramente más pequeño con menor calidad. Q4_K_M (medium) es el mejor equilibrio. Q4_K_L (large) es marginalmente mejor pero rara vez justifica el tamaño extra.
K-quant funciona agrupando pesos y asignando bits según su importancia. Los clusters de mayor importancia reciben 6 bits por peso. Los de nivel medio reciben 4 bits. Los de baja importancia reciben 3 bits. El nivel "M" promedia 4,5 bits por peso en todo el modelo — esto explica por qué Q4_K_M se sitúa entre Q4_K_S y Q5_K_M en tamaño y calidad. Para cuando el nivel M no es suficiente, consulta Q4_K_M vs Q8_0.
Cómo se compara Q4_K_M con otras cuantizaciones
La tabla siguiente muestra los compromisos para un modelo 7B. La calidad es relativa al baseline de plena precisión Q8_0. A menos que tengas 12+ GB de VRAM, Q4_K_M ofrece la mejor relación calidad/GB.
Para una comparación directa de Q4_K_M vs Q8_0, consulta la guía de decisión Q4_K_M vs Q8_0. Para la referencia completa de cuantización, consulta la comparación de niveles de cuantización.
| Formato | Tamaño de archivo (7B) | Calidad vs Q8_0 |
|---|---|---|
| Q4_0 | 3,8 GB | Base (~87%) |
| Q4_K_M | 4,1 GB | ~92% (+5%) |
| Q5_K_M | 5,0 GB | ~95% (+3%) |
| Q8_0 | 7,7 GB | 100% (referencia) |
Respuestas rápidas sobre cuantización
¿Es Q4_K_M lo mismo que Q4_0?▾
¿Qué cuantización debo usar con 8 GB de VRAM?▾
¿Qué significa la 'M' en Q4_K_M?▾
¿Qué modelos en Ollama usan Q4_K_M por defecto?▾
:q5_K_M o :q8_0 en la etiqueta del modelo para cambiar la cuantización.