¿Qué es la cuantización Q4_K_M?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

Q4_K_M significa cuantización de 4 bits con compresión k-quant (K) a calidad media (M). Es la mejor opción por defecto para la mayoría de modelos: mejor calidad que Q4_0, menor tamaño que Q8_0.

▸Q = cuantizado, 4 = 4 bits, K = k-quant, M = medio
▸Mejor calidad que Q4_0 al mismo tamaño de archivo
▸Usa Q4_K_M como cuantización predeterminada

Actualizado: 31 de mayo de 2026

Quantization & VRAM

Puntos clave

✓Q4_K_M = cuantización de 4 bits con compresión k-quant a calidad media — mejor que Q4_0 al mismo tamaño de archivo
✓Un modelo 7B en Q4_K_M ocupa ~4,1 GB en disco y necesita ~5,5 GB de VRAM para ejecutarse
✓Usa Q4_K_M como predeterminado — ofrece la mejor relación calidad/GB para la mayoría de presupuestos de VRAM

Qué significa cada letra de Q4_K_M

A mayo de 2026, Q4_K_M existe porque los formatos antiguos de 4 bits (Q4_0) perdían demasiada calidad en los pesos críticos. La compresión k-quant resuelve esto asignando más bits a los pesos que más afectan a la salida, y menos bits a los de menor impacto. Resultado: 5–8% más calidad que Q4_0 al mismo tamaño de archivo.

La "K" es el diferenciador clave. La compresión k-quant aplica una asignación de bits no uniforme — los pesos críticos reciben más bits, los menos importantes reciben menos. Esto recupera 5–8% de calidad respecto al antiguo formato Q4_0 al mismo tamaño de archivo.

La "M" es el ajuste de calidad dentro de k-quant. Q4_K_S (small) es ligeramente más pequeño con menor calidad. Q4_K_M (medium) es el mejor equilibrio. Q4_K_L (large) es marginalmente mejor pero rara vez justifica el tamaño extra.

K-quant funciona agrupando pesos y asignando bits según su importancia. Los clusters de mayor importancia reciben 6 bits por peso. Los de nivel medio reciben 4 bits. Los de baja importancia reciben 3 bits. El nivel "M" promedia 4,5 bits por peso en todo el modelo — esto explica por qué Q4_K_M se sitúa entre Q4_K_S y Q5_K_M en tamaño y calidad. Para cuando el nivel M no es suficiente, consulta Q4_K_M vs Q8_0.

Cómo se compara Q4_K_M con otras cuantizaciones

La tabla siguiente muestra los compromisos para un modelo 7B. La calidad es relativa al baseline de plena precisión Q8_0. A menos que tengas 12+ GB de VRAM, Q4_K_M ofrece la mejor relación calidad/GB.

Para una comparación directa de Q4_K_M vs Q8_0, consulta la guía de decisión Q4_K_M vs Q8_0. Para la referencia completa de cuantización, consulta la comparación de niveles de cuantización.

Formato	Tamaño de archivo (7B)	Calidad vs Q8_0
Q4_0	3,8 GB	Base (~87%)
Q4_K_M	4,1 GB	~92% (+5%)
Q5_K_M	5,0 GB	~95% (+3%)
Q8_0	7,7 GB	100% (referencia)

Respuestas rápidas sobre cuantización

¿Es Q4_K_M lo mismo que Q4_0?▾

No. Q4_K_M usa compresión k-quant que recupera 5–8% de calidad sobre Q4_0 a la misma profundidad de bits. Siempre prefiere Q4_K_M sobre Q4_0. Consulta la guía Q4_K_M vs Q8_0 para saber cuándo subir de nivel.

¿Qué cuantización debo usar con 8 GB de VRAM?▾

Q4_K_M para modelos 7B (5,5 GB VRAM). Si quieres mejor calidad y tienes margen, Q5_K_M usa 6,5 GB y añade ~3% de calidad. Ambas caben cómodamente en 8 GB.

¿Qué significa la 'M' en Q4_K_M?▾

Medium (medio) — se refiere al nivel de calidad dentro de la compresión k-quant. Q4_K_S es la variante pequeña (menor calidad), Q4_K_M es medium (recomendada), y Q4_K_L es large (mejora marginal respecto a M).

¿Qué modelos en Ollama usan Q4_K_M por defecto?▾

La mayoría — Llama 3, Mistral, Qwen, Phi y Gemma usan etiquetas Q4_K_M por defecto. Especifica :q5_K_M o :q8_0 en la etiqueta del modelo para cambiar la cuantización.

← Volver a Prompts en breve