¿Qué es la cuantización de LLM?
La cuantización LLM reduce el tamaño del modelo comprimiendo los pesos de 16 bits a formatos de menor precisión como Q4 o Q8.
- Q2–Q3 → más rápido, calidad más baja
- Q4 → mejor equilibrio (recomendado)
- Q5–Q6 → mayor calidad, más RAM
- Q8 → casi precisión completa, más lento
Key Takeaways
- Q4 (4 bits): 87.5% de ahorro en VRAM, ~1% de pérdida de calidad. Úsalo para todo.
- Q5 (5 bits): 84% de ahorro en VRAM, ~0.5% de pérdida de calidad. Nunca necesario; Q4 + Q8 enmarcan a Q5.
- Q8 (8 bits): 50% de ahorro en VRAM, <0.1% de pérdida de calidad. Para perfeccionistas con VRAM de sobra.
- FP32 (32 bits): Precisión completa, 0% de pérdida, 0% de ahorro. Poco práctico; descártalo.
- Velocidad: Todas las cuantizaciones funcionan a tokens/seg idénticos (limitadas por memoria, no por cómputo).
- Uso de VRAM (modelo Llama 70B): FP32=280 GB, Q8=140 GB, Q5=88 GB, Q4=70 GB.
- Recomendación: Usa Q4 para 7B–70B. Usa Q8 solo si tienes 32 GB+ de VRAM y necesitas calidad impecable.
- Nadie usa Q5 porque Q4 + pequeña mejora = mejor que Q5 + mismo hardware.
Datos rápidos
- Ahorro de VRAM con Q4: 87.5% vs FP32 (70 GB para Llama 3 70B)
- Pérdida de calidad de Q4: <1.2% en el benchmark MMLU
- Ahorro de VRAM con Q8: 50% vs FP32 (140 GB para Llama 3 70B)
- Diferencia de velocidad: 0% — todas las cuantizaciones funcionan a tokens/seg idénticos
- Veredicto de Q5: Zona muerta — Q4 + modelo más grande = mejor resultado con la misma VRAM
Niveles de cuantización comparados: Q2 a Q8
| Cuantización | Uso de RAM | Velocidad | Calidad | Ideal para |
|---|---|---|---|---|
| Q2 | Muy bajo | Muy rápida | Pobre | Experimentos |
| Q3 | Bajo | Rápida | Baja | Dispositivos pequeños |
| Q4 | Medio | Rápida | Buena | La mayoría de usuarios |
| Q5 | Medio+ | Media | Muy buena | Programación |
| Q6 | Alto | Más lenta | Excelente | Enfoque en precisión |
| Q8 | Muy alto | Lenta | Casi FP16 | Benchmarking |
Mejor nivel de cuantización por caso de uso
- 8 GB de RAM: Q3 o Q4 (solo modelos pequeños de 7B)
- 16 GB de RAM: Q4_K_M (recomendado para la mayoría de portátiles)
- 32 GB de RAM: Q5, Q6 o Q8 (modelos más grandes, mayor calidad)
- Precisión máxima: Q8 (cuando la VRAM no es una restricción)
¿Cómo afecta la cuantización a la VRAM y la velocidad?
Cálculo de VRAM: Tamaño del modelo (GB) × factor de cuantización.
Llama 3 70B:
- FP32: 70B × 4 bytes = 280 GB (impracticable)
- Q8: 70B × 1 byte = 140 GB (requiere 140 GB de VRAM)
- Q4: 70B × 0.5 bytes = 70 GB (cabe en RTX 4090 + algo de overhead)
Velocidad: Todas las cuantizaciones están limitadas por memoria (esperando DRAM), no por cómputo.
Los tokens/seg son idénticos entre Q2 y FP32 en el mismo hardware.
El ancho de banda de VRAM, no el cómputo, es el cuello de botella. La cuantización ahorra VRAM, no tiempo.
Pérdida de calidad por nivel: resultados del benchmark MMLU
Medido en el benchmark MMLU (conocimiento general, 57 tareas):
- Llama 3 70B FP32 referencia: 85.2% de precisión.
- Llama 3 70B Q8: 85.1% de precisión (-0.1% de pérdida).
- Llama 3 70B Q5: 84.7% de precisión (-0.5% de pérdida).
- Llama 3 70B Q4: 84.0% de precisión (-1.2% de pérdida).
- Llama 3 70B Q3: 81.5% de precisión (-3.7% de pérdida).
- Impacto real: Q4 vs Q8 = 1–2% menos respuestas correctas de cada 100 preguntas.
- Para chat/escritura: diferencia imperceptible. Para problemas STEM: Q8 es más seguro.
¿Cuándo usar cada nivel?
Q4: Predeterminado. Úsalo para todos los modelos. Mejor equilibrio entre compresión y calidad.
Q5: Nunca. Es un desperdicio. Si necesitas la calidad de Q5, usa Q4 con un modelo ligeramente más grande. Si tienes la VRAM de Q5 (88 GB), usa Q4 en 70B en su lugar.
Q8: Solo si tienes 32 GB+ de VRAM Y el modelo es <70B Y necesitas precisión perfecta (investigación, uso médico).
Q3: Ajuste de presupuesto. ¿3% de pérdida de calidad es aceptable? Usa Q3. De lo contrario, actualiza la GPU o usa un modelo más pequeño.
Q2: Desesperación. La pérdida de calidad es demasiado alta para la mayoría. Úsalo solo si Q3 causa errores de falta de memoria.
¿Por qué Q4 es el estándar de la industria?
Q4 es óptimo porque:
1. 87.5% de ahorro en VRAM (mejor ratio).
2. <1.2% de pérdida de calidad (imperceptible para los usuarios).
3. Sin penalización de velocidad (limitado por memoria, no por cómputo).
4. Cabe en hardware de consumo (70B en RTX 4090 24 GB).
5. Estándar de la industria (HuggingFace, Ollama usan Q4 por defecto).
Cada modelo lanzado tras 2024 incluye una variante Q4 para uso en producción.
Si un modelo solo tiene FP32/Q8/Q5, el proyecto no está listo para producción.
Conceptos erróneos comunes
- Q4 suena a "baja calidad" porque 4 bits parece poco. Falso. Una pérdida de calidad del 1% es imperceptible.
- La cuantización hace la inferencia más lenta. Falso. La velocidad es idéntica (limitada por memoria, no por cómputo).
- Debería usar Q8 para estar seguro. Falso. Q4 está probado, es seguro y es el estándar. Q8 es un desperdicio.
- Necesito FP32 para precisión. Falso. Nunca es cierto. Q8 es suficiente incluso para investigación.
FAQ
¿Qué es la cuantización de LLM?
La cuantización comprime un modelo reduciendo la precisión numérica, lo que reduce el uso de memoria y aumenta la velocidad.
¿Cuál es el mejor nivel de cuantización?
Q4_K_M es el mejor valor predeterminado para la mayoría de los usuarios, equilibrando rendimiento y calidad.
¿La cuantización reduce la precisión?
Sí, pero Q4–Q5 conservan la mayor parte de la calidad del modelo mientras reducen significativamente los requisitos de memoria.
¿Vale la pena Q8?
Solo si necesitas precisión máxima y tienes suficiente RAM. La mayoría de los usuarios no se beneficiarán de Q8.
¿Debo usar Q4 o Q8 para generación de código?
Q4. La velocidad es idéntica, la diferencia de calidad es del 1%, imperceptible para la generación de código.
¿Puedo usar Q3 si tengo poca VRAM?
Sí. Una pérdida de calidad del 3% es aceptable para chat/escritura creativa. Inaceptable para razonamiento/matemáticas.
¿Existe Q6 o Q7?
No hay estándar. Algunos proyectos implementan niveles personalizados, pero Q4/Q5/Q8 son el estándar de la industria.
¿Qué cuantización es más rápida?
Todas tienen velocidad idéntica (limitadas por memoria). Q2 es ligeramente más rápida por menor transferencia de memoria, pero la diferencia es <5%.
¿Puedo descuantizar Q4 de vuelta a FP32?
No, los datos se pierden. La interpolación Q4 → FP32 no restaura el original. La cuantización es irreversible.
¿Debo cuantizar mi modelo ajustado?
Sí, después del entrenamiento. Cuantiza los pesos entrenados a Q4 para el despliegue.
¿Qué significa GGUF Q4_K_M?
Q4_K_M es una variante refinada de Q4 que usa K-quants (precisión mixta). El algoritmo K preserva más precisión en las capas de atención. Q4_K_M es la descarga recomendada en HuggingFace para la mayoría de los modelos: efectivamente Q4 con ~0.3% más de precisión al mismo costo de VRAM.
¿La cuantización afecta la longitud del contexto?
No. La cuantización comprime los pesos del modelo, no la ventana de contexto. Un modelo Q4 tiene la misma longitud máxima de contexto (por ejemplo, 128k tokens) que su versión FP32. La memoria de contexto (caché KV) es una preocupación separada de la cuantización.
Lecturas relacionadas
- Cuantización LLM explicada
- ¿Cuánta VRAM necesitas?
- Mejores GPUs económicas para LLMs locales
- LLMs locales más rápidos para PCs de gama baja
- Guía de hardware para LLM local 2026 — Selección de GPU, niveles de VRAM y benchmarks de inferencia en CPU
- Mejores LLMs locales para programación 2026 — Benchmarks de modelos específicos para programación y comparación de soporte FIM
Fuentes
- Benchmark MMLU — OpenAI Evals — Medición de precisión entre niveles de cuantización Q4/Q8/FP32 en 57 tareas de razonamiento
- Llama 3 Model Card — Meta AI — Especificaciones oficiales de precisión entre niveles de cuantización
- Towards Quantization-Aware Deep Neural Networks (arXiv 2024) — Investigación sobre límites de error de cuantización y metodología K-quant
- La cuantización reduce el tamaño del modelo pero no elimina la variabilidad de salida. El ajuste de parámetros puede compensar la pérdida de precisión: temperatura y top-p explica las estrategias de muestreo.