Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Q4 vs Q5 vs Q8: ¿Qué nivel de cuantización deberías usar?
Models by Use Case

Q4 vs Q5 vs Q8: ¿Qué nivel de cuantización deberías usar?

·8 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Q4 (4 bits) es el punto óptimo: 87% de ahorro en VRAM con pérdida de calidad imperceptible. A partir de abril de 2026, Q5 es innecesario (solo 5% más de calidad, el mismo costo de VRAM que Q4), y Q8 es para perfeccionistas con VRAM de sobra.

Q4 (4 bits) es el punto óptimo: 87% de ahorro en VRAM con pérdida de calidad imperceptible. A partir de abril de 2026, Q5 es innecesario (solo 5% más de calidad, el mismo costo de VRAM que Q4), y Q8 es para perfeccionistas con VRAM de sobra. FP32 (precisión completa) nunca es necesario para la inferencia en hardware de consumo.

Slide Deck: Q4 vs Q5 vs Q8: ¿Qué nivel de cuantización deberías usar?

La presentación a continuación cubre: por qué la cuantización LLM comprime modelos (reducción de precisión de 16 bits a Q4/Q8), ahorro de VRAM entre niveles Q2–Q8 (70 GB para Q4 vs 280 GB para FP32), benchmarks de pérdida de calidad (Q4 conserva 99% de precisión, 1.2% de pérdida), y cuándo usar cada nivel según el hardware (8 GB → Q3/Q4, 16 GB → Q4_K_M, 32 GB+ → Q5/Q8). Descarga el PDF como tarjeta de referencia de niveles de cuantización.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • Q4 (4 bits): 87.5% de ahorro en VRAM, ~1% de pérdida de calidad. Úsalo para todo.
  • Q5 (5 bits): 84% de ahorro en VRAM, ~0.5% de pérdida de calidad. Nunca necesario; Q4 + Q8 enmarcan a Q5.
  • Q8 (8 bits): 50% de ahorro en VRAM, <0.1% de pérdida de calidad. Para perfeccionistas con VRAM de sobra.
  • FP32 (32 bits): Precisión completa, 0% de pérdida, 0% de ahorro. Poco práctico; descártalo.
  • Velocidad: Todas las cuantizaciones funcionan a tokens/seg idénticos (limitadas por memoria, no por cómputo).
  • Uso de VRAM (modelo Llama 70B): FP32=280 GB, Q8=140 GB, Q5=88 GB, Q4=70 GB.
  • Recomendación: Usa Q4 para 7B–70B. Usa Q8 solo si tienes 32 GB+ de VRAM y necesitas calidad impecable.
  • Nadie usa Q5 porque Q4 + pequeña mejora = mejor que Q5 + mismo hardware.

Datos rápidos

  • Ahorro de VRAM con Q4: 87.5% vs FP32 (70 GB para Llama 3 70B)
  • Pérdida de calidad de Q4: <1.2% en el benchmark MMLU
  • Ahorro de VRAM con Q8: 50% vs FP32 (140 GB para Llama 3 70B)
  • Diferencia de velocidad: 0% — todas las cuantizaciones funcionan a tokens/seg idénticos
  • Veredicto de Q5: Zona muerta — Q4 + modelo más grande = mejor resultado con la misma VRAM

Niveles de cuantización comparados: Q2 a Q8

CuantizaciónUso de RAMVelocidadCalidadIdeal para
Q2Muy bajoMuy rápidaPobreExperimentos
Q3BajoRápidaBajaDispositivos pequeños
Q4MedioRápidaBuenaLa mayoría de usuarios
Q5Medio+MediaMuy buenaProgramación
Q6AltoMás lentaExcelenteEnfoque en precisión
Q8Muy altoLentaCasi FP16Benchmarking
Ahorro de VRAM por nivel de cuantización: FP32 = 280 GB, Q8 = 140 GB (50% de ahorro), Q4 = 70 GB (75% de ahorro), Q3 = 53 GB (81% de ahorro). Q4 es el punto óptimo para la mayoría de los usuarios.
Ahorro de VRAM por nivel de cuantización: FP32 = 280 GB, Q8 = 140 GB (50% de ahorro), Q4 = 70 GB (75% de ahorro), Q3 = 53 GB (81% de ahorro). Q4 es el punto óptimo para la mayoría de los usuarios.

Mejor nivel de cuantización por caso de uso

  • 8 GB de RAM: Q3 o Q4 (solo modelos pequeños de 7B)
  • 16 GB de RAM: Q4_K_M (recomendado para la mayoría de portátiles)
  • 32 GB de RAM: Q5, Q6 o Q8 (modelos más grandes, mayor calidad)
  • Precisión máxima: Q8 (cuando la VRAM no es una restricción)
Guía de selección de hardware: 8 GB de RAM → Q3/Q4 (modelos 7B), 16 GB → Q4_K_M (recomendado), 32 GB+ → Q5/Q6/Q8 (modelos más grandes, mayor calidad), 64 GB+ → Q8 o FP32 (investigación/médico).
Guía de selección de hardware: 8 GB de RAM → Q3/Q4 (modelos 7B), 16 GB → Q4_K_M (recomendado), 32 GB+ → Q5/Q6/Q8 (modelos más grandes, mayor calidad), 64 GB+ → Q8 o FP32 (investigación/médico).

¿Cómo afecta la cuantización a la VRAM y la velocidad?

Cálculo de VRAM: Tamaño del modelo (GB) × factor de cuantización.

Llama 3 70B:

  • FP32: 70B × 4 bytes = 280 GB (impracticable)
  • Q8: 70B × 1 byte = 140 GB (requiere 140 GB de VRAM)
  • Q4: 70B × 0.5 bytes = 70 GB (cabe en RTX 4090 + algo de overhead)

Velocidad: Todas las cuantizaciones están limitadas por memoria (esperando DRAM), no por cómputo.

Los tokens/seg son idénticos entre Q2 y FP32 en el mismo hardware.

El ancho de banda de VRAM, no el cómputo, es el cuello de botella. La cuantización ahorra VRAM, no tiempo.

Pérdida de calidad por nivel: resultados del benchmark MMLU

Medido en el benchmark MMLU (conocimiento general, 57 tareas):

  • Llama 3 70B FP32 referencia: 85.2% de precisión.
  • Llama 3 70B Q8: 85.1% de precisión (-0.1% de pérdida).
  • Llama 3 70B Q5: 84.7% de precisión (-0.5% de pérdida).
  • Llama 3 70B Q4: 84.0% de precisión (-1.2% de pérdida).
  • Llama 3 70B Q3: 81.5% de precisión (-3.7% de pérdida).
  • Impacto real: Q4 vs Q8 = 1–2% menos respuestas correctas de cada 100 preguntas.
  • Para chat/escritura: diferencia imperceptible. Para problemas STEM: Q8 es más seguro.
Benchmarks de pérdida de calidad: Q8 = -0.1% de pérdida, Q5 = -0.5% de pérdida, Q4 = -1.2% de pérdida, Q3 = -3.7% de pérdida en MMLU. La pérdida de calidad de Q4 es imperceptible para la mayoría de las tareas.
Benchmarks de pérdida de calidad: Q8 = -0.1% de pérdida, Q5 = -0.5% de pérdida, Q4 = -1.2% de pérdida, Q3 = -3.7% de pérdida en MMLU. La pérdida de calidad de Q4 es imperceptible para la mayoría de las tareas.

¿Cuándo usar cada nivel?

Q4: Predeterminado. Úsalo para todos los modelos. Mejor equilibrio entre compresión y calidad.

Q5: Nunca. Es un desperdicio. Si necesitas la calidad de Q5, usa Q4 con un modelo ligeramente más grande. Si tienes la VRAM de Q5 (88 GB), usa Q4 en 70B en su lugar.

Q8: Solo si tienes 32 GB+ de VRAM Y el modelo es <70B Y necesitas precisión perfecta (investigación, uso médico).

Q3: Ajuste de presupuesto. ¿3% de pérdida de calidad es aceptable? Usa Q3. De lo contrario, actualiza la GPU o usa un modelo más pequeño.

Q2: Desesperación. La pérdida de calidad es demasiado alta para la mayoría. Úsalo solo si Q3 causa errores de falta de memoria.

¿Por qué Q4 es el estándar de la industria?

Q4 es óptimo porque:

1. 87.5% de ahorro en VRAM (mejor ratio).

2. <1.2% de pérdida de calidad (imperceptible para los usuarios).

3. Sin penalización de velocidad (limitado por memoria, no por cómputo).

4. Cabe en hardware de consumo (70B en RTX 4090 24 GB).

5. Estándar de la industria (HuggingFace, Ollama usan Q4 por defecto).

Cada modelo lanzado tras 2024 incluye una variante Q4 para uso en producción.

Si un modelo solo tiene FP32/Q8/Q5, el proyecto no está listo para producción.

Conceptos erróneos comunes

  • Q4 suena a "baja calidad" porque 4 bits parece poco. Falso. Una pérdida de calidad del 1% es imperceptible.
  • La cuantización hace la inferencia más lenta. Falso. La velocidad es idéntica (limitada por memoria, no por cómputo).
  • Debería usar Q8 para estar seguro. Falso. Q4 está probado, es seguro y es el estándar. Q8 es un desperdicio.
  • Necesito FP32 para precisión. Falso. Nunca es cierto. Q8 es suficiente incluso para investigación.

FAQ

¿Qué es la cuantización de LLM?

La cuantización comprime un modelo reduciendo la precisión numérica, lo que reduce el uso de memoria y aumenta la velocidad.

¿Cuál es el mejor nivel de cuantización?

Q4_K_M es el mejor valor predeterminado para la mayoría de los usuarios, equilibrando rendimiento y calidad.

¿La cuantización reduce la precisión?

Sí, pero Q4–Q5 conservan la mayor parte de la calidad del modelo mientras reducen significativamente los requisitos de memoria.

¿Vale la pena Q8?

Solo si necesitas precisión máxima y tienes suficiente RAM. La mayoría de los usuarios no se beneficiarán de Q8.

¿Debo usar Q4 o Q8 para generación de código?

Q4. La velocidad es idéntica, la diferencia de calidad es del 1%, imperceptible para la generación de código.

¿Puedo usar Q3 si tengo poca VRAM?

Sí. Una pérdida de calidad del 3% es aceptable para chat/escritura creativa. Inaceptable para razonamiento/matemáticas.

¿Existe Q6 o Q7?

No hay estándar. Algunos proyectos implementan niveles personalizados, pero Q4/Q5/Q8 son el estándar de la industria.

¿Qué cuantización es más rápida?

Todas tienen velocidad idéntica (limitadas por memoria). Q2 es ligeramente más rápida por menor transferencia de memoria, pero la diferencia es <5%.

¿Puedo descuantizar Q4 de vuelta a FP32?

No, los datos se pierden. La interpolación Q4 → FP32 no restaura el original. La cuantización es irreversible.

¿Debo cuantizar mi modelo ajustado?

Sí, después del entrenamiento. Cuantiza los pesos entrenados a Q4 para el despliegue.

¿Qué significa GGUF Q4_K_M?

Q4_K_M es una variante refinada de Q4 que usa K-quants (precisión mixta). El algoritmo K preserva más precisión en las capas de atención. Q4_K_M es la descarga recomendada en HuggingFace para la mayoría de los modelos: efectivamente Q4 con ~0.3% más de precisión al mismo costo de VRAM.

¿La cuantización afecta la longitud del contexto?

No. La cuantización comprime los pesos del modelo, no la ventana de contexto. Un modelo Q4 tiene la misma longitud máxima de contexto (por ejemplo, 128k tokens) que su versión FP32. La memoria de contexto (caché KV) es una preocupación separada de la cuantización.

Lecturas relacionadas

Fuentes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Q4 vs Q5 vs Q8: Mejor cuantización LLM para velocidad, RAM y calidad (2026)