Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/Q4 vs Q5 vs Q8: qual nível de quantização você deve usar?
Models by Use Case

Q4 vs Q5 vs Q8: qual nível de quantização você deve usar?

·8 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

O Q4 (4 bits) é o ponto ideal: 87% de economia de VRAM com perda de qualidade imperceptível. A partir de junho de 2026, o Q5 é desnecessário (só 5% mais de qualidade, mesmo custo de VRAM do Q4), e o Q8 é para perfeccionistas com VRAM de sobra.

O Q4 (4 bits) é o ponto ideal: 87% de economia de VRAM com perda de qualidade imperceptível. A partir de junho de 2026, o Q5 é desnecessário (só 5% mais de qualidade, mesmo custo de VRAM do Q4), e o Q8 é para perfeccionistas com VRAM de sobra. O FP32 (precisão completa) nunca é necessário para a inferência em hardware de consumo.

Slide Deck: Q4 vs Q5 vs Q8: qual nível de quantização você deve usar?

A apresentação abaixo cobre: por que a quantização de LLM comprime modelos (redução de precisão de 16 bits para Q4/Q8), economia de VRAM entre os níveis Q2–Q8 (70 GB para Q4 vs 280 GB para FP32), benchmarks de perda de qualidade (Q4 preserva 99% da precisão, 1.2% de perda), e quando usar cada nível conforme o hardware (8 GB → Q3/Q4, 16 GB → Q4_K_M, 32 GB+ → Q5/Q8). Baixe o PDF como cartão de referência de níveis de quantização.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • Q4 (4 bits): 87.5% de economia de VRAM, ~1% de perda de qualidade. Use para tudo.
  • Q5 (5 bits): 84% de economia de VRAM, ~0.5% de perda de qualidade. Nunca necessário; Q4 + Q8 enquadram o Q5.
  • Q8 (8 bits): 50% de economia de VRAM, <0.1% de perda de qualidade. Para perfeccionistas com VRAM de sobra.
  • FP32 (32 bits): Precisão completa, 0% de perda, 0% de economia. Pouco prático; descarte.
  • Velocidade: Todas as quantizações funcionam a tokens/seg idênticos (limitadas por memória, não por processamento).
  • Uso de VRAM (modelo Llama 70B): FP32=280 GB, Q8=140 GB, Q5=88 GB, Q4=70 GB.
  • Recomendação: Use Q4 para 7B–70B. Use Q8 só se você tiver 32 GB+ de VRAM e precisar de qualidade impecável.
  • Ninguém usa Q5 porque Q4 + pequena melhora = melhor que Q5 + mesmo hardware.

Dados rápidos

  • Economia de VRAM com Q4: 87.5% vs FP32 (70 GB para o Llama 3 70B)
  • Perda de qualidade do Q4: <1.2% no benchmark MMLU
  • Economia de VRAM com Q8: 50% vs FP32 (140 GB para o Llama 3 70B)
  • Diferença de velocidade: 0% — todas as quantizações funcionam a tokens/seg idênticos
  • Veredito do Q5: Zona morta — Q4 + modelo maior = melhor resultado com a mesma VRAM

Níveis de quantização comparados: Q2 a Q8

QuantizaçãoUso de RAMVelocidadeQualidadeIdeal para
Q2Muito baixoMuito rápidaRuimExperimentos
Q3BaixoRápidaBaixaDispositivos pequenos
Q4MédioRápidaBoaA maioria dos usuários
Q5Médio+MédiaMuito boaProgramação
Q6AltoMais lentaExcelenteFoco em precisão
Q8Muito altoLentaQuase FP16Benchmarking
Economia de VRAM por nível de quantização: FP32 = 280 GB, Q8 = 140 GB (50% de economia), Q4 = 70 GB (75% de economia), Q3 = 53 GB (81% de economia). O Q4 é o ponto ideal para a maioria dos usuários.
Economia de VRAM por nível de quantização: FP32 = 280 GB, Q8 = 140 GB (50% de economia), Q4 = 70 GB (75% de economia), Q3 = 53 GB (81% de economia). O Q4 é o ponto ideal para a maioria dos usuários.

Melhor nível de quantização por caso de uso

  • 8 GB de RAM: Q3 ou Q4 (apenas modelos pequenos de 7B)
  • 16 GB de RAM: Q4_K_M (recomendado para a maioria dos notebooks)
  • 32 GB de RAM: Q5, Q6 ou Q8 (modelos maiores, maior qualidade)
  • Precisão máxima: Q8 (quando a VRAM não é uma restrição)
Guia de seleção de hardware: 8 GB de RAM → Q3/Q4 (modelos 7B), 16 GB → Q4_K_M (recomendado), 32 GB+ → Q5/Q6/Q8 (modelos maiores, maior qualidade), 64 GB+ → Q8 ou FP32 (pesquisa/médico).
Guia de seleção de hardware: 8 GB de RAM → Q3/Q4 (modelos 7B), 16 GB → Q4_K_M (recomendado), 32 GB+ → Q5/Q6/Q8 (modelos maiores, maior qualidade), 64 GB+ → Q8 ou FP32 (pesquisa/médico).

Como a quantização afeta a VRAM e a velocidade?

Cálculo de VRAM: Tamanho do modelo (GB) × fator de quantização.

Llama 3 70B:

  • FP32: 70B × 4 bytes = 280 GB (impraticável)
  • Q8: 70B × 1 byte = 140 GB (exige 140 GB de VRAM)
  • Q4: 70B × 0.5 bytes = 70 GB (cabe na RTX 4090 + algum overhead)

Velocidade: Todas as quantizações são limitadas por memória (esperando a DRAM), não por processamento.

Os tokens/seg são idênticos entre Q2 e FP32 no mesmo hardware.

A largura de banda da VRAM, não o processamento, é o gargalo. A quantização economiza VRAM, não tempo.

Perda de qualidade por nível: resultados do benchmark MMLU

Medido no benchmark MMLU (conhecimento geral, 57 tarefas):

  • Llama 3 70B FP32 referência: 85.2% de precisão.
  • Llama 3 70B Q8: 85.1% de precisão (-0.1% de perda).
  • Llama 3 70B Q5: 84.7% de precisão (-0.5% de perda).
  • Llama 3 70B Q4: 84.0% de precisão (-1.2% de perda).
  • Llama 3 70B Q3: 81.5% de precisão (-3.7% de perda).
  • Impacto real: Q4 vs Q8 = 1–2% menos respostas corretas a cada 100 perguntas.
  • Para chat/escrita: diferença imperceptível. Para problemas STEM: o Q8 é mais seguro.
Benchmarks de perda de qualidade: Q8 = -0.1% de perda, Q5 = -0.5% de perda, Q4 = -1.2% de perda, Q3 = -3.7% de perda no MMLU. A perda de qualidade do Q4 é imperceptível para a maioria das tarefas.
Benchmarks de perda de qualidade: Q8 = -0.1% de perda, Q5 = -0.5% de perda, Q4 = -1.2% de perda, Q3 = -3.7% de perda no MMLU. A perda de qualidade do Q4 é imperceptível para a maioria das tarefas.

Quando usar cada nível?

Q4: Padrão. Use para todos os modelos. Melhor equilíbrio entre compressão e qualidade.

Q5: Nunca. É desperdício. Se você precisa da qualidade do Q5, use Q4 com um modelo um pouco maior. Se você tem a VRAM do Q5 (88 GB), use Q4 no 70B no lugar.

Q8: Só se você tiver 32 GB+ de VRAM E o modelo for <70B E você precisar de precisão perfeita (pesquisa, uso médico).

Q3: Ajuste de orçamento. Uma perda de qualidade de 3% é aceitável? Use Q3. Caso contrário, faça upgrade da GPU ou use um modelo menor.

Q2: Desespero. A perda de qualidade é alta demais para a maioria. Use só se o Q3 causar erros de falta de memória.

Por que o Q4 é o padrão da indústria?

O Q4 é ideal porque:

1. 87.5% de economia de VRAM (melhor ratio).

2. <1.2% de perda de qualidade (imperceptível para os usuários).

3. Sem penalidade de velocidade (limitado por memória, não por processamento).

4. Cabe em hardware de consumo (70B na RTX 4090 24 GB).

5. Padrão da indústria (HuggingFace, Ollama usam Q4 por padrão).

Todo modelo lançado após 2024 inclui uma variante Q4 para uso em produção.

Se um modelo só tem FP32/Q8/Q5, o projeto não está pronto para produção.

Equívocos comuns

  • O Q4 parece "baixa qualidade" porque 4 bits parece pouco. Falso. Uma perda de qualidade de 1% é imperceptível.
  • A quantização deixa a inferência mais lenta. Falso. A velocidade é idêntica (limitada por memória, não por processamento).
  • Eu deveria usar Q8 para garantir. Falso. O Q4 é testado, seguro e é o padrão. O Q8 é desperdício.
  • Preciso de FP32 para precisão. Falso. Nunca é verdade. O Q8 é suficiente até para pesquisa.

Perguntas frequentes

O que é a quantização de LLM?

A quantização comprime um modelo reduzindo a precisão numérica, o que reduz o uso de memória e aumenta a velocidade.

Qual é o melhor nível de quantização?

O Q4_K_M é o melhor padrão para a maioria dos usuários, equilibrando desempenho e qualidade.

A quantização reduz a precisão?

Sim, mas o Q4–Q5 preserva a maior parte da qualidade do modelo enquanto reduz significativamente os requisitos de memória.

Vale a pena o Q8?

Só se você precisar de precisão máxima e tiver RAM suficiente. A maioria dos usuários não se beneficiará do Q8.

Devo usar Q4 ou Q8 para geração de código?

Q4. A velocidade é idêntica, a diferença de qualidade é de 1%, imperceptível para a geração de código.

Posso usar Q3 se eu tiver pouca VRAM?

Sim. Uma perda de qualidade de 3% é aceitável para chat/escrita criativa. Inaceitável para raciocínio/matemática.

Existe Q6 ou Q7?

Q6 é um nível GGUF padrão. Q6_K (~6,6 bits) é quase sem perdas: Q6 vs Q8 é quase empate em qualidade e o Q6 é menor, e Q4 vs Q6 favorece o Q6 em qualidade (Q4 vence em tamanho e VRAM). Q7 não é padrão. Escala típica: Q4_K_M (melhor equilíbrio), Q5_K_M, Q6_K (próximo do Q8), Q8_0 (quase sem perdas).

Qual quantização é mais rápida?

Todas têm velocidade idêntica (limitadas por memória). O Q2 é um pouco mais rápido por causa da menor transferência de memória, mas a diferença é <5%.

Posso desquantizar o Q4 de volta para FP32?

Não, os dados se perdem. A interpolação Q4 → FP32 não restaura o original. A quantização é irreversível.

Devo quantizar meu modelo ajustado?

Sim, depois do treinamento. Quantize os pesos treinados para Q4 para a implantação.

O que significa GGUF Q4_K_M?

O Q4_K_M é uma variante refinada do Q4 que usa K-quants (precisão mista). O algoritmo K preserva mais precisão nas camadas de atenção. O Q4_K_M é o download recomendado no HuggingFace para a maioria dos modelos: efetivamente Q4 com ~0.3% mais de precisão ao mesmo custo de VRAM.

A quantização afeta o comprimento do contexto?

Não. A quantização comprime os pesos do modelo, não a janela de contexto. Um modelo Q4 tem o mesmo comprimento máximo de contexto (por exemplo, 128k tokens) que a sua versão FP32. A memória de contexto (cache KV) é uma preocupação separada da quantização.

Leituras relacionadas

Fontes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Q4 vs Q5 vs Q8 2026: melhor quantização LLM para velocidade