Início/LLMs locais/Q4 vs Q5 vs Q8: qual nível de quantização você deve usar?

Models by Use Case

Q4 vs Q5 vs Q8: qual nível de quantização você deve usar?

Last updated: 3 de junho de 2026·8 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

O Q4 (4 bits) é o ponto ideal: 87% de economia de VRAM com perda de qualidade imperceptível. A partir de junho de 2026, o Q5 é desnecessário (só 5% mais de qualidade, mesmo custo de VRAM do Q4), e o Q8 é para perfeccionistas com VRAM de sobra.

O Q4 (4 bits) é o ponto ideal: 87% de economia de VRAM com perda de qualidade imperceptível. A partir de junho de 2026, o Q5 é desnecessário (só 5% mais de qualidade, mesmo custo de VRAM do Q4), e o Q8 é para perfeccionistas com VRAM de sobra. O FP32 (precisão completa) nunca é necessário para a inferência em hardware de consumo.

Slide Deck: Q4 vs Q5 vs Q8: qual nível de quantização você deve usar?

A apresentação abaixo cobre: por que a quantização de LLM comprime modelos (redução de precisão de 16 bits para Q4/Q8), economia de VRAM entre os níveis Q2–Q8 (70 GB para Q4 vs 280 GB para FP32), benchmarks de perda de qualidade (Q4 preserva 99% da precisão, 1.2% de perda), e quando usar cada nível conforme o hardware (8 GB → Q3/Q4, 16 GB → Q4_K_M, 32 GB+ → Q5/Q8). Baixe o PDF como cartão de referência de níveis de quantização.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

O que é a quantização de LLM?

A quantização de LLM reduz o tamanho do modelo comprimindo os pesos de 16 bits para formatos de menor precisão como Q4 ou Q8.

Q2–Q3 → mais rápido, qualidade mais baixa
Q4 → melhor equilíbrio (recomendado)
Q5–Q6 → maior qualidade, mais RAM
Q8 → quase precisão completa, mais lento

Key Takeaways

Q4 (4 bits): 87.5% de economia de VRAM, ~1% de perda de qualidade. Use para tudo.
Q5 (5 bits): 84% de economia de VRAM, ~0.5% de perda de qualidade. Nunca necessário; Q4 + Q8 enquadram o Q5.
Q8 (8 bits): 50% de economia de VRAM, <0.1% de perda de qualidade. Para perfeccionistas com VRAM de sobra.
FP32 (32 bits): Precisão completa, 0% de perda, 0% de economia. Pouco prático; descarte.
Velocidade: Todas as quantizações funcionam a tokens/seg idênticos (limitadas por memória, não por processamento).
Uso de VRAM (modelo Llama 70B): FP32=280 GB, Q8=140 GB, Q5=88 GB, Q4=70 GB.
Recomendação: Use Q4 para 7B–70B. Use Q8 só se você tiver 32 GB+ de VRAM e precisar de qualidade impecável.
Ninguém usa Q5 porque Q4 + pequena melhora = melhor que Q5 + mesmo hardware.

Dados rápidos

Economia de VRAM com Q4: 87.5% vs FP32 (70 GB para o Llama 3 70B)
Perda de qualidade do Q4: <1.2% no benchmark MMLU
Economia de VRAM com Q8: 50% vs FP32 (140 GB para o Llama 3 70B)
Diferença de velocidade: 0% — todas as quantizações funcionam a tokens/seg idênticos
Veredito do Q5: Zona morta — Q4 + modelo maior = melhor resultado com a mesma VRAM

Níveis de quantização comparados: Q2 a Q8

Quantização	Uso de RAM	Velocidade	Qualidade	Ideal para
Q2	Muito baixo	Muito rápida	Ruim	Experimentos
Q3	Baixo	Rápida	Baixa	Dispositivos pequenos
Q4	Médio	Rápida	Boa	A maioria dos usuários
Q5	Médio+	Média	Muito boa	Programação
Q6	Alto	Mais lenta	Excelente	Foco em precisão
Q8	Muito alto	Lenta	Quase FP16	Benchmarking

Economia de VRAM por nível de quantização: FP32 = 280 GB, Q8 = 140 GB (50% de economia), Q4 = 70 GB (75% de economia), Q3 = 53 GB (81% de economia). O Q4 é o ponto ideal para a maioria dos usuários.

Melhor nível de quantização por caso de uso

8 GB de RAM: Q3 ou Q4 (apenas modelos pequenos de 7B)
16 GB de RAM: Q4_K_M (recomendado para a maioria dos notebooks)
32 GB de RAM: Q5, Q6 ou Q8 (modelos maiores, maior qualidade)
Precisão máxima: Q8 (quando a VRAM não é uma restrição)

Guia de seleção de hardware: 8 GB de RAM → Q3/Q4 (modelos 7B), 16 GB → Q4_K_M (recomendado), 32 GB+ → Q5/Q6/Q8 (modelos maiores, maior qualidade), 64 GB+ → Q8 ou FP32 (pesquisa/médico).

Como a quantização afeta a VRAM e a velocidade?

Cálculo de VRAM: Tamanho do modelo (GB) × fator de quantização.

Llama 3 70B:

FP32: 70B × 4 bytes = 280 GB (impraticável)

Q8: 70B × 1 byte = 140 GB (exige 140 GB de VRAM)

Q4: 70B × 0.5 bytes = 70 GB (cabe na RTX 4090 + algum overhead)

Velocidade: Todas as quantizações são limitadas por memória (esperando a DRAM), não por processamento.

Os tokens/seg são idênticos entre Q2 e FP32 no mesmo hardware.

A largura de banda da VRAM, não o processamento, é o gargalo. A quantização economiza VRAM, não tempo.

Perda de qualidade por nível: resultados do benchmark MMLU

Medido no benchmark MMLU (conhecimento geral, 57 tarefas):

Llama 3 70B FP32 referência: 85.2% de precisão.
Llama 3 70B Q8: 85.1% de precisão (-0.1% de perda).
Llama 3 70B Q5: 84.7% de precisão (-0.5% de perda).
Llama 3 70B Q4: 84.0% de precisão (-1.2% de perda).
Llama 3 70B Q3: 81.5% de precisão (-3.7% de perda).
Impacto real: Q4 vs Q8 = 1–2% menos respostas corretas a cada 100 perguntas.
Para chat/escrita: diferença imperceptível. Para problemas STEM: o Q8 é mais seguro.

Benchmarks de perda de qualidade: Q8 = -0.1% de perda, Q5 = -0.5% de perda, Q4 = -1.2% de perda, Q3 = -3.7% de perda no MMLU. A perda de qualidade do Q4 é imperceptível para a maioria das tarefas.

Quando usar cada nível?

Q4: Padrão. Use para todos os modelos. Melhor equilíbrio entre compressão e qualidade.

Q5: Nunca. É desperdício. Se você precisa da qualidade do Q5, use Q4 com um modelo um pouco maior. Se você tem a VRAM do Q5 (88 GB), use Q4 no 70B no lugar.

Q8: Só se você tiver 32 GB+ de VRAM E o modelo for <70B E você precisar de precisão perfeita (pesquisa, uso médico).

Q3: Ajuste de orçamento. Uma perda de qualidade de 3% é aceitável? Use Q3. Caso contrário, faça upgrade da GPU ou use um modelo menor.

Q2: Desespero. A perda de qualidade é alta demais para a maioria. Use só se o Q3 causar erros de falta de memória.

Por que o Q4 é o padrão da indústria?

O Q4 é ideal porque:

1. 87.5% de economia de VRAM (melhor ratio).

2. <1.2% de perda de qualidade (imperceptível para os usuários).

3. Sem penalidade de velocidade (limitado por memória, não por processamento).

4. Cabe em hardware de consumo (70B na RTX 4090 24 GB).

5. Padrão da indústria (HuggingFace, Ollama usam Q4 por padrão).

Todo modelo lançado após 2024 inclui uma variante Q4 para uso em produção.

Se um modelo só tem FP32/Q8/Q5, o projeto não está pronto para produção.

Equívocos comuns

O Q4 parece "baixa qualidade" porque 4 bits parece pouco. Falso. Uma perda de qualidade de 1% é imperceptível.
A quantização deixa a inferência mais lenta. Falso. A velocidade é idêntica (limitada por memória, não por processamento).
Eu deveria usar Q8 para garantir. Falso. O Q4 é testado, seguro e é o padrão. O Q8 é desperdício.
Preciso de FP32 para precisão. Falso. Nunca é verdade. O Q8 é suficiente até para pesquisa.

Perguntas frequentes

O que é a quantização de LLM?

A quantização comprime um modelo reduzindo a precisão numérica, o que reduz o uso de memória e aumenta a velocidade.

Qual é o melhor nível de quantização?

O Q4_K_M é o melhor padrão para a maioria dos usuários, equilibrando desempenho e qualidade.

A quantização reduz a precisão?

Sim, mas o Q4–Q5 preserva a maior parte da qualidade do modelo enquanto reduz significativamente os requisitos de memória.

Vale a pena o Q8?

Só se você precisar de precisão máxima e tiver RAM suficiente. A maioria dos usuários não se beneficiará do Q8.

Devo usar Q4 ou Q8 para geração de código?

Q4. A velocidade é idêntica, a diferença de qualidade é de 1%, imperceptível para a geração de código.

Posso usar Q3 se eu tiver pouca VRAM?

Sim. Uma perda de qualidade de 3% é aceitável para chat/escrita criativa. Inaceitável para raciocínio/matemática.

Existe Q6 ou Q7?

Q6 é um nível GGUF padrão. Q6_K (~6,6 bits) é quase sem perdas: Q6 vs Q8 é quase empate em qualidade e o Q6 é menor, e Q4 vs Q6 favorece o Q6 em qualidade (Q4 vence em tamanho e VRAM). Q7 não é padrão. Escala típica: Q4_K_M (melhor equilíbrio), Q5_K_M, Q6_K (próximo do Q8), Q8_0 (quase sem perdas).

Qual quantização é mais rápida?

Todas têm velocidade idêntica (limitadas por memória). O Q2 é um pouco mais rápido por causa da menor transferência de memória, mas a diferença é <5%.

Posso desquantizar o Q4 de volta para FP32?

Não, os dados se perdem. A interpolação Q4 → FP32 não restaura o original. A quantização é irreversível.

Devo quantizar meu modelo ajustado?

Sim, depois do treinamento. Quantize os pesos treinados para Q4 para a implantação.

O que significa GGUF Q4_K_M?

O Q4_K_M é uma variante refinada do Q4 que usa K-quants (precisão mista). O algoritmo K preserva mais precisão nas camadas de atenção. O Q4_K_M é o download recomendado no HuggingFace para a maioria dos modelos: efetivamente Q4 com ~0.3% mais de precisão ao mesmo custo de VRAM.

A quantização afeta o comprimento do contexto?

Não. A quantização comprime os pesos do modelo, não a janela de contexto. Um modelo Q4 tem o mesmo comprimento máximo de contexto (por exemplo, 128k tokens) que a sua versão FP32. A memória de contexto (cache KV) é uma preocupação separada da quantização.

Leituras relacionadas

Quantização de LLM explicada
Quanta VRAM você precisa?
Melhores GPUs econômicas para LLMs locais
LLMs locais mais rápidos para PCs de entrada
Guia de hardware para LLM local 2026 — Seleção de GPU, níveis de VRAM e benchmarks de inferência em CPU
Melhores LLMs locais para programação 2026 — Benchmarks de modelos específicos para programação e comparação de suporte a FIM

Fontes

Benchmark MMLU — OpenAI Evals — Medição de precisão entre os níveis de quantização Q4/Q8/FP32 em 57 tarefas de raciocínio
Llama 3 Model Card — Meta AI — Especificações oficiais de precisão entre os níveis de quantização
Towards Quantization-Aware Deep Neural Networks (arXiv 2024) — Pesquisa sobre limites de erro de quantização e metodologia K-quant
A quantização reduz o tamanho do modelo, mas não elimina a variabilidade da saída. O ajuste de parâmetros pode compensar a perda de precisão: temperatura e top-p explica as estratégias de amostragem.

Nota sobre informações de terceiros

Este artigo faz referência a modelos de IA, benchmarks, preços e licenças de terceiros. O cenário da IA muda rapidamente. Pontuações de benchmark, termos de licença, nomes de modelos e preços de API podem mudar entre o momento em que foi escrito e quando você está lendo. Antes de tomar decisões de implantação ou conformidade com base neste artigo, verifique os dados atuais na fonte oficial de cada fornecedor: fichas de modelos do Hugging Face para licenças e benchmarks, sites dos fornecedores para preços de API e EUR-Lex para o texto atual do GDPR e da Lei de IA da UE. Este artigo reflete informações publicamente disponíveis em maio de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs