PromptQuorumPromptQuorum
Accueil/LLMs locaux/Q4 vs Q5 vs Q8 : Quel niveau de quantification utiliser ?
Modèles par cas d'utilisation

Q4 vs Q5 vs Q8 : Quel niveau de quantification utiliser ?

·8 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Q4 (4-bit) est le meilleur compromis : économies de 87 % de VRAM avec perte de qualité imperceptible. En avril 2026, Q5 est inutile (seulement 5 % de meilleure qualité, même coût VRAM que Q4), et Q8 convient aux perfectionnistes disposant de VRAM excédentaire.

Q4 (4-bit) est le meilleur compromis : économies de 87 % de VRAM avec perte de qualité imperceptible. En avril 2026, Q5 est inutile (seulement 5 % de meilleure qualité, même coût VRAM que Q4), et Q8 convient aux perfectionnistes disposant de VRAM excédentaire. FP32 (précision complète) n'est jamais nécessaire pour l'inférence sur matériel grand public.

Présentation: Q4 vs Q5 vs Q8 : Quel niveau de quantification utiliser ?

Le diaporama ci-dessous couvre : pourquoi la quantification LLM compresse les modèles (réduction de la précision de 16-bit à Q4/Q8), économies VRAM entre niveaux Q2–Q8 (70 Go pour Q4 vs 280 Go pour FP32), benchmarks de perte de qualité (Q4 conserve 99 % de précision, perte de 1.2 %), et quand utiliser chaque niveau selon le matériel (8 Go → Q3/Q4, 16 Go → Q4_K_M, 32 Go+ → Q5/Q8). Téléchargez le PDF comme carte de référence des niveaux de quantification.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Q4 (4-bit) : 87.5 % économies VRAM, ~1 % perte de qualité. Utilisez ceci pour tout.
  • Q5 (5-bit) : 84 % économies VRAM, ~0.5 % perte de qualité. Jamais nécessaire ; Q4 + Q8 encadrent Q5.
  • Q8 (8-bit) : 50 % économies VRAM, <0.1 % perte de qualité. Pour perfectionnistes avec VRAM excédentaire.
  • FP32 (32-bit) : Précision complète, 0 % perte, 0 % économies. Impractique ; ignorez-le.
  • Vitesse : Tous les niveaux tournent à tokens/sec identiques (limité par mémoire, pas calcul).
  • Utilisation VRAM (modèle 70B Llama) : FP32=280 Go, Q8=140 Go, Q5=88 Go, Q4=70 Go.
  • Recommandation : Utilisez Q4 pour 7B–70B. Utilisez Q8 seulement si 32 Go+ VRAM et qualité impeccable requise.
  • Personne n'utilise Q5 car Q4 + légère hausse = mieux que Q5 + matériel égal.

Faits rapides

  • Économies VRAM Q4 : 87.5 % vs FP32 (70 Go pour Llama 3 70B)
  • Perte de qualité Q4 : <1.2 % sur benchmark MMLU
  • Économies VRAM Q8 : 50 % vs FP32 (140 Go pour Llama 3 70B)
  • Différence de vitesse : 0 % — tous les niveaux tournent à tokens/sec identiques
  • Verdict Q5 : Zone morte — Q4 + modèle plus grand = meilleur résultat à VRAM égal

Niveaux de quantification comparés : Q2 à Q8

QuantificationUtilisation RAMVitesseQualitéMeilleur pour
Q2Très basseTrès rapideMauvaiseExpériences
Q3BasseRapideBassePetits appareils
Q4MoyenneRapideBonnePlupart des utilisateurs
Q5Moyenne+MoyenneTrès bonneCodage
Q6HautePlus lentExcellenteFocus précision
Q8Très hauteLentProche FP16Benchmarking
Économies VRAM par niveau de quantification : FP32 = 280 Go, Q8 = 140 Go (50 % économies), Q4 = 70 Go (75 % économies), Q3 = 53 Go (81 % économies). Q4 est le meilleur compromis pour la plupart.
Économies VRAM par niveau de quantification : FP32 = 280 Go, Q8 = 140 Go (50 % économies), Q4 = 70 Go (75 % économies), Q3 = 53 Go (81 % économies). Q4 est le meilleur compromis pour la plupart.

Meilleur niveau de quantification par cas d'utilisation

  • 8 Go RAM : Q3 ou Q4 (seulement petits modèles 7B)
  • 16 Go RAM : Q4_K_M (recommandé pour la plupart des portables)
  • 32 Go RAM : Q5, Q6 ou Q8 (modèles plus grands, qualité supérieure)
  • Précision maximale : Q8 (quand VRAM n'est pas une contrainte)
Guide de sélection matériel : 8 Go RAM → Q3/Q4 (modèles 7B), 16 Go → Q4_K_M (recommandé), 32+ Go → Q5/Q6/Q8 (modèles plus grands, qualité supérieure), 64+ Go → Q8 ou FP32 (recherche/médical).
Guide de sélection matériel : 8 Go RAM → Q3/Q4 (modèles 7B), 16 Go → Q4_K_M (recommandé), 32+ Go → Q5/Q6/Q8 (modèles plus grands, qualité supérieure), 64+ Go → Q8 ou FP32 (recherche/médical).

Comment la quantification affecte-t-elle VRAM et vitesse ?

Calcul VRAM : Taille du modèle (Go) × facteur de quantification.

Llama 3 70B :

- FP32 : 70B × 4 octets = 280 Go (impractique)

- Q8 : 70B × 1 octet = 140 Go (nécessite 140 Go VRAM)

- Q4 : 70B × 0.5 octet = 70 Go (tient sur RTX 4090 + overhead)

Vitesse : Tous les niveaux sont limités par mémoire (attente DRAM), pas calcul.

Tokens/sec sont identiques entre Q2-FP32 sur matériel égal.

La bande passante VRAM, pas le calcul, est le goulot. La quantification économise VRAM, pas le temps.

Perte de qualité par niveau : résultats benchmark MMLU

Mesuré sur le benchmark MMLU (connaissances générales, 57 tâches) :

  • Llama 3 70B FP32 référence : 85.2 % de précision.
  • Llama 3 70B Q8 : 85.1 % de précision (perte de 0.1 %).
  • Llama 3 70B Q5 : 84.7 % de précision (perte de 0.5 %).
  • Llama 3 70B Q4 : 84.0 % de précision (perte de 1.2 %).
  • Llama 3 70B Q3 : 81.5 % de précision (perte de 3.7 %).
  • Impact réel : Q4 vs Q8 = 1–2 % de réponses moins correctes par 100 questions.
  • Pour chat/écriture : différence imperceptible. Pour problèmes STEM : Q8 plus sûr.
Benchmarks de perte de qualité : Q8 = perte de 0.1 %, Q5 = perte de 0.5 %, Q4 = perte de 1.2 %, Q3 = perte de 3.7 % sur MMLU. La perte de qualité Q4 est imperceptible pour la plupart des tâches.
Benchmarks de perte de qualité : Q8 = perte de 0.1 %, Q5 = perte de 0.5 %, Q4 = perte de 1.2 %, Q3 = perte de 3.7 % sur MMLU. La perte de qualité Q4 est imperceptible pour la plupart des tâches.

Quand utiliser chaque niveau ?

Q4 : Défaut. Utilisez pour tous les modèles. Meilleur équilibre entre compression et qualité.

Q5 : Jamais. Gaspillage. Si vous avez besoin de la qualité Q5, utilisez Q4 avec un modèle légèrement plus grand. Si vous avez la VRAM Q5 (88 Go), utilisez Q4 sur 70B à la place.

Q8 : Seulement si 32+ Go VRAM ET modèle <70B ET vous avez besoin de précision parfaite (recherche, usage médical).

Q3 : Limitation budgétaire. Perte de 3 % acceptable ? Utilisez Q3. Sinon, mettez à jour GPU ou utilisez modèle plus petit.

Q2 : Dernier recours. Perte de qualité trop haute pour la plupart. Utilisez seulement si Q3 cause erreur mémoire.

Pourquoi Q4 est le standard industriel ?

Q4 est optimal car :

1. 87.5 % économies VRAM (meilleur ratio).

2. <1.2 % perte de qualité (imperceptible pour utilisateurs).

3. Pas de pénalité de vitesse (limité mémoire, pas calcul).

4. Tient sur matériel grand public (70B sur RTX 4090 24 Go).

5. Standard industriel (HuggingFace, Ollama par défaut sur Q4).

Chaque modèle publié post-2024 inclut une variante Q4 pour production.

Si un modèle n'a que FP32/Q8/Q5, le projet n'est pas prêt pour production.

Idées fausses communes

  • Q4 semble "basse qualité" car 4-bit paraît petit. Faux. Perte de 1 % est imperceptible.
  • La quantification rend l'inférence plus lente. Faux. Vitesse identique (limité mémoire, pas calcul).
  • Je dois utiliser Q8 pour être prudent. Faux. Q4 est éprouvé, sûr et standard. Q8 est gaspillage.
  • J'ai besoin de FP32 pour précision. Faux. Jamais vrai. Q8 suffit même pour recherche.

FAQ

Qu'est-ce que la quantification LLM ?

La quantification compresse un modèle en réduisant la précision numérique, réduisant l'utilisation mémoire et augmentant la vitesse.

Quel est le meilleur niveau de quantification ?

Q4_K_M est le meilleur défaut pour la plupart des utilisateurs, équilibrant performance et qualité.

La quantification réduit-elle la précision ?

Oui, mais Q4–Q5 conservent la plupart de la qualité du modèle tout en réduisant considérablement les besoins en mémoire.

Q8 en vaut-il la peine ?

Seulement si vous avez besoin de précision maximale et de RAM suffisante. La plupart des utilisateurs n'en bénéficieront pas.

Dois-je utiliser Q4 ou Q8 pour la génération de code ?

Q4. La vitesse est identique, la différence de qualité est de 1 %, imperceptible pour la génération de code.

Puis-je utiliser Q3 si je manque de VRAM ?

Oui. Une perte de qualité de 3 % est acceptable pour chat/écriture créative. Inacceptable pour raisonnement/mathématiques.

Y a-t-il Q6 ou Q7 ?

Pas de standard. Certains projets implémentent des niveaux personnalisés, mais Q4/Q5/Q8 sont le standard industriel.

Quelle quantification est la plus rapide ?

Toutes vitesses identiques (limité par mémoire). Q2 est légèrement plus rapide du fait de moins de transfert mémoire, mais < 5 %.

Puis-je dédéquantifier Q4 en FP32 ?

Non, données perdues. L'interpolation Q4 → FP32 ne restaure pas l'original. La quantification est irréversible.

Dois-je quantifier mon modèle affiné ?

Oui, après entraînement. Quantifiez les poids entraînés en Q4 pour le déploiement.

Lectures complémentaires

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Q4 vs Q5 vs Q8 : Meilleure quantification LLM pour vitesse, RAM et qualité (2026)