Q4 (4-bit) est le meilleur compromis : économies de 87 % de VRAM avec perte de qualité imperceptible. En avril 2026, Q5 est inutile (seulement 5 % de meilleure qualité, même coût VRAM que Q4), et Q8 convient aux perfectionnistes disposant de VRAM excédentaire. FP32 (précision complète) n'est jamais nécessaire pour l'inférence sur matériel grand public.

Qu'est-ce que la quantification LLM ?

La quantification LLM réduit la taille du modèle en compressant les poids de 16-bit à des formats de précision inférieure comme Q4 ou Q8.

Q2–Q3 → plus rapide, qualité la plus basse
Q4 → meilleur équilibre (recommandé)
Q5–Q6 → qualité supérieure, plus de RAM
Q8 → quasi-précision complète, plus lent

Points clés

Q4 (4-bit) : 87.5 % économies VRAM, ~1 % perte de qualité. Utilisez ceci pour tout.
Q5 (5-bit) : 84 % économies VRAM, ~0.5 % perte de qualité. Jamais nécessaire ; Q4 + Q8 encadrent Q5.
Q8 (8-bit) : 50 % économies VRAM, <0.1 % perte de qualité. Pour perfectionnistes avec VRAM excédentaire.
FP32 (32-bit) : Précision complète, 0 % perte, 0 % économies. Impractique ; ignorez-le.
Vitesse : Tous les niveaux tournent à tokens/sec identiques (limité par mémoire, pas calcul).
Utilisation VRAM (modèle 70B Llama) : FP32=280 Go, Q8=140 Go, Q5=88 Go, Q4=70 Go.
Recommandation : Utilisez Q4 pour 7B–70B. Utilisez Q8 seulement si 32 Go+ VRAM et qualité impeccable requise.
Personne n'utilise Q5 car Q4 + légère hausse = mieux que Q5 + matériel égal.

Faits rapides

Économies VRAM Q4 : 87.5 % vs FP32 (70 Go pour Llama 3 70B)
Perte de qualité Q4 : <1.2 % sur benchmark MMLU
Économies VRAM Q8 : 50 % vs FP32 (140 Go pour Llama 3 70B)
Différence de vitesse : 0 % — tous les niveaux tournent à tokens/sec identiques
Verdict Q5 : Zone morte — Q4 + modèle plus grand = meilleur résultat à VRAM égal

Niveaux de quantification comparés : Q2 à Q8

Quantification	Utilisation RAM	Vitesse	Qualité	Meilleur pour
Q2	Très basse	Très rapide	Mauvaise	Expériences
Q3	Basse	Rapide	Basse	Petits appareils
Q4	Moyenne	Rapide	Bonne	Plupart des utilisateurs
Q5	Moyenne+	Moyenne	Très bonne	Codage
Q6	Haute	Plus lent	Excellente	Focus précision
Q8	Très haute	Lent	Proche FP16	Benchmarking

Économies VRAM par niveau de quantification : FP32 = 280 Go, Q8 = 140 Go (50 % économies), Q4 = 70 Go (75 % économies), Q3 = 53 Go (81 % économies). Q4 est le meilleur compromis pour la plupart.

Meilleur niveau de quantification par cas d'utilisation

8 Go RAM : Q3 ou Q4 (seulement petits modèles 7B)
16 Go RAM : Q4_K_M (recommandé pour la plupart des portables)
32 Go RAM : Q5, Q6 ou Q8 (modèles plus grands, qualité supérieure)
Précision maximale : Q8 (quand VRAM n'est pas une contrainte)

Guide de sélection matériel : 8 Go RAM → Q3/Q4 (modèles 7B), 16 Go → Q4_K_M (recommandé), 32+ Go → Q5/Q6/Q8 (modèles plus grands, qualité supérieure), 64+ Go → Q8 ou FP32 (recherche/médical).

Comment la quantification affecte-t-elle VRAM et vitesse ?

Calcul VRAM : Taille du modèle (Go) × facteur de quantification.

Llama 3 70B :

- FP32 : 70B × 4 octets = 280 Go (impractique)

- Q8 : 70B × 1 octet = 140 Go (nécessite 140 Go VRAM)

- Q4 : 70B × 0.5 octet = 70 Go (tient sur RTX 4090 + overhead)

Vitesse : Tous les niveaux sont limités par mémoire (attente DRAM), pas calcul.

Tokens/sec sont identiques entre Q2-FP32 sur matériel égal.

La bande passante VRAM, pas le calcul, est le goulot. La quantification économise VRAM, pas le temps.

Perte de qualité par niveau : résultats benchmark MMLU

Mesuré sur le benchmark MMLU (connaissances générales, 57 tâches) :

Llama 3 70B FP32 référence : 85.2 % de précision.
Llama 3 70B Q8 : 85.1 % de précision (perte de 0.1 %).
Llama 3 70B Q5 : 84.7 % de précision (perte de 0.5 %).
Llama 3 70B Q4 : 84.0 % de précision (perte de 1.2 %).
Llama 3 70B Q3 : 81.5 % de précision (perte de 3.7 %).
Impact réel : Q4 vs Q8 = 1–2 % de réponses moins correctes par 100 questions.
Pour chat/écriture : différence imperceptible. Pour problèmes STEM : Q8 plus sûr.

Benchmarks de perte de qualité : Q8 = perte de 0.1 %, Q5 = perte de 0.5 %, Q4 = perte de 1.2 %, Q3 = perte de 3.7 % sur MMLU. La perte de qualité Q4 est imperceptible pour la plupart des tâches.

Quand utiliser chaque niveau ?

Q4 : Défaut. Utilisez pour tous les modèles. Meilleur équilibre entre compression et qualité.

Q5 : Jamais. Gaspillage. Si vous avez besoin de la qualité Q5, utilisez Q4 avec un modèle légèrement plus grand. Si vous avez la VRAM Q5 (88 Go), utilisez Q4 sur 70B à la place.

Q8 : Seulement si 32+ Go VRAM ET modèle <70B ET vous avez besoin de précision parfaite (recherche, usage médical).

Q3 : Limitation budgétaire. Perte de 3 % acceptable ? Utilisez Q3. Sinon, mettez à jour GPU ou utilisez modèle plus petit.

Q2 : Dernier recours. Perte de qualité trop haute pour la plupart. Utilisez seulement si Q3 cause erreur mémoire.

Pourquoi Q4 est le standard industriel ?

Q4 est optimal car :

1. 87.5 % économies VRAM (meilleur ratio).

2. <1.2 % perte de qualité (imperceptible pour utilisateurs).

3. Pas de pénalité de vitesse (limité mémoire, pas calcul).

4. Tient sur matériel grand public (70B sur RTX 4090 24 Go).

5. Standard industriel (HuggingFace, Ollama par défaut sur Q4).

Chaque modèle publié post-2024 inclut une variante Q4 pour production.

Si un modèle n'a que FP32/Q8/Q5, le projet n'est pas prêt pour production.

Idées fausses communes

Q4 semble "basse qualité" car 4-bit paraît petit. Faux. Perte de 1 % est imperceptible.
La quantification rend l'inférence plus lente. Faux. Vitesse identique (limité mémoire, pas calcul).
Je dois utiliser Q8 pour être prudent. Faux. Q4 est éprouvé, sûr et standard. Q8 est gaspillage.
J'ai besoin de FP32 pour précision. Faux. Jamais vrai. Q8 suffit même pour recherche.

FAQ

Qu'est-ce que la quantification LLM ?

La quantification compresse un modèle en réduisant la précision numérique, réduisant l'utilisation mémoire et augmentant la vitesse.

Quel est le meilleur niveau de quantification ?

Q4_K_M est le meilleur défaut pour la plupart des utilisateurs, équilibrant performance et qualité.

La quantification réduit-elle la précision ?

Oui, mais Q4–Q5 conservent la plupart de la qualité du modèle tout en réduisant considérablement les besoins en mémoire.

Q8 en vaut-il la peine ?

Seulement si vous avez besoin de précision maximale et de RAM suffisante. La plupart des utilisateurs n'en bénéficieront pas.

Dois-je utiliser Q4 ou Q8 pour la génération de code ?

Q4. La vitesse est identique, la différence de qualité est de 1 %, imperceptible pour la génération de code.

Puis-je utiliser Q3 si je manque de VRAM ?

Oui. Une perte de qualité de 3 % est acceptable pour chat/écriture créative. Inacceptable pour raisonnement/mathématiques.

Y a-t-il Q6 ou Q7 ?

Pas de standard. Certains projets implémentent des niveaux personnalisés, mais Q4/Q5/Q8 sont le standard industriel.

Quelle quantification est la plus rapide ?

Toutes vitesses identiques (limité par mémoire). Q2 est légèrement plus rapide du fait de moins de transfert mémoire, mais < 5 %.

Puis-je dédéquantifier Q4 en FP32 ?

Non, données perdues. L'interpolation Q4 → FP32 ne restaure pas l'original. La quantification est irréversible.

Dois-je quantifier mon modèle affiné ?

Oui, après entraînement. Quantifiez les poids entraînés en Q4 pour le déploiement.

Lectures complémentaires

Quantification LLM expliquée
Combien de VRAM vous faut-il ?
Meilleures GPUs de budget pour LLM locaux
LLM locaux les plus rapides pour PC bas de gamme
Guide matériel LLM local 2026 — Sélection GPU, tiers VRAM et benchmarks inférence CPU
Meilleurs LLM locaux pour codage 2026 — Benchmarks modèles spécifiques à codage et comparaison support FIM

Sources

Benchmark MMLU — OpenAI Evals — Mesure de précision entre niveaux quantification Q4/Q8/FP32 sur 57 tâches raisonnement
Llama 3 Model Card — Meta AI — Spécifications précision officielles entre niveaux quantification
Towards Quantization-Aware Deep Neural Networks (arXiv 2024) — Recherche sur bornes erreur quantification et méthodologie K-quant
La quantification réduit taille modèle sans éliminer variabilité sortie. Ajustement paramètres peut compenser perte précision : température et top-p expliquent stratégies d'échantillonnage.

Q4 vs Q5 vs Q8 : Quel niveau de quantification utiliser ?

Présentation: Q4 vs Q5 vs Q8 : Quel niveau de quantification utiliser ?

Qu'est-ce que la quantification LLM ?

Faits rapides

Niveaux de quantification comparés : Q2 à Q8

Meilleur niveau de quantification par cas d'utilisation

Comment la quantification affecte-t-elle VRAM et vitesse ?

Perte de qualité par niveau : résultats benchmark MMLU

Quand utiliser chaque niveau ?

Pourquoi Q4 est le standard industriel ?

Idées fausses communes

FAQ

Qu'est-ce que la quantification LLM ?

Quel est le meilleur niveau de quantification ?

La quantification réduit-elle la précision ?

Q8 en vaut-il la peine ?

Dois-je utiliser Q4 ou Q8 pour la génération de code ?

Puis-je utiliser Q3 si je manque de VRAM ?

Y a-t-il Q6 ou Q7 ?

Quelle quantification est la plus rapide ?

Puis-je dédéquantifier Q4 en FP32 ?

Dois-je quantifier mon modèle affiné ?

Lectures complémentaires

Sources

A Note on Third-Party Facts