Qu'est-ce que la quantification LLM ?
La quantification LLM réduit la taille du modèle en compressant les poids de 16-bit à des formats de précision inférieure comme Q4 ou Q8.
- Q2–Q3 → plus rapide, qualité la plus basse
- Q4 → meilleur équilibre (recommandé)
- Q5–Q6 → qualité supérieure, plus de RAM
- Q8 → quasi-précision complète, plus lent
Points clés
- Q4 (4-bit) : 87.5 % économies VRAM, ~1 % perte de qualité. Utilisez ceci pour tout.
- Q5 (5-bit) : 84 % économies VRAM, ~0.5 % perte de qualité. Jamais nécessaire ; Q4 + Q8 encadrent Q5.
- Q8 (8-bit) : 50 % économies VRAM, <0.1 % perte de qualité. Pour perfectionnistes avec VRAM excédentaire.
- FP32 (32-bit) : Précision complète, 0 % perte, 0 % économies. Impractique ; ignorez-le.
- Vitesse : Tous les niveaux tournent à tokens/sec identiques (limité par mémoire, pas calcul).
- Utilisation VRAM (modèle 70B Llama) : FP32=280 Go, Q8=140 Go, Q5=88 Go, Q4=70 Go.
- Recommandation : Utilisez Q4 pour 7B–70B. Utilisez Q8 seulement si 32 Go+ VRAM et qualité impeccable requise.
- Personne n'utilise Q5 car Q4 + légère hausse = mieux que Q5 + matériel égal.
Faits rapides
- Économies VRAM Q4 : 87.5 % vs FP32 (70 Go pour Llama 3 70B)
- Perte de qualité Q4 : <1.2 % sur benchmark MMLU
- Économies VRAM Q8 : 50 % vs FP32 (140 Go pour Llama 3 70B)
- Différence de vitesse : 0 % — tous les niveaux tournent à tokens/sec identiques
- Verdict Q5 : Zone morte — Q4 + modèle plus grand = meilleur résultat à VRAM égal
Niveaux de quantification comparés : Q2 à Q8
| Quantification | Utilisation RAM | Vitesse | Qualité | Meilleur pour |
|---|---|---|---|---|
| Q2 | Très basse | Très rapide | Mauvaise | Expériences |
| Q3 | Basse | Rapide | Basse | Petits appareils |
| Q4 | Moyenne | Rapide | Bonne | Plupart des utilisateurs |
| Q5 | Moyenne+ | Moyenne | Très bonne | Codage |
| Q6 | Haute | Plus lent | Excellente | Focus précision |
| Q8 | Très haute | Lent | Proche FP16 | Benchmarking |
Meilleur niveau de quantification par cas d'utilisation
- 8 Go RAM : Q3 ou Q4 (seulement petits modèles 7B)
- 16 Go RAM : Q4_K_M (recommandé pour la plupart des portables)
- 32 Go RAM : Q5, Q6 ou Q8 (modèles plus grands, qualité supérieure)
- Précision maximale : Q8 (quand VRAM n'est pas une contrainte)
Comment la quantification affecte-t-elle VRAM et vitesse ?
Calcul VRAM : Taille du modèle (Go) × facteur de quantification.
Llama 3 70B :
- FP32 : 70B × 4 octets = 280 Go (impractique)
- Q8 : 70B × 1 octet = 140 Go (nécessite 140 Go VRAM)
- Q4 : 70B × 0.5 octet = 70 Go (tient sur RTX 4090 + overhead)
Vitesse : Tous les niveaux sont limités par mémoire (attente DRAM), pas calcul.
Tokens/sec sont identiques entre Q2-FP32 sur matériel égal.
La bande passante VRAM, pas le calcul, est le goulot. La quantification économise VRAM, pas le temps.
Perte de qualité par niveau : résultats benchmark MMLU
Mesuré sur le benchmark MMLU (connaissances générales, 57 tâches) :
- Llama 3 70B FP32 référence : 85.2 % de précision.
- Llama 3 70B Q8 : 85.1 % de précision (perte de 0.1 %).
- Llama 3 70B Q5 : 84.7 % de précision (perte de 0.5 %).
- Llama 3 70B Q4 : 84.0 % de précision (perte de 1.2 %).
- Llama 3 70B Q3 : 81.5 % de précision (perte de 3.7 %).
- Impact réel : Q4 vs Q8 = 1–2 % de réponses moins correctes par 100 questions.
- Pour chat/écriture : différence imperceptible. Pour problèmes STEM : Q8 plus sûr.
Quand utiliser chaque niveau ?
Q4 : Défaut. Utilisez pour tous les modèles. Meilleur équilibre entre compression et qualité.
Q5 : Jamais. Gaspillage. Si vous avez besoin de la qualité Q5, utilisez Q4 avec un modèle légèrement plus grand. Si vous avez la VRAM Q5 (88 Go), utilisez Q4 sur 70B à la place.
Q8 : Seulement si 32+ Go VRAM ET modèle <70B ET vous avez besoin de précision parfaite (recherche, usage médical).
Q3 : Limitation budgétaire. Perte de 3 % acceptable ? Utilisez Q3. Sinon, mettez à jour GPU ou utilisez modèle plus petit.
Q2 : Dernier recours. Perte de qualité trop haute pour la plupart. Utilisez seulement si Q3 cause erreur mémoire.
Pourquoi Q4 est le standard industriel ?
Q4 est optimal car :
1. 87.5 % économies VRAM (meilleur ratio).
2. <1.2 % perte de qualité (imperceptible pour utilisateurs).
3. Pas de pénalité de vitesse (limité mémoire, pas calcul).
4. Tient sur matériel grand public (70B sur RTX 4090 24 Go).
5. Standard industriel (HuggingFace, Ollama par défaut sur Q4).
Chaque modèle publié post-2024 inclut une variante Q4 pour production.
Si un modèle n'a que FP32/Q8/Q5, le projet n'est pas prêt pour production.
Idées fausses communes
- Q4 semble "basse qualité" car 4-bit paraît petit. Faux. Perte de 1 % est imperceptible.
- La quantification rend l'inférence plus lente. Faux. Vitesse identique (limité mémoire, pas calcul).
- Je dois utiliser Q8 pour être prudent. Faux. Q4 est éprouvé, sûr et standard. Q8 est gaspillage.
- J'ai besoin de FP32 pour précision. Faux. Jamais vrai. Q8 suffit même pour recherche.
FAQ
Qu'est-ce que la quantification LLM ?
La quantification compresse un modèle en réduisant la précision numérique, réduisant l'utilisation mémoire et augmentant la vitesse.
Quel est le meilleur niveau de quantification ?
Q4_K_M est le meilleur défaut pour la plupart des utilisateurs, équilibrant performance et qualité.
La quantification réduit-elle la précision ?
Oui, mais Q4–Q5 conservent la plupart de la qualité du modèle tout en réduisant considérablement les besoins en mémoire.
Q8 en vaut-il la peine ?
Seulement si vous avez besoin de précision maximale et de RAM suffisante. La plupart des utilisateurs n'en bénéficieront pas.
Dois-je utiliser Q4 ou Q8 pour la génération de code ?
Q4. La vitesse est identique, la différence de qualité est de 1 %, imperceptible pour la génération de code.
Puis-je utiliser Q3 si je manque de VRAM ?
Oui. Une perte de qualité de 3 % est acceptable pour chat/écriture créative. Inacceptable pour raisonnement/mathématiques.
Y a-t-il Q6 ou Q7 ?
Pas de standard. Certains projets implémentent des niveaux personnalisés, mais Q4/Q5/Q8 sont le standard industriel.
Quelle quantification est la plus rapide ?
Toutes vitesses identiques (limité par mémoire). Q2 est légèrement plus rapide du fait de moins de transfert mémoire, mais < 5 %.
Puis-je dédéquantifier Q4 en FP32 ?
Non, données perdues. L'interpolation Q4 → FP32 ne restaure pas l'original. La quantification est irréversible.
Dois-je quantifier mon modèle affiné ?
Oui, après entraînement. Quantifiez les poids entraînés en Q4 pour le déploiement.
Lectures complémentaires
- Quantification LLM expliquée
- Combien de VRAM vous faut-il ?
- Meilleures GPUs de budget pour LLM locaux
- LLM locaux les plus rapides pour PC bas de gamme
- Guide matériel LLM local 2026 — Sélection GPU, tiers VRAM et benchmarks inférence CPU
- Meilleurs LLM locaux pour codage 2026 — Benchmarks modèles spécifiques à codage et comparaison support FIM
Sources
- Benchmark MMLU — OpenAI Evals — Mesure de précision entre niveaux quantification Q4/Q8/FP32 sur 57 tâches raisonnement
- Llama 3 Model Card — Meta AI — Spécifications précision officielles entre niveaux quantification
- Towards Quantization-Aware Deep Neural Networks (arXiv 2024) — Recherche sur bornes erreur quantification et méthodologie K-quant
- La quantification réduit taille modèle sans éliminer variabilité sortie. Ajustement paramètres peut compenser perte précision : température et top-p expliquent stratégies d'échantillonnage.