Points clés
En mai 2026, Q8_0 est à ~99 % de la qualité pleine précision. Q4_K_M est à ~92 %. L'écart de 7 points est invisible en chat, code et résumé — trois tâches qui couvrent 95 % de l'usage local LLM. Q8_0 ne prend l'avantage que sur le rappel factuel long, les mathématiques multi-étapes et le code nécessitant une syntaxe exacte sur 500+ lignes.
Q4_K_M est le bon choix par défaut car la qualité supplémentaire de Q8_0 ne se manifeste que dans des cas limites : génération longue avec rappel factuel exact, ou raisonnement mathématique nécessitant une précision élevée. Pour tout le reste, Q4_K_M équivaut à Q8_0 en pratique.
Si vous utilisez déjà Q4_K_M et que vos résultats semblent incorrects, le problème n'est presque jamais la quantisation — c'est la taille du modèle ou la structure du prompt.
Le tableau ci-dessous compare Q4_K_M et Q8_0 pour un modèle 7B. Les deux formats fonctionnent avec Ollama, LM Studio et llama.cpp sans configuration particulière.
Pour comprendre Q4_K_M et la compression k-quant, voir le guide explicatif Q4_K_M. Pour la référence complète, voir les niveaux de quantisation comparés.
Trois tâches révèlent l'écart de Q4_K_M : rappel de longs documents (50+ pages), calcul multi-étapes avec état intermédiaire, et génération de code sur 300+ lignes. Pour celles-ci, la précision supplémentaire de Q8_0 prévient les petites erreurs de dérive qui s'accumulent sur de longues sorties. Pour tout le reste — chat, code sous 200 lignes, Q&R, résumé — l'écart est invisible. Pour un rappel avant de décider, voir ce que signifie Q4_K_M.
| Métrique | Q4_K_M | Q8_0 |
|---|---|---|
| Taille du fichier (7B) | ~4,1 Go | ~7,7 Go |
| VRAM nécessaire (7B) | 5–6 Go | 8–9 Go |
| Qualité vs pleine précision | ~92 % | ~99 % |
| Idéal pour | 6–8 Go de VRAM | 12+ Go de VRAM |
ollama pull llama3:8b-q4_K_M et ollama pull llama3:8b-q8_0 sont des téléchargements séparés. Vous basculez en spécifiant le tag dans ollama run.