PromptQuorumPromptQuorum

Q4_K_M ou Q8_0 : lequel choisir ?

Quantization & VRAM

Points clés

  • 8 Go de VRAM ou moins : utiliser Q4_K_M — offre 95 % de la qualité de Q8_0 à environ la moitié de la taille
  • 12+ Go de VRAM : Q8_0 vaut le coup pour une qualité quasi pleine précision sans perte de vitesse
  • Pour la plupart des utilisateurs Ollama au quotidien, Q4_K_M est le bon choix

Le verdict rapide

En mai 2026, Q8_0 est à ~99 % de la qualité pleine précision. Q4_K_M est à ~92 %. L'écart de 7 points est invisible en chat, code et résumé — trois tâches qui couvrent 95 % de l'usage local LLM. Q8_0 ne prend l'avantage que sur le rappel factuel long, les mathématiques multi-étapes et le code nécessitant une syntaxe exacte sur 500+ lignes.

Q4_K_M est le bon choix par défaut car la qualité supplémentaire de Q8_0 ne se manifeste que dans des cas limites : génération longue avec rappel factuel exact, ou raisonnement mathématique nécessitant une précision élevée. Pour tout le reste, Q4_K_M équivaut à Q8_0 en pratique.

Si vous utilisez déjà Q4_K_M et que vos résultats semblent incorrects, le problème n'est presque jamais la quantisation — c'est la taille du modèle ou la structure du prompt.

Comparaison côte à côte

Le tableau ci-dessous compare Q4_K_M et Q8_0 pour un modèle 7B. Les deux formats fonctionnent avec Ollama, LM Studio et llama.cpp sans configuration particulière.

Pour comprendre Q4_K_M et la compression k-quant, voir le guide explicatif Q4_K_M. Pour la référence complète, voir les niveaux de quantisation comparés.

Trois tâches révèlent l'écart de Q4_K_M : rappel de longs documents (50+ pages), calcul multi-étapes avec état intermédiaire, et génération de code sur 300+ lignes. Pour celles-ci, la précision supplémentaire de Q8_0 prévient les petites erreurs de dérive qui s'accumulent sur de longues sorties. Pour tout le reste — chat, code sous 200 lignes, Q&R, résumé — l'écart est invisible. Pour un rappel avant de décider, voir ce que signifie Q4_K_M.

MétriqueQ4_K_MQ8_0
Taille du fichier (7B)~4,1 Go~7,7 Go
VRAM nécessaire (7B)5–6 Go8–9 Go
Qualité vs pleine précision~92 %~99 %
Idéal pour6–8 Go de VRAM12+ Go de VRAM

Réponses rapides sur Q4_K_M vs Q8_0

Q8_0 est-il sensiblement meilleur que Q4_K_M ?
Seulement dans des cas limites — calcul multi-étapes complexe, rappel de citations exactes dans de longs documents, ou très longues sorties. Pour le chat, le code et la synthèse (95 % des usages), la plupart des utilisateurs ne font pas la différence.
Q8_0 est-il plus rapide que Q4_K_M ?
Non. Q8_0 est plus lourd et nécessite plus de bande passante mémoire, ce qui le rend légèrement plus lent par token que Q4_K_M. Vitesse et qualité favorisent tous deux Q4_K_M pour les setups contraints en VRAM. Voir ce que signifie Q4_K_M pour la raison sous-jacente.
Puis-je alterner entre Q4_K_M et Q8_0 selon les tâches ?
Seulement en téléchargeant et exécutant des tags de modèle différents. Dans Ollama : ollama pull llama3:8b-q4_K_M et ollama pull llama3:8b-q8_0 sont des téléchargements séparés. Vous basculez en spécifiant le tag dans ollama run.
Et Q4_K_S — vaut-il mieux l'utiliser à la place de Q4_K_M ?
Q4_K_S économise environ 300 Mo par rapport à Q4_K_M mais offre une qualité moindre. N'utilisez Q4_K_S que si votre VRAM est très limité et que Q4_K_M ne rentre pas. Dans presque tous les cas, Q4_K_M est le meilleur choix.