PromptQuorumPromptQuorum

Qu'est-ce que la quantisation Q4_K_M ?

Quantization & VRAM

Points clés

  • Q4_K_M = quantisation 4 bits avec compression k-quant à qualité moyenne — meilleure que Q4_0 à taille de fichier égale
  • Un modèle 7B en Q4_K_M occupe ~4,1 Go sur disque et nécessite ~5,5 Go de VRAM
  • Utilisez Q4_K_M par défaut — c'est le meilleur ratio qualité/gigaoctet pour la plupart des budgets VRAM

Ce que signifie chaque lettre de Q4_K_M

En mai 2026, Q4_K_M existe parce que les anciens formats 4 bits (Q4_0) perdaient trop de qualité sur les poids critiques. La compression k-quant résout ce problème en allouant plus de bits aux poids qui influencent le plus les sorties, et moins aux poids à faible impact. Résultat : 5 à 8 % de qualité en plus par rapport à Q4_0 à taille de fichier identique.

Le "K" est le différenciateur clé. La compression k-quant applique une allocation de bits non uniforme — les poids critiques reçoivent plus de bits, les moins importants en reçoivent moins. Cela récupère 5 à 8 % de qualité par rapport à l'ancien format Q4_0 à même taille de fichier.

Le "M" est le niveau de qualité au sein du k-quant. Q4_K_S (small) est légèrement plus petit avec une qualité moindre. Q4_K_M (medium) est le meilleur équilibre. Q4_K_L (large) est marginalement meilleur mais rarement justifié.

Le k-quant fonctionne en regroupant les poids et en attribuant les bits selon leur importance. Les clusters de haute importance reçoivent 6 bits par poids. Les clusters intermédiaires reçoivent 4 bits. Les clusters peu importants reçoivent 3 bits. Le niveau "M" représente en moyenne 4,5 bits par poids — ce qui explique pourquoi Q4_K_M se situe entre Q4_K_S et Q5_K_M en taille et en qualité. Pour savoir quand le niveau M ne suffit pas, voir Q4_K_M vs Q8_0.

Comment Q4_K_M se compare aux autres quantisations

Le tableau ci-dessous montre les compromis pour un modèle 7B. La qualité est relative à la référence Q8_0 en pleine précision. Sauf si vous disposez de 12+ Go de VRAM, Q4_K_M offre le meilleur rapport qualité/gigaoctet.

Pour une comparaison directe Q4_K_M vs Q8_0, voir le guide de décision Q4_K_M vs Q8_0. Pour la référence complète des quantisations, voir la comparaison des niveaux de quantisation.

FormatTaille du fichier (7B)Qualité vs Q8_0
Q4_03,8 GoRéférence (~87 %)
Q4_K_M4,1 Go~92 % (+5 %)
Q5_K_M5,0 Go~95 % (+3 %)
Q8_07,7 Go100 % (référence)

Réponses rapides sur la quantisation

Q4_K_M est-il identique à Q4_0 ?
Non. Q4_K_M utilise la compression k-quant qui récupère 5 à 8 % de qualité par rapport à Q4_0 à même profondeur de bits. Préférez toujours Q4_K_M à Q4_0. Voir le guide Q4_K_M vs Q8_0 pour savoir quand monter en niveau.
Quelle quantisation utiliser avec 8 Go de VRAM ?
Q4_K_M pour les modèles 7B (5,5 Go de VRAM). Si vous souhaitez une meilleure qualité et avez de la marge, Q5_K_M utilise 6,5 Go et ajoute ~3 % de qualité. Les deux rentrent confortablement dans 8 Go.
Que signifie le "M" dans Q4_K_M ?
Medium (moyen) — il désigne le niveau de qualité au sein de la compression k-quant. Q4_K_S est la variante petite (qualité moindre), Q4_K_M est medium (recommandé), et Q4_K_L est large (gain marginal par rapport à M).
Quels modèles sur Ollama utilisent Q4_K_M par défaut ?
La plupart — Llama 3, Mistral, Qwen, Phi et Gemma utilisent tous des tags Q4_K_M par défaut. Spécifiez :q5_K_M ou :q8_0 dans le tag du modèle pour changer de quantisation.