Qu'est-ce que la quantisation Q4_K_M ?
Points clés
- ✓Q4_K_M = quantisation 4 bits avec compression k-quant à qualité moyenne — meilleure que Q4_0 à taille de fichier égale
- ✓Un modèle 7B en Q4_K_M occupe ~4,1 Go sur disque et nécessite ~5,5 Go de VRAM
- ✓Utilisez Q4_K_M par défaut — c'est le meilleur ratio qualité/gigaoctet pour la plupart des budgets VRAM
Ce que signifie chaque lettre de Q4_K_M
En mai 2026, Q4_K_M existe parce que les anciens formats 4 bits (Q4_0) perdaient trop de qualité sur les poids critiques. La compression k-quant résout ce problème en allouant plus de bits aux poids qui influencent le plus les sorties, et moins aux poids à faible impact. Résultat : 5 à 8 % de qualité en plus par rapport à Q4_0 à taille de fichier identique.
Le "K" est le différenciateur clé. La compression k-quant applique une allocation de bits non uniforme — les poids critiques reçoivent plus de bits, les moins importants en reçoivent moins. Cela récupère 5 à 8 % de qualité par rapport à l'ancien format Q4_0 à même taille de fichier.
Le "M" est le niveau de qualité au sein du k-quant. Q4_K_S (small) est légèrement plus petit avec une qualité moindre. Q4_K_M (medium) est le meilleur équilibre. Q4_K_L (large) est marginalement meilleur mais rarement justifié.
Le k-quant fonctionne en regroupant les poids et en attribuant les bits selon leur importance. Les clusters de haute importance reçoivent 6 bits par poids. Les clusters intermédiaires reçoivent 4 bits. Les clusters peu importants reçoivent 3 bits. Le niveau "M" représente en moyenne 4,5 bits par poids — ce qui explique pourquoi Q4_K_M se situe entre Q4_K_S et Q5_K_M en taille et en qualité. Pour savoir quand le niveau M ne suffit pas, voir Q4_K_M vs Q8_0.
Comment Q4_K_M se compare aux autres quantisations
Le tableau ci-dessous montre les compromis pour un modèle 7B. La qualité est relative à la référence Q8_0 en pleine précision. Sauf si vous disposez de 12+ Go de VRAM, Q4_K_M offre le meilleur rapport qualité/gigaoctet.
Pour une comparaison directe Q4_K_M vs Q8_0, voir le guide de décision Q4_K_M vs Q8_0. Pour la référence complète des quantisations, voir la comparaison des niveaux de quantisation.
| Format | Taille du fichier (7B) | Qualité vs Q8_0 |
|---|---|---|
| Q4_0 | 3,8 Go | Référence (~87 %) |
| Q4_K_M | 4,1 Go | ~92 % (+5 %) |
| Q5_K_M | 5,0 Go | ~95 % (+3 %) |
| Q8_0 | 7,7 Go | 100 % (référence) |
Réponses rapides sur la quantisation
Q4_K_M est-il identique à Q4_0 ?▾
Quelle quantisation utiliser avec 8 Go de VRAM ?▾
Que signifie le "M" dans Q4_K_M ?▾
Quels modèles sur Ollama utilisent Q4_K_M par défaut ?▾
:q5_K_M ou :q8_0 dans le tag du modèle pour changer de quantisation.