Points clés
En mai 2026, Q4_K_M existe parce que les anciens formats 4 bits (Q4_0) perdaient trop de qualité sur les poids critiques. La compression k-quant résout ce problème en allouant plus de bits aux poids qui influencent le plus les sorties, et moins aux poids à faible impact. Résultat : 5 à 8 % de qualité en plus par rapport à Q4_0 à taille de fichier identique.
Le "K" est le différenciateur clé. La compression k-quant applique une allocation de bits non uniforme — les poids critiques reçoivent plus de bits, les moins importants en reçoivent moins. Cela récupère 5 à 8 % de qualité par rapport à l'ancien format Q4_0 à même taille de fichier.
Le "M" est le niveau de qualité au sein du k-quant. Q4_K_S (small) est légèrement plus petit avec une qualité moindre. Q4_K_M (medium) est le meilleur équilibre. Q4_K_L (large) est marginalement meilleur mais rarement justifié.
Le k-quant fonctionne en regroupant les poids et en attribuant les bits selon leur importance. Les clusters de haute importance reçoivent 6 bits par poids. Les clusters intermédiaires reçoivent 4 bits. Les clusters peu importants reçoivent 3 bits. Le niveau "M" représente en moyenne 4,5 bits par poids — ce qui explique pourquoi Q4_K_M se situe entre Q4_K_S et Q5_K_M en taille et en qualité. Pour savoir quand le niveau M ne suffit pas, voir Q4_K_M vs Q8_0.
Le tableau ci-dessous montre les compromis pour un modèle 7B. La qualité est relative à la référence Q8_0 en pleine précision. Sauf si vous disposez de 12+ Go de VRAM, Q4_K_M offre le meilleur rapport qualité/gigaoctet.
Pour une comparaison directe Q4_K_M vs Q8_0, voir le guide de décision Q4_K_M vs Q8_0. Pour la référence complète des quantisations, voir la comparaison des niveaux de quantisation.
| Format | Taille du fichier (7B) | Qualité vs Q8_0 |
|---|---|---|
| Q4_0 | 3,8 Go | Référence (~87 %) |
| Q4_K_M | 4,1 Go | ~92 % (+5 %) |
| Q5_K_M | 5,0 Go | ~95 % (+3 %) |
| Q8_0 | 7,7 Go | 100 % (référence) |
:q5_K_M ou :q8_0 dans le tag du modèle pour changer de quantisation.