Wichtigste Punkte
Stand Mai 2026: Q4_K_M existiert, weil alte 4-Bit-Formate (Q4_0) bei kritischen Gewichten zu viel Qualität verloren. K-Quant-Kompression löst dies, indem sie wichtigen Gewichten mehr Bits zuweist und unwichtigeren Gewichten weniger. Das Ergebnis: 5–8 % bessere Qualität als Q4_0 bei gleicher Dateigröße.
Das "K" ist der entscheidende Unterschied. K-Quant-Kompression wendet eine nicht-uniforme Bit-Zuweisung an — kritische Gewichte erhalten mehr Bits, weniger wichtige erhalten weniger. Das gewinnt 5–8 % Qualität gegenüber dem älteren Q4_0-Format bei gleicher Dateigröße zurück.
Das "M" ist die Qualitätseinstellung innerhalb von K-Quant. Q4_K_S (small) ist etwas kleiner mit niedrigerer Qualität. Q4_K_M (medium) ist die beste Balance. Q4_K_L (large) ist geringfügig besser, aber selten die extra Größe wert.
K-Quant funktioniert durch Clustering von Gewichten und Bit-Zuweisung basierend auf Wichtigkeit. Top-Wichtigkeits-Cluster erhalten 6 Bits pro Gewicht. Mittlere Cluster erhalten 4 Bits. Unwichtige Cluster erhalten 3 Bits. Die "M"-Stufe durchschnittlich 4,5 Bits pro Gewicht — was erklärt, warum Q4_K_M in Größe und Qualität zwischen Q4_K_S und Q5_K_M liegt. Für den Fall, dass die M-Stufe nicht ausreicht, siehe Q4_K_M vs. Q8_0.
Die folgende Tabelle zeigt die Kompromisse für ein 7B-Modell. Die Qualität ist relativ zur vollpräzisen Q8_0-Referenz. Es sei denn, Sie haben 12+ GB VRAM, bietet Q4_K_M das beste Qualitäts-pro-Gigabyte-Verhältnis.
Für einen direkten Vergleich von Q4_K_M vs. Q8_0, siehe den Q4_K_M vs. Q8_0 Entscheidungsleitfaden. Für die vollständige Quantisierungsreferenz, siehe den Quantisierungsstufen-Vergleich.
| Format | Dateigröße (7B) | Qualität vs. Q8_0 |
|---|---|---|
| Q4_0 | 3,8 GB | Basiswert (~87 %) |
| Q4_K_M | 4,1 GB | ~92 % (+5 %) |
| Q5_K_M | 5,0 GB | ~95 % (+3 %) |
| Q8_0 | 7,7 GB | 100 % (Referenz) |
:q5_K_M oder :q8_0 im Modell-Tag an, um die Quantisierung zu wechseln.