PromptQuorumPromptQuorum

Was ist Q4_K_M-Quantisierung?

Quantization & VRAM

Wichtigste Punkte

  • Q4_K_M = 4-Bit-Quantisierung mit K-Quant-Kompression auf mittlerem Qualitätsniveau — besser als Q4_0 bei gleicher Dateigröße
  • Ein 7B-Modell bei Q4_K_M belegt ~4,1 GB auf der Festplatte und benötigt ~5,5 GB VRAM zum Betrieb
  • Verwenden Sie Q4_K_M als Standard — es liefert das beste Qualitäts-pro-Gigabyte-Verhältnis für die meisten VRAM-Budgets

Was jeder Buchstabe in Q4_K_M bedeutet

Stand Mai 2026: Q4_K_M existiert, weil alte 4-Bit-Formate (Q4_0) bei kritischen Gewichten zu viel Qualität verloren. K-Quant-Kompression löst dies, indem sie wichtigen Gewichten mehr Bits zuweist und unwichtigeren Gewichten weniger. Das Ergebnis: 5–8 % bessere Qualität als Q4_0 bei gleicher Dateigröße.

Das "K" ist der entscheidende Unterschied. K-Quant-Kompression wendet eine nicht-uniforme Bit-Zuweisung an — kritische Gewichte erhalten mehr Bits, weniger wichtige erhalten weniger. Das gewinnt 5–8 % Qualität gegenüber dem älteren Q4_0-Format bei gleicher Dateigröße zurück.

Das "M" ist die Qualitätseinstellung innerhalb von K-Quant. Q4_K_S (small) ist etwas kleiner mit niedrigerer Qualität. Q4_K_M (medium) ist die beste Balance. Q4_K_L (large) ist geringfügig besser, aber selten die extra Größe wert.

K-Quant funktioniert durch Clustering von Gewichten und Bit-Zuweisung basierend auf Wichtigkeit. Top-Wichtigkeits-Cluster erhalten 6 Bits pro Gewicht. Mittlere Cluster erhalten 4 Bits. Unwichtige Cluster erhalten 3 Bits. Die "M"-Stufe durchschnittlich 4,5 Bits pro Gewicht — was erklärt, warum Q4_K_M in Größe und Qualität zwischen Q4_K_S und Q5_K_M liegt. Für den Fall, dass die M-Stufe nicht ausreicht, siehe Q4_K_M vs. Q8_0.

Wie Q4_K_M im Vergleich zu anderen Quantisierungen abschneidet

Die folgende Tabelle zeigt die Kompromisse für ein 7B-Modell. Die Qualität ist relativ zur vollpräzisen Q8_0-Referenz. Es sei denn, Sie haben 12+ GB VRAM, bietet Q4_K_M das beste Qualitäts-pro-Gigabyte-Verhältnis.

Für einen direkten Vergleich von Q4_K_M vs. Q8_0, siehe den Q4_K_M vs. Q8_0 Entscheidungsleitfaden. Für die vollständige Quantisierungsreferenz, siehe den Quantisierungsstufen-Vergleich.

FormatDateigröße (7B)Qualität vs. Q8_0
Q4_03,8 GBBasiswert (~87 %)
Q4_K_M4,1 GB~92 % (+5 %)
Q5_K_M5,0 GB~95 % (+3 %)
Q8_07,7 GB100 % (Referenz)

Schnelle Antworten zur Quantisierung

Ist Q4_K_M dasselbe wie Q4_0?
Nein. Q4_K_M verwendet K-Quant-Kompression, die 5–8 % Qualität gegenüber Q4_0 bei gleicher Bittiefe zurückgewinnt. Bevorzugen Sie immer Q4_K_M gegenüber Q4_0. Siehe den Q4_K_M vs. Q8_0 Leitfaden für den Fall, dass Sie höher gehen möchten.
Welche Quantisierung sollte ich für 8 GB VRAM verwenden?
Q4_K_M für 7B-Modelle (5,5 GB VRAM). Wenn Sie bessere Qualität wünschen und Spielraum haben, verwendet Q5_K_M 6,5 GB und fügt ~3 % Qualität hinzu. Beide passen bequem in 8 GB.
Wofür steht das "M" in Q4_K_M?
Medium (mittel) — es bezieht sich auf die Qualitätsstufe innerhalb der K-Quant-Kompression. Q4_K_S ist die kleine (niedrigere Qualität) Variante, Q4_K_M ist medium (empfohlen), und Q4_K_L ist large (marginaler Gewinn gegenüber M).
Welche Modelle auf Ollama verwenden standardmäßig Q4_K_M?
Die meisten — Llama 3, Mistral, Qwen, Phi und Gemma verwenden alle standardmäßig Q4_K_M-Tags. Geben Sie :q5_K_M oder :q8_0 im Modell-Tag an, um die Quantisierung zu wechseln.