PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Q4 vs Q5 vs Q8: Welche Quantisierungsstufe sollten Sie wählen?
Modelle nach Anwendungsfall

Q4 vs Q5 vs Q8: Welche Quantisierungsstufe sollten Sie wählen?

·8 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Q4 (4-Bit) ist der optimale Kompromiss: 87,5 % VRAM-Ersparnis mit unmerklichem Qualitätsverlust. Ab April 2026 ist Q5 überflüssig (nur 5 % bessere Qualität, gleiche VRAM-Kosten wie Q4), und Q8 ist für Perfektionisten mit überschüssigem VRAM.

Q4 (4-Bit) ist der optimale Kompromiss: 87,5 % VRAM-Ersparnis mit unmerklichem Qualitätsverlust. Ab April 2026 ist Q5 überflüssig (nur 5 % bessere Qualität, gleiche VRAM-Kosten wie Q4), und Q8 ist für Perfektionisten mit überschüssigem VRAM. FP32 (vollständige Genauigkeit) ist für die Inferenz auf Verbraucherhardware nie notwendig.

Präsentation: Q4 vs Q5 vs Q8: Welche Quantisierungsstufe sollten Sie wählen?

Das Foliendeck unten behandelt: warum LLM-Quantisierung Modelle komprimiert (Reduktion der Genauigkeit von 16-Bit auf Q4/Q8), VRAM-Einsparungen über Q2–Q8-Level (70 GB für Q4 vs. 280 GB für FP32), Qualitätsverlust-Benchmarks (Q4 behält 99 % Genauigkeit bei, 1,2 % Verlust), und wann jede Stufe je nach Hardware (8 GB → Q3/Q4, 16 GB → Q4_K_M, 32 GB+ → Q5/Q8) verwendet werden sollte. Laden Sie das PDF als Quantisierungsstufen-Referenzkarte herunter.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • Q4 (4-Bit): 87,5 % VRAM-Ersparnis, ~1 % Qualitätsverlust. Verwenden Sie dies für alles.
  • Q5 (5-Bit): 84 % VRAM-Ersparnis, ~0,5 % Qualitätsverlust. Nie notwendig; Q4 + Q8 grenzen Q5 ein.
  • Q8 (8-Bit): 50 % VRAM-Ersparnis, <0,1 % Qualitätsverlust. Für Perfektionisten mit überschüssigem VRAM.
  • FP32 (32-Bit): Volle Präzision, 0 % Verlust, 0 % Ersparnis. Unpraktisch; überspringen Sie es.
  • Geschwindigkeit: Alle Quantisierungen laufen mit identischen Token/Sekunde (speichergebunden, nicht rechengebunden).
  • VRAM-Verbrauch (70B Llama-Modell): FP32=280 GB, Q8=140 GB, Q5=88 GB, Q4=70 GB.
  • Empfehlung: Verwenden Sie Q4 für 7B–70B. Verwenden Sie Q8 nur wenn Sie 32 GB+ VRAM haben und makellose Qualität benötigen.
  • Niemand verwendet Q5, weil Q4 + kleine Steigerung = besser als Q5 + gleiche Hardware.

Schnelle Fakten

  • Q4 VRAM-Ersparnis: 87,5 % vs. FP32 (70 GB für Llama 3 70B)
  • Q4 Qualitätsverlust: <1,2 % auf MMLU-Benchmark
  • Q8 VRAM-Ersparnis: 50 % vs. FP32 (140 GB für Llama 3 70B)
  • Geschwindigkeitsunterschied: 0 % — alle Quantisierungen laufen mit identischen Tokens/Sekunde
  • Q5-Urteil: Tote Zone — Q4 + größeres Modell = besseres Ergebnis bei gleichem VRAM

Quantisierungsstufen im Vergleich: Q2 bis Q8

QuantisierungRAM-VerbrauchGeschwindigkeitQualitätBeste für
Q2Sehr niedrigSehr schnellSchlechtExperimente
Q3NiedrigSchnellNiedrigKleine Geräte
Q4MittelSchnellGutDie meisten Nutzer
Q5Mittel+MittelSehr gutCode
Q6HochLangsamerAusgezeichnetGenauigkeit Fokus
Q8Sehr hochLangsamNah an FP16Benchmarking
VRAM-Ersparnis nach Quantisierungsstufe: FP32 = 280 GB, Q8 = 140 GB (50 % Ersparnis), Q4 = 70 GB (75 % Ersparnis), Q3 = 53 GB (81 % Ersparnis). Q4 ist der optimale Kompromiss für die meisten Nutzer.
VRAM-Ersparnis nach Quantisierungsstufe: FP32 = 280 GB, Q8 = 140 GB (50 % Ersparnis), Q4 = 70 GB (75 % Ersparnis), Q3 = 53 GB (81 % Ersparnis). Q4 ist der optimale Kompromiss für die meisten Nutzer.

Beste Quantisierungsstufe nach Anwendungsfall

  • 8 GB RAM: Q3 oder Q4 (nur kleine 7B-Modelle)
  • 16 GB RAM: Q4_K_M (empfohlen für die meisten Laptops)
  • 32 GB RAM: Q5, Q6 oder Q8 (größere Modelle, höhere Qualität)
  • Maximale Genauigkeit: Q8 (wenn VRAM keine Einschränkung ist)
Hardwareauswahl-Guide: 8 GB RAM → Q3/Q4 (7B-Modelle), 16 GB → Q4_K_M (empfohlen), 32 GB+ → Q5/Q6/Q8 (größere Modelle, höhere Qualität), 64 GB+ → Q8 oder FP32 (Forschung/Medizin).
Hardwareauswahl-Guide: 8 GB RAM → Q3/Q4 (7B-Modelle), 16 GB → Q4_K_M (empfohlen), 32 GB+ → Q5/Q6/Q8 (größere Modelle, höhere Qualität), 64 GB+ → Q8 oder FP32 (Forschung/Medizin).

Wie beeinflusst Quantisierung VRAM und Geschwindigkeit?

VRAM-Berechnung: Modellgröße (GB) × Quantisierungsfaktor.

Llama 3 70B:

- FP32: 70B × 4 Bytes = 280 GB (unpraktisch)

- Q8: 70B × 1 Byte = 140 GB (benötigt 140 GB VRAM)

- Q4: 70B × 0,5 Bytes = 70 GB (passt auf RTX 4090 + etwas Overhead)

Geschwindigkeit: Alle Quantisierungen sind speichergebunden (warten auf DRAM), nicht rechengebunden.

TokensSekunde sind auf gleicher Hardware identisch über Q2-FP32 hinweg.

VRAM-Bandbreite, nicht Berechnung, ist der Engpass. Quantisierung spart VRAM, nicht Zeit.

Qualitätsverlust nach Stufe: MMLU-Benchmark-Ergebnisse

Gemessen auf MMLU-Benchmark (allgemeine Kenntnisse, 57 Aufgaben):

  • Llama 3 70B FP32 Baseline: 85,2 % Genauigkeit.
  • Llama 3 70B Q8: 85,1 % Genauigkeit (-0,1 % Verlust).
  • Llama 3 70B Q5: 84,7 % Genauigkeit (-0,5 % Verlust).
  • Llama 3 70B Q4: 84,0 % Genauigkeit (-1,2 % Verlust).
  • Llama 3 70B Q3: 81,5 % Genauigkeit (-3,7 % Verlust).
  • Auswirkung in der Praxis: Q4 vs. Q8 = 1–2 % weniger korrekte Antworten pro 100 Fragen.
  • Für Chat/Schreiben: unmerklicher Unterschied. Für MINT-Probleme: Q8 ist sicherer.
Qualitätsverlust-Benchmarks: Q8 = -0,1 % Verlust, Q5 = -0,5 % Verlust, Q4 = -1,2 % Verlust, Q3 = -3,7 % Verlust auf MMLU. Q4 Qualitätsverlust ist für die meisten Aufgaben unmerklich.
Qualitätsverlust-Benchmarks: Q8 = -0,1 % Verlust, Q5 = -0,5 % Verlust, Q4 = -1,2 % Verlust, Q3 = -3,7 % Verlust auf MMLU. Q4 Qualitätsverlust ist für die meisten Aufgaben unmerklich.

Wann sollte jede Stufe verwendet werden?

Q4: Standard. Verwenden Sie für alle Modelle. Optimaler Kompromiss zwischen Komprimierung und Qualität.

Q5: Nie. Verschwendung. Wenn Sie Q5-Qualität benötigen, verwenden Sie Q4 mit etwas größerem Modell. Wenn Sie Q5s VRAM (88 GB) haben, verwenden Sie Q4 auf 70B stattdessen.

Q8: Nur wenn Sie 32 GB+ VRAM UND ein Modell <70B haben UND perfekte Genauigkeit benötigen (Forschung, Medizin).

Q3: Budgetlösung. 3 % Qualitätsverlust akzeptabel? Verwenden Sie Q3. Andernfalls GPU upgraden oder kleineres Modell verwenden.

Q2: Notlösung. Qualitätsverlust zu hoch für die meisten. Verwenden Sie nur wenn Q3 zu Out-of-Memory führt.

Warum ist Q4 der Industriestandard?

Q4 ist optimal, weil:

1. 87,5 % VRAM-Ersparnis (bestes Verhältnis).

2. <1,2 % Qualitätsverlust (unmerklich für Nutzer).

3. Keine Geschwindigkeit-Strafe (speichergebunden, nicht rechengebunden).

4. Passt auf Verbraucherhardware (70B auf RTX 4090 24GB).

5. Industriestandard (HuggingFace, Ollama Standard auf Q4).

Jedes nach 2024 veröffentlichte Modell enthält eine Q4-Variante für Produktion.

Wenn ein Modell nur FP32/Q8/Q5 hat, ist das Projekt nicht produktionsreif.

Häufige Missverständnisse

  • Q4 klingt nach "niedriger Qualität", weil 4-Bit klein wirkt. Falsch. 1 % Qualitätsverlust ist unmerklich.
  • Quantisierung macht Inferenz langsamer. Falsch. Geschwindigkeit ist identisch (speichergebunden, nicht rechengebunden).
  • Ich sollte Q8 verwenden um sicher zu sein. Falsch. Q4 ist bewährt, sicher und Standard. Q8 ist verschwenderisch.
  • Ich benötige FP32 für Genauigkeit. Falsch. Nie wahr. Q8 reicht selbst für Forschung.

FAQ

Was ist LLM-Quantisierung?

Quantisierung komprimiert ein Modell durch Reduktion der numerischen Genauigkeit, reduziert Speicherverbrauch und erhöht Geschwindigkeit.

Was ist die beste Quantisierungsstufe?

Q4_K_M ist die beste Standardoption für die meisten Nutzer und balanciert Leistung und Qualität.

Verringert Quantisierung die Genauigkeit?

Ja, aber Q4–Q5 behalten die meiste Modellqualität, während der Speicherverbrauch erheblich sinkt.

Lohnt sich Q8?

Nur wenn Sie maximale Genauigkeit benötigen und genug RAM haben. Die meisten Nutzer profitieren nicht von Q8.

Sollte ich Q4 oder Q8 für Code-Generierung verwenden?

Q4. Die Geschwindigkeit ist identisch, der Qualitätsunterschied beträgt 1 %, was für Code-Generierung unmerklich ist.

Kann ich Q3 verwenden, wenn ich wenig VRAM habe?

Ja. Ein Qualitätsverlust von 3 % ist für Chat/kreatives Schreiben akzeptabel. Nicht akzeptabel für Denkaufgaben/Mathematik.

Gibt es Q6 oder Q7?

Keinen Standard. Einige Projekte implementieren benutzerdefinierte Level, aber Q4/Q5/Q8 sind der Industriestandard.

Welche Quantisierung ist am schnellsten?

Alle sind gleich schnell (speichergebunden). Q2 ist leicht schneller wegen weniger Speichertransfer, aber der Unterschied ist <5 %.

Kann ich Q4 zu FP32 dequantisieren?

Nein, Daten gehen verloren. Q4 → FP32 Interpolation stellt das Original nicht wieder her. Quantisierung ist Einbahnstraße.

Sollte ich mein fein abgestimmtes Modell quantisieren?

Ja, nach dem Training. Quantisieren Sie die trainierten Gewichte zu Q4 für die Bereitstellung.

Was bedeutet GGUF Q4_K_M?

Q4_K_M ist eine verfeinerte Q4-Variante, die K-Quants (gemischte Genauigkeit) verwendet. Der K-Algorithmus bewahrt mehr Genauigkeit bei Aufmerksamkeitsschichten. Q4_K_M ist der empfohlene HuggingFace-Download – faktisch Q4 mit etwa 0,3 % besserer Genauigkeit bei gleichen VRAM-Kosten.

Beeinflusst Quantisierung die Kontextlänge?

Nein. Quantisierung komprimiert Modellgewichte, nicht das Kontextfenster. Ein Q4-Modell hat die gleiche maximale Kontextlänge wie seine FP32-Version. Der Kontextspeicher (KV-Cache) ist ein separates Anliegen.

Muss ich bei der Verwendung von Quantisierung die DSGVO beachten?

Ja. Lokale Inferenz erfüllt die Anforderungen von DSGVO Artikel 28 (Datenverarbeitung vor Ort). Nutzen Sie lokale Quantisierung für DSGVO-Compliance, BSI-Grundschutz-Kataloge und Datenresidenz in der EU. Q4-Modelle laufen vollständig offline – kein Datentransfer zu Drittanbietern.

Ist Quantisierung für den deutschen Mittelstand geeignet?

Ja, besonders für den deutschen Mittelstand. Quantisierte Modelle laufen auf vorhandener Hardware (Laptops, lokalen Servern), erfüllen BSI-Grundschutz-Standards und reduzieren Lizenzkosten. KMUs profitieren vom Umstieg von Cloud-APIs zu lokal gehosteten Q4-Modellen – kosteneffizienz ohne Sicherheitskompromisse.

Weiterführende Lektüre

Quellen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Q4 vs Q5 vs Q8: Beste LLM-Quantisierung für Speed, RAM & Qualität (2026)