Q4 (4-Bit) ist der optimale Kompromiss: 87,5 % VRAM-Ersparnis mit unmerklichem Qualitätsverlust. Ab April 2026 ist Q5 überflüssig (nur 5 % bessere Qualität, gleiche VRAM-Kosten wie Q4), und Q8 ist für Perfektionisten mit überschüssigem VRAM. FP32 (vollständige Genauigkeit) ist für die Inferenz auf Verbraucherhardware nie notwendig.

Was ist LLM-Quantisierung?

LLM-Quantisierung reduziert die Modellgröße durch Komprimierung von Gewichten von 16-Bit auf niedrigere Präzisionsformate wie Q4 oder Q8.

Q2–Q3 → schnellste, niedrigste Qualität
Q4 → bestes Gleichgewicht (empfohlen)
Q5–Q6 → höhere Qualität, mehr RAM
Q8 → fast volle Präzision, am langsamsten

Wichtigste Erkenntnisse

Q4 (4-Bit): 87,5 % VRAM-Ersparnis, ~1 % Qualitätsverlust. Verwenden Sie dies für alles.
Q5 (5-Bit): 84 % VRAM-Ersparnis, ~0,5 % Qualitätsverlust. Nie notwendig; Q4 + Q8 grenzen Q5 ein.
Q8 (8-Bit): 50 % VRAM-Ersparnis, <0,1 % Qualitätsverlust. Für Perfektionisten mit überschüssigem VRAM.
FP32 (32-Bit): Volle Präzision, 0 % Verlust, 0 % Ersparnis. Unpraktisch; überspringen Sie es.
Geschwindigkeit: Alle Quantisierungen laufen mit identischen Token/Sekunde (speichergebunden, nicht rechengebunden).
VRAM-Verbrauch (70B Llama-Modell): FP32=280 GB, Q8=140 GB, Q5=88 GB, Q4=70 GB.
Empfehlung: Verwenden Sie Q4 für 7B–70B. Verwenden Sie Q8 nur wenn Sie 32 GB+ VRAM haben und makellose Qualität benötigen.
Niemand verwendet Q5, weil Q4 + kleine Steigerung = besser als Q5 + gleiche Hardware.

Schnelle Fakten

Q4 VRAM-Ersparnis: 87,5 % vs. FP32 (70 GB für Llama 3 70B)
Q4 Qualitätsverlust: <1,2 % auf MMLU-Benchmark
Q8 VRAM-Ersparnis: 50 % vs. FP32 (140 GB für Llama 3 70B)
Geschwindigkeitsunterschied: 0 % — alle Quantisierungen laufen mit identischen Tokens/Sekunde
Q5-Urteil: Tote Zone — Q4 + größeres Modell = besseres Ergebnis bei gleichem VRAM

Quantisierungsstufen im Vergleich: Q2 bis Q8

Quantisierung	RAM-Verbrauch	Geschwindigkeit	Qualität	Beste für
Q2	Sehr niedrig	Sehr schnell	Schlecht	Experimente
Q3	Niedrig	Schnell	Niedrig	Kleine Geräte
Q4	Mittel	Schnell	Gut	Die meisten Nutzer
Q5	Mittel+	Mittel	Sehr gut	Code
Q6	Hoch	Langsamer	Ausgezeichnet	Genauigkeit Fokus
Q8	Sehr hoch	Langsam	Nah an FP16	Benchmarking

VRAM-Ersparnis nach Quantisierungsstufe: FP32 = 280 GB, Q8 = 140 GB (50 % Ersparnis), Q4 = 70 GB (75 % Ersparnis), Q3 = 53 GB (81 % Ersparnis). Q4 ist der optimale Kompromiss für die meisten Nutzer.

Beste Quantisierungsstufe nach Anwendungsfall

8 GB RAM: Q3 oder Q4 (nur kleine 7B-Modelle)
16 GB RAM: Q4_K_M (empfohlen für die meisten Laptops)
32 GB RAM: Q5, Q6 oder Q8 (größere Modelle, höhere Qualität)
Maximale Genauigkeit: Q8 (wenn VRAM keine Einschränkung ist)

Hardwareauswahl-Guide: 8 GB RAM → Q3/Q4 (7B-Modelle), 16 GB → Q4_K_M (empfohlen), 32 GB+ → Q5/Q6/Q8 (größere Modelle, höhere Qualität), 64 GB+ → Q8 oder FP32 (Forschung/Medizin).

Wie beeinflusst Quantisierung VRAM und Geschwindigkeit?

VRAM-Berechnung: Modellgröße (GB) × Quantisierungsfaktor.

Llama 3 70B:

- FP32: 70B × 4 Bytes = 280 GB (unpraktisch)

- Q8: 70B × 1 Byte = 140 GB (benötigt 140 GB VRAM)

- Q4: 70B × 0,5 Bytes = 70 GB (passt auf RTX 4090 + etwas Overhead)

Geschwindigkeit: Alle Quantisierungen sind speichergebunden (warten auf DRAM), nicht rechengebunden.

TokensSekunde sind auf gleicher Hardware identisch über Q2-FP32 hinweg.

VRAM-Bandbreite, nicht Berechnung, ist der Engpass. Quantisierung spart VRAM, nicht Zeit.

Qualitätsverlust nach Stufe: MMLU-Benchmark-Ergebnisse

Gemessen auf MMLU-Benchmark (allgemeine Kenntnisse, 57 Aufgaben):

Llama 3 70B FP32 Baseline: 85,2 % Genauigkeit.
Llama 3 70B Q8: 85,1 % Genauigkeit (-0,1 % Verlust).
Llama 3 70B Q5: 84,7 % Genauigkeit (-0,5 % Verlust).
Llama 3 70B Q4: 84,0 % Genauigkeit (-1,2 % Verlust).
Llama 3 70B Q3: 81,5 % Genauigkeit (-3,7 % Verlust).
Auswirkung in der Praxis: Q4 vs. Q8 = 1–2 % weniger korrekte Antworten pro 100 Fragen.
Für Chat/Schreiben: unmerklicher Unterschied. Für MINT-Probleme: Q8 ist sicherer.

Qualitätsverlust-Benchmarks: Q8 = -0,1 % Verlust, Q5 = -0,5 % Verlust, Q4 = -1,2 % Verlust, Q3 = -3,7 % Verlust auf MMLU. Q4 Qualitätsverlust ist für die meisten Aufgaben unmerklich.

Wann sollte jede Stufe verwendet werden?

Q4: Standard. Verwenden Sie für alle Modelle. Optimaler Kompromiss zwischen Komprimierung und Qualität.

Q5: Nie. Verschwendung. Wenn Sie Q5-Qualität benötigen, verwenden Sie Q4 mit etwas größerem Modell. Wenn Sie Q5s VRAM (88 GB) haben, verwenden Sie Q4 auf 70B stattdessen.

Q8: Nur wenn Sie 32 GB+ VRAM UND ein Modell <70B haben UND perfekte Genauigkeit benötigen (Forschung, Medizin).

Q3: Budgetlösung. 3 % Qualitätsverlust akzeptabel? Verwenden Sie Q3. Andernfalls GPU upgraden oder kleineres Modell verwenden.

Q2: Notlösung. Qualitätsverlust zu hoch für die meisten. Verwenden Sie nur wenn Q3 zu Out-of-Memory führt.

Warum ist Q4 der Industriestandard?

Q4 ist optimal, weil:

1. 87,5 % VRAM-Ersparnis (bestes Verhältnis).

2. <1,2 % Qualitätsverlust (unmerklich für Nutzer).

3. Keine Geschwindigkeit-Strafe (speichergebunden, nicht rechengebunden).

4. Passt auf Verbraucherhardware (70B auf RTX 4090 24GB).

5. Industriestandard (HuggingFace, Ollama Standard auf Q4).

Jedes nach 2024 veröffentlichte Modell enthält eine Q4-Variante für Produktion.

Wenn ein Modell nur FP32/Q8/Q5 hat, ist das Projekt nicht produktionsreif.

Häufige Missverständnisse

Q4 klingt nach "niedriger Qualität", weil 4-Bit klein wirkt. Falsch. 1 % Qualitätsverlust ist unmerklich.
Quantisierung macht Inferenz langsamer. Falsch. Geschwindigkeit ist identisch (speichergebunden, nicht rechengebunden).
Ich sollte Q8 verwenden um sicher zu sein. Falsch. Q4 ist bewährt, sicher und Standard. Q8 ist verschwenderisch.
Ich benötige FP32 für Genauigkeit. Falsch. Nie wahr. Q8 reicht selbst für Forschung.

FAQ

Was ist LLM-Quantisierung?

Quantisierung komprimiert ein Modell durch Reduktion der numerischen Genauigkeit, reduziert Speicherverbrauch und erhöht Geschwindigkeit.

Was ist die beste Quantisierungsstufe?

Q4_K_M ist die beste Standardoption für die meisten Nutzer und balanciert Leistung und Qualität.

Verringert Quantisierung die Genauigkeit?

Ja, aber Q4–Q5 behalten die meiste Modellqualität, während der Speicherverbrauch erheblich sinkt.

Lohnt sich Q8?

Nur wenn Sie maximale Genauigkeit benötigen und genug RAM haben. Die meisten Nutzer profitieren nicht von Q8.

Sollte ich Q4 oder Q8 für Code-Generierung verwenden?

Q4. Die Geschwindigkeit ist identisch, der Qualitätsunterschied beträgt 1 %, was für Code-Generierung unmerklich ist.

Kann ich Q3 verwenden, wenn ich wenig VRAM habe?

Ja. Ein Qualitätsverlust von 3 % ist für Chat/kreatives Schreiben akzeptabel. Nicht akzeptabel für Denkaufgaben/Mathematik.

Gibt es Q6 oder Q7?

Keinen Standard. Einige Projekte implementieren benutzerdefinierte Level, aber Q4/Q5/Q8 sind der Industriestandard.

Welche Quantisierung ist am schnellsten?

Alle sind gleich schnell (speichergebunden). Q2 ist leicht schneller wegen weniger Speichertransfer, aber der Unterschied ist <5 %.

Kann ich Q4 zu FP32 dequantisieren?

Nein, Daten gehen verloren. Q4 → FP32 Interpolation stellt das Original nicht wieder her. Quantisierung ist Einbahnstraße.

Sollte ich mein fein abgestimmtes Modell quantisieren?

Ja, nach dem Training. Quantisieren Sie die trainierten Gewichte zu Q4 für die Bereitstellung.

Was bedeutet GGUF Q4_K_M?

Q4_K_M ist eine verfeinerte Q4-Variante, die K-Quants (gemischte Genauigkeit) verwendet. Der K-Algorithmus bewahrt mehr Genauigkeit bei Aufmerksamkeitsschichten. Q4_K_M ist der empfohlene HuggingFace-Download – faktisch Q4 mit etwa 0,3 % besserer Genauigkeit bei gleichen VRAM-Kosten.

Beeinflusst Quantisierung die Kontextlänge?

Nein. Quantisierung komprimiert Modellgewichte, nicht das Kontextfenster. Ein Q4-Modell hat die gleiche maximale Kontextlänge wie seine FP32-Version. Der Kontextspeicher (KV-Cache) ist ein separates Anliegen.

Muss ich bei der Verwendung von Quantisierung die DSGVO beachten?

Ja. Lokale Inferenz erfüllt die Anforderungen von DSGVO Artikel 28 (Datenverarbeitung vor Ort). Nutzen Sie lokale Quantisierung für DSGVO-Compliance, BSI-Grundschutz-Kataloge und Datenresidenz in der EU. Q4-Modelle laufen vollständig offline – kein Datentransfer zu Drittanbietern.

Ist Quantisierung für den deutschen Mittelstand geeignet?

Ja, besonders für den deutschen Mittelstand. Quantisierte Modelle laufen auf vorhandener Hardware (Laptops, lokalen Servern), erfüllen BSI-Grundschutz-Standards und reduzieren Lizenzkosten. KMUs profitieren vom Umstieg von Cloud-APIs zu lokal gehosteten Q4-Modellen – kosteneffizienz ohne Sicherheitskompromisse.

Weiterführende Lektüre

LLM-Quantisierung erklärt
Wie viel VRAM benötigen Sie?
Beste Budget-GPUs für lokale LLMs
Schnellste lokale LLMs für Low-End-PCs
Lokaler LLM-Hardware-Guide 2026 — GPU-Auswahl, VRAM-Stufen und CPU-Inferenz-Benchmarks
Beste lokale LLMs für Code 2026 — Code-spezifische Modell-Benchmarks und FIM-Support-Vergleich

Quellen

MMLU-Benchmark — OpenAI Evals — Messung der Genauigkeit über Q4/Q8/FP32-Quantisierungsstufen auf 57 Denkaufgaben
Llama 3 Model Card — Meta AI — Offizielle Genauigkeitsspezifikationen über Quantisierungsstufen
Towards Quantization-Aware Deep Neural Networks (arXiv 2024) — Forschung zu Quantisierungsfehlerschranken und K-Quant-Methodologie

Q4 vs Q5 vs Q8: Welche Quantisierungsstufe sollten Sie wählen?

Präsentation: Q4 vs Q5 vs Q8: Welche Quantisierungsstufe sollten Sie wählen?

Was ist LLM-Quantisierung?

Schnelle Fakten

Quantisierungsstufen im Vergleich: Q2 bis Q8

Beste Quantisierungsstufe nach Anwendungsfall

Wie beeinflusst Quantisierung VRAM und Geschwindigkeit?

Qualitätsverlust nach Stufe: MMLU-Benchmark-Ergebnisse

Wann sollte jede Stufe verwendet werden?

Warum ist Q4 der Industriestandard?

Häufige Missverständnisse

FAQ

Was ist LLM-Quantisierung?

Was ist die beste Quantisierungsstufe?

Verringert Quantisierung die Genauigkeit?

Lohnt sich Q8?

Sollte ich Q4 oder Q8 für Code-Generierung verwenden?

Kann ich Q3 verwenden, wenn ich wenig VRAM habe?

Gibt es Q6 oder Q7?

Welche Quantisierung ist am schnellsten?

Kann ich Q4 zu FP32 dequantisieren?

Sollte ich mein fein abgestimmtes Modell quantisieren?

Was bedeutet GGUF Q4_K_M?

Beeinflusst Quantisierung die Kontextlänge?

Muss ich bei der Verwendung von Quantisierung die DSGVO beachten?

Ist Quantisierung für den deutschen Mittelstand geeignet?

Weiterführende Lektüre

Quellen

A Note on Third-Party Facts