Was ist LLM-Quantisierung?
LLM-Quantisierung reduziert die Modellgröße durch Komprimierung von Gewichten von 16-Bit auf niedrigere Präzisionsformate wie Q4 oder Q8.
- Q2–Q3 → schnellste, niedrigste Qualität
- Q4 → bestes Gleichgewicht (empfohlen)
- Q5–Q6 → höhere Qualität, mehr RAM
- Q8 → fast volle Präzision, am langsamsten
Wichtigste Erkenntnisse
- Q4 (4-Bit): 87,5 % VRAM-Ersparnis, ~1 % Qualitätsverlust. Verwenden Sie dies für alles.
- Q5 (5-Bit): 84 % VRAM-Ersparnis, ~0,5 % Qualitätsverlust. Nie notwendig; Q4 + Q8 grenzen Q5 ein.
- Q8 (8-Bit): 50 % VRAM-Ersparnis, <0,1 % Qualitätsverlust. Für Perfektionisten mit überschüssigem VRAM.
- FP32 (32-Bit): Volle Präzision, 0 % Verlust, 0 % Ersparnis. Unpraktisch; überspringen Sie es.
- Geschwindigkeit: Alle Quantisierungen laufen mit identischen Token/Sekunde (speichergebunden, nicht rechengebunden).
- VRAM-Verbrauch (70B Llama-Modell): FP32=280 GB, Q8=140 GB, Q5=88 GB, Q4=70 GB.
- Empfehlung: Verwenden Sie Q4 für 7B–70B. Verwenden Sie Q8 nur wenn Sie 32 GB+ VRAM haben und makellose Qualität benötigen.
- Niemand verwendet Q5, weil Q4 + kleine Steigerung = besser als Q5 + gleiche Hardware.
Schnelle Fakten
- Q4 VRAM-Ersparnis: 87,5 % vs. FP32 (70 GB für Llama 3 70B)
- Q4 Qualitätsverlust: <1,2 % auf MMLU-Benchmark
- Q8 VRAM-Ersparnis: 50 % vs. FP32 (140 GB für Llama 3 70B)
- Geschwindigkeitsunterschied: 0 % — alle Quantisierungen laufen mit identischen Tokens/Sekunde
- Q5-Urteil: Tote Zone — Q4 + größeres Modell = besseres Ergebnis bei gleichem VRAM
Quantisierungsstufen im Vergleich: Q2 bis Q8
| Quantisierung | RAM-Verbrauch | Geschwindigkeit | Qualität | Beste für |
|---|---|---|---|---|
| Q2 | Sehr niedrig | Sehr schnell | Schlecht | Experimente |
| Q3 | Niedrig | Schnell | Niedrig | Kleine Geräte |
| Q4 | Mittel | Schnell | Gut | Die meisten Nutzer |
| Q5 | Mittel+ | Mittel | Sehr gut | Code |
| Q6 | Hoch | Langsamer | Ausgezeichnet | Genauigkeit Fokus |
| Q8 | Sehr hoch | Langsam | Nah an FP16 | Benchmarking |
Beste Quantisierungsstufe nach Anwendungsfall
- 8 GB RAM: Q3 oder Q4 (nur kleine 7B-Modelle)
- 16 GB RAM: Q4_K_M (empfohlen für die meisten Laptops)
- 32 GB RAM: Q5, Q6 oder Q8 (größere Modelle, höhere Qualität)
- Maximale Genauigkeit: Q8 (wenn VRAM keine Einschränkung ist)
Wie beeinflusst Quantisierung VRAM und Geschwindigkeit?
VRAM-Berechnung: Modellgröße (GB) × Quantisierungsfaktor.
Llama 3 70B:
- FP32: 70B × 4 Bytes = 280 GB (unpraktisch)
- Q8: 70B × 1 Byte = 140 GB (benötigt 140 GB VRAM)
- Q4: 70B × 0,5 Bytes = 70 GB (passt auf RTX 4090 + etwas Overhead)
Geschwindigkeit: Alle Quantisierungen sind speichergebunden (warten auf DRAM), nicht rechengebunden.
TokensSekunde sind auf gleicher Hardware identisch über Q2-FP32 hinweg.
VRAM-Bandbreite, nicht Berechnung, ist der Engpass. Quantisierung spart VRAM, nicht Zeit.
Qualitätsverlust nach Stufe: MMLU-Benchmark-Ergebnisse
Gemessen auf MMLU-Benchmark (allgemeine Kenntnisse, 57 Aufgaben):
- Llama 3 70B FP32 Baseline: 85,2 % Genauigkeit.
- Llama 3 70B Q8: 85,1 % Genauigkeit (-0,1 % Verlust).
- Llama 3 70B Q5: 84,7 % Genauigkeit (-0,5 % Verlust).
- Llama 3 70B Q4: 84,0 % Genauigkeit (-1,2 % Verlust).
- Llama 3 70B Q3: 81,5 % Genauigkeit (-3,7 % Verlust).
- Auswirkung in der Praxis: Q4 vs. Q8 = 1–2 % weniger korrekte Antworten pro 100 Fragen.
- Für Chat/Schreiben: unmerklicher Unterschied. Für MINT-Probleme: Q8 ist sicherer.
Wann sollte jede Stufe verwendet werden?
Q4: Standard. Verwenden Sie für alle Modelle. Optimaler Kompromiss zwischen Komprimierung und Qualität.
Q5: Nie. Verschwendung. Wenn Sie Q5-Qualität benötigen, verwenden Sie Q4 mit etwas größerem Modell. Wenn Sie Q5s VRAM (88 GB) haben, verwenden Sie Q4 auf 70B stattdessen.
Q8: Nur wenn Sie 32 GB+ VRAM UND ein Modell <70B haben UND perfekte Genauigkeit benötigen (Forschung, Medizin).
Q3: Budgetlösung. 3 % Qualitätsverlust akzeptabel? Verwenden Sie Q3. Andernfalls GPU upgraden oder kleineres Modell verwenden.
Q2: Notlösung. Qualitätsverlust zu hoch für die meisten. Verwenden Sie nur wenn Q3 zu Out-of-Memory führt.
Warum ist Q4 der Industriestandard?
Q4 ist optimal, weil:
1. 87,5 % VRAM-Ersparnis (bestes Verhältnis).
2. <1,2 % Qualitätsverlust (unmerklich für Nutzer).
3. Keine Geschwindigkeit-Strafe (speichergebunden, nicht rechengebunden).
4. Passt auf Verbraucherhardware (70B auf RTX 4090 24GB).
5. Industriestandard (HuggingFace, Ollama Standard auf Q4).
Jedes nach 2024 veröffentlichte Modell enthält eine Q4-Variante für Produktion.
Wenn ein Modell nur FP32/Q8/Q5 hat, ist das Projekt nicht produktionsreif.
Häufige Missverständnisse
- Q4 klingt nach "niedriger Qualität", weil 4-Bit klein wirkt. Falsch. 1 % Qualitätsverlust ist unmerklich.
- Quantisierung macht Inferenz langsamer. Falsch. Geschwindigkeit ist identisch (speichergebunden, nicht rechengebunden).
- Ich sollte Q8 verwenden um sicher zu sein. Falsch. Q4 ist bewährt, sicher und Standard. Q8 ist verschwenderisch.
- Ich benötige FP32 für Genauigkeit. Falsch. Nie wahr. Q8 reicht selbst für Forschung.
FAQ
Was ist LLM-Quantisierung?
Quantisierung komprimiert ein Modell durch Reduktion der numerischen Genauigkeit, reduziert Speicherverbrauch und erhöht Geschwindigkeit.
Was ist die beste Quantisierungsstufe?
Q4_K_M ist die beste Standardoption für die meisten Nutzer und balanciert Leistung und Qualität.
Verringert Quantisierung die Genauigkeit?
Ja, aber Q4–Q5 behalten die meiste Modellqualität, während der Speicherverbrauch erheblich sinkt.
Lohnt sich Q8?
Nur wenn Sie maximale Genauigkeit benötigen und genug RAM haben. Die meisten Nutzer profitieren nicht von Q8.
Sollte ich Q4 oder Q8 für Code-Generierung verwenden?
Q4. Die Geschwindigkeit ist identisch, der Qualitätsunterschied beträgt 1 %, was für Code-Generierung unmerklich ist.
Kann ich Q3 verwenden, wenn ich wenig VRAM habe?
Ja. Ein Qualitätsverlust von 3 % ist für Chat/kreatives Schreiben akzeptabel. Nicht akzeptabel für Denkaufgaben/Mathematik.
Gibt es Q6 oder Q7?
Keinen Standard. Einige Projekte implementieren benutzerdefinierte Level, aber Q4/Q5/Q8 sind der Industriestandard.
Welche Quantisierung ist am schnellsten?
Alle sind gleich schnell (speichergebunden). Q2 ist leicht schneller wegen weniger Speichertransfer, aber der Unterschied ist <5 %.
Kann ich Q4 zu FP32 dequantisieren?
Nein, Daten gehen verloren. Q4 → FP32 Interpolation stellt das Original nicht wieder her. Quantisierung ist Einbahnstraße.
Sollte ich mein fein abgestimmtes Modell quantisieren?
Ja, nach dem Training. Quantisieren Sie die trainierten Gewichte zu Q4 für die Bereitstellung.
Was bedeutet GGUF Q4_K_M?
Q4_K_M ist eine verfeinerte Q4-Variante, die K-Quants (gemischte Genauigkeit) verwendet. Der K-Algorithmus bewahrt mehr Genauigkeit bei Aufmerksamkeitsschichten. Q4_K_M ist der empfohlene HuggingFace-Download – faktisch Q4 mit etwa 0,3 % besserer Genauigkeit bei gleichen VRAM-Kosten.
Beeinflusst Quantisierung die Kontextlänge?
Nein. Quantisierung komprimiert Modellgewichte, nicht das Kontextfenster. Ein Q4-Modell hat die gleiche maximale Kontextlänge wie seine FP32-Version. Der Kontextspeicher (KV-Cache) ist ein separates Anliegen.
Muss ich bei der Verwendung von Quantisierung die DSGVO beachten?
Ja. Lokale Inferenz erfüllt die Anforderungen von DSGVO Artikel 28 (Datenverarbeitung vor Ort). Nutzen Sie lokale Quantisierung für DSGVO-Compliance, BSI-Grundschutz-Kataloge und Datenresidenz in der EU. Q4-Modelle laufen vollständig offline – kein Datentransfer zu Drittanbietern.
Ist Quantisierung für den deutschen Mittelstand geeignet?
Ja, besonders für den deutschen Mittelstand. Quantisierte Modelle laufen auf vorhandener Hardware (Laptops, lokalen Servern), erfüllen BSI-Grundschutz-Standards und reduzieren Lizenzkosten. KMUs profitieren vom Umstieg von Cloud-APIs zu lokal gehosteten Q4-Modellen – kosteneffizienz ohne Sicherheitskompromisse.
Weiterführende Lektüre
- LLM-Quantisierung erklärt
- Wie viel VRAM benötigen Sie?
- Beste Budget-GPUs für lokale LLMs
- Schnellste lokale LLMs für Low-End-PCs
- Lokaler LLM-Hardware-Guide 2026 — GPU-Auswahl, VRAM-Stufen und CPU-Inferenz-Benchmarks
- Beste lokale LLMs für Code 2026 — Code-spezifische Modell-Benchmarks und FIM-Support-Vergleich
Quellen
- MMLU-Benchmark — OpenAI Evals — Messung der Genauigkeit über Q4/Q8/FP32-Quantisierungsstufen auf 57 Denkaufgaben
- Llama 3 Model Card — Meta AI — Offizielle Genauigkeitsspezifikationen über Quantisierungsstufen
- Towards Quantization-Aware Deep Neural Networks (arXiv 2024) — Forschung zu Quantisierungsfehlerschranken und K-Quant-Methodologie