Wichtigste Erkenntnisse
- VRAM = (Modellgröße × Quantisierungs-Bits) ÷ 8
- FP16 = 16 Bits, Q8 = 8, Q5 = 5, Q4 = 4 Bits
- Beispiel: 13B-Modell bei Q4 = (13 × 4) ÷ 8 = 6,5 GB
- Addieren Sie immer 25 % Puffer für Kontext, Systemoverhead und Sicherheitsmarge
- Ab April 2026 ist diese Formel auf ±10 % genau
Quick Facts: VRAM-Anforderungen nach GPU
- RTX 4090 (24 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB), 70B bei Q4 mit Offloading
- RTX 4080 (16 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB), 32B bei Q4 (16 GB)
- RTX 4070 Ti (12 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB mit knappem Spielraum)
- M5 Max Mac (36 GB unified): Llama 3.1 13B bei FP16 (26 GB), 70B nicht möglich ohne extreme Quantisierung
- Faustregel: Budget immer 25–40 % zusätzliches VRAM für Kontext, Batching und Systemoverhead über dem Formelergebnis
In einem Satz
Der erforderliche VRAM (GB) entspricht Modellparametern in Milliarden multipliziert mit Quantisierungs-Bits (16 für FP16, 8 für Q8, 4 für Q4 usw.) geteilt durch 8.
In einfachen Worten
Stellen Sie sich VRAM wie Regalplatz vor. Größere Bücher (Modelle mit mehr Parametern wie 70B) benötigen mehr Regalplatz. Kleinere Bücher (Q4-Quantisierung) benötigen weniger Platz als größere (FP16). Die Formel sagt Ihnen exakt, wie viele „Regale" (GB) Sie benötigen. Lassen Sie immer extra leere Regale für Gespräche, mehrere gleichzeitige Anfragen und Systemsoftware.
Was ist die VRAM-Formel?
Die Formel für VRAM-Anforderung ist betrügerisch einfach:
💡 Pro-Tipp: Diese Formel berechnet nur Modellgewichte. Echte VRAM-Nutzung ist 25–40 % höher aufgrund von Kontext, Batching und Systemoverhead. Addieren Sie immer eine Sicherheitsmarge.
VRAM (GB) = (Modellgröße in Milliarden × Quantisierungs-Bits) ÷ 8
Beispiel:
- 7B-Modell bei 4-Bit-Quantisierung
- (7 × 4) ÷ 8 = 3,5 GB
- 13B-Modell bei 5-Bit-Quantisierung
- (13 × 5) ÷ 8 = 8,125 GB
- 70B-Modell bei 8-Bit-Quantisierung
- (70 × 8) ÷ 8 = 70 GBInteraktiver VRAM-Rechner
Verwenden Sie diesen Rechner, um exakte VRAM-Anforderungen für jede Kombination von Modell, Quantisierung, Kontext und Batch-Größe zu berechnen. Wählen Sie Ihre Konfiguration und sehen Sie, welche GPUs passen.
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
Was bedeuten Quantisierungsstufen?
🔍 Schlüsselinsight: Quantisierung handelt Dateigröße gegen Qualität. Q5 ist der Sweet Spot (95 % Qualität, 68 % kleiner). Q4 ist für die meisten Benutzer akzeptabel. Q3 und darunter sind nur für Edge-Geräte oder wenn VRAM kritisch begrenzt ist.
| Quantisierung | Größenreduktion | Qualität | Geschwindigkeit | Anwendungsfall |
|---|---|---|---|---|
| FP16 (16-Bit) | Keine (Basis) | 100 % (perfekt) | Basis | Forschung, Fine-Tuning |
| Q8 (8-Bit) | 50 % | 99 % (unmerklich) | Basis | Produktion, lokale Server |
| Q6 (6-Bit) | 62,5 % | 98 % (vernachlässigbar) | Basis | Ausgewogene Nutzung |
| Q5 (5-Bit) | 68,75 % | 95 % (geringer Verlust) | Basis | Gute Kompression, Consumer |
| Q4 (4-Bit) | 75 % | 90–95 % (akzeptabel) | Basis | Maximale Kompression |
| Q3 (3-Bit) | 81 % | 80–85 % (merklicher Verlust) | Schneller | Extreme Kompression, CPU |
| Q2 (2-Bit) | 87,5 % | 70 % (sichtbarer Verlust) | Am schnellsten | Kleine Modelle, Edge-Geräte |
Quick-Reference-Tabelle: VRAM nach Modell und Quantisierung
| Modell | FP16 | Q8 | Q5 | Q4 |
|---|---|---|---|---|
| 3B | 6 GB | 3 GB | 1,9 GB | 1,5 GB |
| 7B | 14 GB | 7 GB | 4,4 GB | 3,5 GB |
| 13B | 26 GB | 13 GB | 8,1 GB | 6,5 GB |
| 32B | 64 GB | 32 GB | 20 GB | 16 GB |
| 70B | 140 GB | 70 GB | 43,75 GB | 35 GB |
Praxisbeispiele
Praktische VRAM-Berechnungen für häufige Szenarien:
⚠️ Warnung: Diese Berechnungen sind nur für Modellgewichte. Addieren Sie 25–40 % für Kontext, Batch-Verarbeitung und Systemoverhead. Beispiel: 13B Q5 = 8,1 GB Modell + 2–3 GB Overhead = 10–11 GB tatsächlich.
- RTX 4070 Ti (12 GB): Llama 3.1 7B bei Q4 = 3,5 GB ✓ (viel Platz). Llama 3.1 13B bei Q5 = 8,1 GB ✓ (knapp, aber funktioniert ohne Kontext/Batching).
- RTX 4090 (24 GB): Llama 3.1 70B bei Q5 = 43,75 GB ✗ (zu groß). Llama 3.1 70B bei Q4 = 35 GB ✗ (immer noch zu groß). Llama 3.1 70B bei Q4 mit Offloading = funktioniert (langsam, 3–5 Tokens/s).
- M5 Max Mac (36 GB): Llama 3.1 13B bei FP16 = 26 GB ✓ (funktioniert). Llama 3.1 70B = unmöglich (selbst bei Q2, ~70 % Qualitätsverlust).
Welches lokale LLM passt zu Ihrer GPU? 2026-Anleitung
Verwenden Sie den interaktiven Rechner oben zur exakten Passform. Unten sind häufige GPU-Szenarien und empfohlene Modelle.
- RTX 3060 (12 GB): Bestes Modell: Qwen2.5 7B Q5 (4,4 GB) ✓. Alternative: Llama 3.2 8B Q4 (4 GB) ✓. Nicht möglich: 32B+ Modelle.
- RTX 4070 (12 GB): Bestes Modell: Qwen2.5 13B Q4 (6,5 GB) ✓. Mit Spielraum: Llama 3.2 8B Q5 (5 GB) ✓. Nicht möglich: 32B-Modelle.
- RTX 4070 Ti (12 GB): Bestes Modell: Qwen2.5 13B Q5 (8,1 GB) ✓. Enge Passform: Llama 3.3 13B Q4 (6,5 GB) ✓. Nicht ideal: Batch-Verarbeitung.
- RTX 4080 (16 GB): Bestes Modell: Qwen2.5 32B Q4 (16 GB) ✓ knapp. Komfortabel: Mistral 3.1 24B Q5 (15 GB) ✓. Empfohlen: Llama 3.3 13B Q8 (13 GB) ✓.
- RTX 4090 (24 GB): Bestes Modell: Qwen2.5 32B Q5 (20 GB) ✓. Mit Offload: Llama 3.3 70B Q4 (35 GB – benötigt Offloading). Komfortabel: Alle 32B bei Q5/Q8.
- RTX 5090 (32 GB, wenn veröffentlicht): Bestes Modell: Llama 3.3 70B Q4 (35 GB – enge Passform). Besser: Qwen2.5 72B Q3 (27 GB) ✓. Komfortabel: 70B bei Q5+ mit Batching.
Wie genau ist die Formel?
Die Formel ist für die meisten Fälle auf ±10 % genau. Echte VRAM-Nutzung variiert basierend auf Implementierung, Modellarchitektur und Inferenz-Engine-Optimierungen.
Variationsquellen umfassen: verschiedene Quantisierungsformate (GGUF vs. Safetensors vs. AWQ), Modellarchitektur (Transformer vs. Nicht-Transformer) und Inferenz-Engine-spezifische Optimierungen (vLLM, llama.cpp, Ollama).
Ab April 2026 behandeln Sie die Formel als konservative Schätzung. Addieren Sie immer 25 % Sicherheitsmarge beim GPU-Kauf, um Kontext-Overhead, Batching und Systemprozesse zu berücksichtigen.
Häufige Fehler bei VRAM-Berechnung
- Kontext-Overhead vergessen. Ein 7B-Modell bei Q4 ist 3,5 GB, aber mit 4K-Kontext benötigt es 5–6 GB gesamt.
- Modellgröße von HuggingFace ohne Quantisierung verwenden. 70B bedeutet 70 Milliarden Parameter, nicht 70 GB VRAM.
- Systemoverhead nicht berücksichtigen. Modelle erhalten nie vollständiges GPU-VRAM. 1–2 GB für OS und Inferenz-Engine reservieren.
- GPU exakt bei berechneter Größe kaufen. Kaufen Sie immer 25 % mehr. Berechneter 18 GB-Bedarf = kaufen Sie 24 GB GPU.
Überlegungen zur regionalen Bereitstellung
Europäische Union (GDPR): Lokale Inferenz (On-Premises) gewährleistet Datenschutz-Compliance unter GDPR. Das Ausführen von Modellen auf Ihrer eigenen GPU hält Benutzerdaten im Land. Dieser VRAM-Rechner hilft Ihnen, Hardware für datenschutzfreundliche Deployments richtig zu dimensionieren.
Deutschland & DACH-Region (BSI-Grundschutz): Der BSI-Grundschutz-Katalog ist Standard für deutsche Behörden, Finanzinstitute und Mittelstand. Lokale LLM-Inferenz erfüllt BSI-Anforderungen für sensible Daten: keine Cloud-Abhängigkeiten, vollständige Kontrolle über Datenverarbeitung. Dieser Rechner unterstützt DSGVO-konforme und BSI-konforme Deployments.
Japan (APPI): Das Gesetz zum Schutz personenbezogener Daten (APPI) erfordert sorgfältige Datenbehandlung. On-Device-LLM-Inferenz reduziert Datentransfer und externe Verarbeitung von Japan. Verwenden Sie diesen Rechner zur Dimensionierung für japanische Unternehmensbereitstellungen.
China (Datensicherheitsgesetz): Chinas 2021 Datensicherheitsgesetz erfordert Datenresidenz innerhalb chinesischer Grenzen. Lokale LLM-Inferenz auf inländischen Servern (Alibaba Cloud, Tencent Cloud) ist konform. Diese Formel gilt für Dimensionierung dieser Deployments mit chinesisch-optimierten Modellen wie Qwen2.5.
In allen Regionen bietet lokale Inferenz stärkere Datenschutz-Garantien als Cloud-APIs. Dieser VRAM-Rechner ist essentiell für das Design konformer, datenschutzfreundlicher KI-Systeme.
FAQ: VRAM und GPU-Anforderungen
Funktioniert die Formel für alle Modelltypen?
Ja. Die Formel (Modell-Milliarden × Quantisierungs-Bits) ÷ 8 gilt für alle Transformer-basierten Modelle (Llama, Qwen, Mistral, Claude usw.). Nicht-Transformer-Architekturen (RNNs usw.) sind selten und können Anpassungen erfordern.
Welche Quantisierung sollte ich verwenden?
Für die meisten Anwendungsfälle: Q5 bietet die beste Balance (95 % Qualität, 68 % Größenreduktion). Für Consumer-GPUs: Q4 ist Standard (90–95 % Qualität, 75 % Reduktion). Für Produktion: Q8, wenn VRAM verfügbar (99 % Qualität). Vermeiden Sie Q3 und darunter, es sei denn, Sie haben keine andere Wahl.
Wie viel System-RAM benötige ich?
Minimum 16 GB für Offloading. Wenn Sie VRAM-Offloading verwenden (CPU-Spillover), wird System-RAM zum Fallback. Für Batch-Verarbeitung addieren Sie 8–16 GB System-RAM zu den Modell-Offload-Anforderungen. Für Single-User-Chat genügen 16 GB.
Beeinflußt die Batch-Größe die VRAM-Berechnung?
Ja. Die Formel berechnet Single-Request-VRAM. Batch-Größe addiert zusätzliches VRAM linear: jede gleichzeitige Anfrage addiert ~500 MB–2 GB je nach Kontextlänge. Wenn Sie Batch=4 ausführen, addieren Sie 2–8 GB zur berechneten Menge.
Kann ich ein 70B-Modell auf einer 12 GB GPU ausführen?
Nur mit extremer Quantisierung (Q2, ~70 % Qualitätsverlust) und CPU-Offloading (sehr langsam, 1–3 Tokens/s). Nicht praktisch. Bessere Option: Verwenden Sie ein 13B-Modell bei Q4 (gleiches VRAM, viel schneller und bessere Qualität).
Was ist, wenn meine tatsächliche VRAM-Nutzung niedriger als berechnet ist?
Die Formel ist konservativ und includes Overhead. Niedrigere Nutzung bedeutet mehr Spielraum für Batch-Verarbeitung, längere Kontexte oder Sicherheitsmarge. Verwenden Sie nvidia-smi zur Messung echter Nutzung, dann benchen Sie Ihr Modell zur Leistungsbestätigung.
Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?
Ja. Die DSGVO Artikel 28 erfordert Datenverarbeitungsverträge. Lokale Inferenz auf eigenem Hardware erfüllt Datenschutz-Anforderungen: Daten bleiben on-premises, keine Übertragung an Cloud-APIs. BSI-Grundschutz-Kataloge für Bundestechnologiestandards: lokale LLMs erfüllen Anforderungen für sensible Daten in Behörden und Finanzinstitutionen. Diese VRAM-Berechnungen unterstützen DSGVO-konforme Deployments.
Ist der Einsatz lokaler LLMs für den deutschen Mittelstand geeignet?
Ja, sehr geeignet. Kleine und mittlere Unternehmen (Mittelstand) profitieren: Kostenenkontrolle (keine wiederkehrenden API-Kosten), Datensicherheit (keine externen Abhängigkeiten), Compliance mit BSI IT-Sicherheitsstandards. Mit diesem VRAM-Rechner können Mittelstand-Unternehmen exakt kalkulieren, welche GPU für ihre Anforderungen passt—oft genügt eine RTX 4070 Ti (€600–800) für 13B-Modelle. Besser als monatliche Cloud-Abos für APIs.
Quellen
- GGUF-Spezifikation -- ggerganov/ggml-Dokumentation zum quantisierten Dateiformat.
- Transformers Quantisierungs-Dokumentation -- Hugging Face offizieller Leitfaden zu Quantisierungsmethoden.
- Ollama-Dokumentation -- Offizielle Ollama-Anleitungen zur Modellverwaltung.
- vLLM Performance-Anleitung -- vLLM Framework Optimierungs-Dokumentation.