Wichtigste Erkenntnisse

VRAM = (Modellgröße × Quantisierungs-Bits) ÷ 8
FP16 = 16 Bits, Q8 = 8, Q5 = 5, Q4 = 4 Bits
Beispiel: 13B-Modell bei Q4 = (13 × 4) ÷ 8 = 6,5 GB
Addieren Sie immer 25 % Puffer für Kontext, Systemoverhead und Sicherheitsmarge
Ab April 2026 ist diese Formel auf ±10 % genau

Quick Facts: VRAM-Anforderungen nach GPU

RTX 4090 (24 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB), 70B bei Q4 mit Offloading
RTX 4080 (16 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB), 32B bei Q4 (16 GB)
RTX 4070 Ti (12 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB mit knappem Spielraum)
M5 Max Mac (36 GB unified): Llama 3.1 13B bei FP16 (26 GB), 70B nicht möglich ohne extreme Quantisierung
Faustregel: Budget immer 25–40 % zusätzliches VRAM für Kontext, Batching und Systemoverhead über dem Formelergebnis

In einem Satz

Der erforderliche VRAM (GB) entspricht Modellparametern in Milliarden multipliziert mit Quantisierungs-Bits (16 für FP16, 8 für Q8, 4 für Q4 usw.) geteilt durch 8.

In einfachen Worten

Stellen Sie sich VRAM wie Regalplatz vor. Größere Bücher (Modelle mit mehr Parametern wie 70B) benötigen mehr Regalplatz. Kleinere Bücher (Q4-Quantisierung) benötigen weniger Platz als größere (FP16). Die Formel sagt Ihnen exakt, wie viele „Regale" (GB) Sie benötigen. Lassen Sie immer extra leere Regale für Gespräche, mehrere gleichzeitige Anfragen und Systemsoftware.

Was ist die VRAM-Formel?

Die Formel für VRAM-Anforderung ist betrügerisch einfach:

💡 Pro-Tipp: Diese Formel berechnet nur Modellgewichte. Echte VRAM-Nutzung ist 25–40 % höher aufgrund von Kontext, Batching und Systemoverhead. Addieren Sie immer eine Sicherheitsmarge.

bash

VRAM (GB) = (Modellgröße in Milliarden × Quantisierungs-Bits) ÷ 8

Beispiel:
- 7B-Modell bei 4-Bit-Quantisierung
- (7 × 4) ÷ 8 = 3,5 GB

- 13B-Modell bei 5-Bit-Quantisierung
- (13 × 5) ÷ 8 = 8,125 GB

- 70B-Modell bei 8-Bit-Quantisierung
- (70 × 8) ÷ 8 = 70 GB

VRAM-Formel mit 3 Berechnungsbeispielen: 7B-Modell bei Q4 = 3,5 GB, 13B bei Q5 = 8,1 GB, 70B bei Q8 = 70 GB. Addieren Sie immer 25–40 % Puffer für Kontext, Batching und Systemoverhead.

Interaktiver VRAM-Rechner

Verwenden Sie diesen Rechner, um exakte VRAM-Anforderungen für jede Kombination von Modell, Quantisierung, Kontext und Batch-Größe zu berechnen. Wählen Sie Ihre Konfiguration und sehen Sie, welche GPUs passen.

Popular Models

Model Size

Quantization

Context Length

Batch Size

Use Case

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

Always use the "with safety margin" figure when buying a GPU
Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
Context overhead grows with conversation length. Budget 1-3 GB for typical usage
Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

Was bedeuten Quantisierungsstufen?

🔍 Schlüsselinsight: Quantisierung handelt Dateigröße gegen Qualität. Q5 ist der Sweet Spot (95 % Qualität, 68 % kleiner). Q4 ist für die meisten Benutzer akzeptabel. Q3 und darunter sind nur für Edge-Geräte oder wenn VRAM kritisch begrenzt ist.

Quantisierung	Größenreduktion	Qualität	Geschwindigkeit	Anwendungsfall
FP16 (16-Bit)	Keine (Basis)	100 % (perfekt)	Basis	Forschung, Fine-Tuning
Q8 (8-Bit)	50 %	99 % (unmerklich)	Basis	Produktion, lokale Server
Q6 (6-Bit)	62,5 %	98 % (vernachlässigbar)	Basis	Ausgewogene Nutzung
Q5 (5-Bit)	68,75 %	95 % (geringer Verlust)	Basis	Gute Kompression, Consumer
Q4 (4-Bit)	75 %	90–95 % (akzeptabel)	Basis	Maximale Kompression
Q3 (3-Bit)	81 %	80–85 % (merklicher Verlust)	Schneller	Extreme Kompression, CPU
Q2 (2-Bit)	87,5 %	70 % (sichtbarer Verlust)	Am schnellsten	Kleine Modelle, Edge-Geräte

Quantisierungsstufen-Vergleich: FP16 (100 % Qualität), Q8 (99 %), Q5 (95 %, empfohlen), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 reduziert ein 7B-Modell von 14 GB auf 4,4 GB mit nur 5 % Qualitätsverlust.

Quick-Reference-Tabelle: VRAM nach Modell und Quantisierung

Modell	FP16	Q8	Q5	Q4
3B	6 GB	3 GB	1,9 GB	1,5 GB
7B	14 GB	7 GB	4,4 GB	3,5 GB
13B	26 GB	13 GB	8,1 GB	6,5 GB
32B	64 GB	32 GB	20 GB	16 GB
70B	140 GB	70 GB	43,75 GB	35 GB

VRAM-Quick-Reference-Matrix: 3B bis 70B-Modelle bei FP16, Q8, Q5 und Q4-Quantisierung. Grün = passt in 12 GB GPU. Orange = benötigt 16–24 GB. Rot = benötigt 40+ GB oder Multi-GPU.

Praxisbeispiele

Praktische VRAM-Berechnungen für häufige Szenarien:

⚠️ Warnung: Diese Berechnungen sind nur für Modellgewichte. Addieren Sie 25–40 % für Kontext, Batch-Verarbeitung und Systemoverhead. Beispiel: 13B Q5 = 8,1 GB Modell + 2–3 GB Overhead = 10–11 GB tatsächlich.

RTX 4070 Ti (12 GB): Llama 3.1 7B bei Q4 = 3,5 GB ✓ (viel Platz). Llama 3.1 13B bei Q5 = 8,1 GB ✓ (knapp, aber funktioniert ohne Kontext/Batching).
RTX 4090 (24 GB): Llama 3.1 70B bei Q5 = 43,75 GB ✗ (zu groß). Llama 3.1 70B bei Q4 = 35 GB ✗ (immer noch zu groß). Llama 3.1 70B bei Q4 mit Offloading = funktioniert (langsam, 3–5 Tokens/s).
M5 Max Mac (36 GB): Llama 3.1 13B bei FP16 = 26 GB ✓ (funktioniert). Llama 3.1 70B = unmöglich (selbst bei Q2, ~70 % Qualitätsverlust).

Praxis-GPU-Szenarien: RTX 4090 (24 GB), RTX 4080 (16 GB), RTX 4070 Ti (12 GB), M5 Max Mac (36 GB) und RTX 3060 (12 GB) — welche Llama 3.1 Modelle jede bei verschiedenen Quantisierungsstufen ausführen kann.

Welcher versteckter VRAM-Overhead sollte man berücksichtigen?

Die Formel berechnet nur Modellgewichte. Ihre echte VRAM-Nutzung wird höher sein aufgrund mehrerer Faktoren. Budget zusätzlich 25–40 % über dem berechneten Betrag.

Kontextfenster (Key-Value-Cache) speichert Gesprächsverlauf während Inferenz. Ein 4K-Token-Kontext verwendet ca. 2–3 GB für ein 7B-Modell.

📌 Schlüsselpunkt: Batch-Verarbeitung erhöht VRAM-Nutzung linear. Jede zusätzliche gleichzeitige Anfrage (bei simultaner Verarbeitung mehrerer Anfragen) nutzt 500 MB–2 GB zusätzlich. Wenn Sie Batch=4 ausführen, multiplizieren Sie Single-Request-VRAM mit 4 und addieren Overhead.

Systemoverhead vom Betriebssystem und Inferenz-Engine-Framework (Ollama, vLLM, llama.cpp) reserviert 500 MB–1 GB. Halten Sie immer Sicherheitsmarge bei GPU-Auswahl.

Versteckter VRAM-Overhead-Aufschlüsselung: Kontextfenster (2–3 GB für 4K Tokens), Batch-Verarbeitung (×4 für Batch=4), Systemoverhead (500 MB–1 GB) und 25–40 % Sicherheitsmarge gesamt.

Welches lokale LLM passt zu Ihrer GPU? 2026-Anleitung

Verwenden Sie den interaktiven Rechner oben zur exakten Passform. Unten sind häufige GPU-Szenarien und empfohlene Modelle.

RTX 3060 (12 GB): Bestes Modell: Qwen2.5 7B Q5 (4,4 GB) ✓. Alternative: Llama 3.2 8B Q4 (4 GB) ✓. Nicht möglich: 32B+ Modelle.
RTX 4070 (12 GB): Bestes Modell: Qwen2.5 13B Q4 (6,5 GB) ✓. Mit Spielraum: Llama 3.2 8B Q5 (5 GB) ✓. Nicht möglich: 32B-Modelle.
RTX 4070 Ti (12 GB): Bestes Modell: Qwen2.5 13B Q5 (8,1 GB) ✓. Enge Passform: Llama 3.3 13B Q4 (6,5 GB) ✓. Nicht ideal: Batch-Verarbeitung.
RTX 4080 (16 GB): Bestes Modell: Qwen2.5 32B Q4 (16 GB) ✓ knapp. Komfortabel: Mistral 3.1 24B Q5 (15 GB) ✓. Empfohlen: Llama 3.3 13B Q8 (13 GB) ✓.
RTX 4090 (24 GB): Bestes Modell: Qwen2.5 32B Q5 (20 GB) ✓. Mit Offload: Llama 3.3 70B Q4 (35 GB – benötigt Offloading). Komfortabel: Alle 32B bei Q5/Q8.
RTX 5090 (32 GB, wenn veröffentlicht): Bestes Modell: Llama 3.3 70B Q4 (35 GB – enge Passform). Besser: Qwen2.5 72B Q3 (27 GB) ✓. Komfortabel: 70B bei Q5+ mit Batching.

Wie genau ist die Formel?

Die Formel ist für die meisten Fälle auf ±10 % genau. Echte VRAM-Nutzung variiert basierend auf Implementierung, Modellarchitektur und Inferenz-Engine-Optimierungen.

Variationsquellen umfassen: verschiedene Quantisierungsformate (GGUF vs. Safetensors vs. AWQ), Modellarchitektur (Transformer vs. Nicht-Transformer) und Inferenz-Engine-spezifische Optimierungen (vLLM, llama.cpp, Ollama).

Ab April 2026 behandeln Sie die Formel als konservative Schätzung. Addieren Sie immer 25 % Sicherheitsmarge beim GPU-Kauf, um Kontext-Overhead, Batching und Systemprozesse zu berücksichtigen.

VRAM-Formel-Genauigkeit ±10 %: Abweichung verursacht durch Quantisierungsformat (GGUF vs. GPTQ vs. AWQ), Modellarchitektur (Transformer vs. MoE) und Inferenz-Engine (vLLM vs. llama.cpp vs. Ollama).

Häufige Fehler bei VRAM-Berechnung

Kontext-Overhead vergessen. Ein 7B-Modell bei Q4 ist 3,5 GB, aber mit 4K-Kontext benötigt es 5–6 GB gesamt.
Modellgröße von HuggingFace ohne Quantisierung verwenden. 70B bedeutet 70 Milliarden Parameter, nicht 70 GB VRAM.
Systemoverhead nicht berücksichtigen. Modelle erhalten nie vollständiges GPU-VRAM. 1–2 GB für OS und Inferenz-Engine reservieren.
GPU exakt bei berechneter Größe kaufen. Kaufen Sie immer 25 % mehr. Berechneter 18 GB-Bedarf = kaufen Sie 24 GB GPU.

4 häufige VRAM-Fehler: Kontext-Overhead vergessen (addiert 1,5–3 GB), 70B-Parameter mit 70 GB VRAM verwechseln, Systemoverhead von 1–2 GB ignorieren, GPU exakt bei berechneter Größe kaufen ohne 25 % Marge.

Überlegungen zur regionalen Bereitstellung

Europäische Union (GDPR): Lokale Inferenz (On-Premises) gewährleistet Datenschutz-Compliance unter GDPR. Das Ausführen von Modellen auf Ihrer eigenen GPU hält Benutzerdaten im Land. Dieser VRAM-Rechner hilft Ihnen, Hardware für datenschutzfreundliche Deployments richtig zu dimensionieren.

Deutschland & DACH-Region (BSI-Grundschutz): Der BSI-Grundschutz-Katalog ist Standard für deutsche Behörden, Finanzinstitute und Mittelstand. Lokale LLM-Inferenz erfüllt BSI-Anforderungen für sensible Daten: keine Cloud-Abhängigkeiten, vollständige Kontrolle über Datenverarbeitung. Dieser Rechner unterstützt DSGVO-konforme und BSI-konforme Deployments.

Japan (APPI): Das Gesetz zum Schutz personenbezogener Daten (APPI) erfordert sorgfältige Datenbehandlung. On-Device-LLM-Inferenz reduziert Datentransfer und externe Verarbeitung von Japan. Verwenden Sie diesen Rechner zur Dimensionierung für japanische Unternehmensbereitstellungen.

China (Datensicherheitsgesetz): Chinas 2021 Datensicherheitsgesetz erfordert Datenresidenz innerhalb chinesischer Grenzen. Lokale LLM-Inferenz auf inländischen Servern (Alibaba Cloud, Tencent Cloud) ist konform. Diese Formel gilt für Dimensionierung dieser Deployments mit chinesisch-optimierten Modellen wie Qwen2.5.

In allen Regionen bietet lokale Inferenz stärkere Datenschutz-Garantien als Cloud-APIs. Dieser VRAM-Rechner ist essentiell für das Design konformer, datenschutzfreundlicher KI-Systeme.

FAQ: VRAM und GPU-Anforderungen

Funktioniert die Formel für alle Modelltypen?

Ja. Die Formel (Modell-Milliarden × Quantisierungs-Bits) ÷ 8 gilt für alle Transformer-basierten Modelle (Llama, Qwen, Mistral, Claude usw.). Nicht-Transformer-Architekturen (RNNs usw.) sind selten und können Anpassungen erfordern.

Welche Quantisierung sollte ich verwenden?

Für die meisten Anwendungsfälle: Q5 bietet die beste Balance (95 % Qualität, 68 % Größenreduktion). Für Consumer-GPUs: Q4 ist Standard (90–95 % Qualität, 75 % Reduktion). Für Produktion: Q8, wenn VRAM verfügbar (99 % Qualität). Vermeiden Sie Q3 und darunter, es sei denn, Sie haben keine andere Wahl.

Wie viel System-RAM benötige ich?

Minimum 16 GB für Offloading. Wenn Sie VRAM-Offloading verwenden (CPU-Spillover), wird System-RAM zum Fallback. Für Batch-Verarbeitung addieren Sie 8–16 GB System-RAM zu den Modell-Offload-Anforderungen. Für Single-User-Chat genügen 16 GB.

Beeinflußt die Batch-Größe die VRAM-Berechnung?

Ja. Die Formel berechnet Single-Request-VRAM. Batch-Größe addiert zusätzliches VRAM linear: jede gleichzeitige Anfrage addiert ~500 MB–2 GB je nach Kontextlänge. Wenn Sie Batch=4 ausführen, addieren Sie 2–8 GB zur berechneten Menge.

Kann ich ein 70B-Modell auf einer 12 GB GPU ausführen?

Nur mit extremer Quantisierung (Q2, ~70 % Qualitätsverlust) und CPU-Offloading (sehr langsam, 1–3 Tokens/s). Nicht praktisch. Bessere Option: Verwenden Sie ein 13B-Modell bei Q4 (gleiches VRAM, viel schneller und bessere Qualität).

Was ist, wenn meine tatsächliche VRAM-Nutzung niedriger als berechnet ist?

Die Formel ist konservativ und includes Overhead. Niedrigere Nutzung bedeutet mehr Spielraum für Batch-Verarbeitung, längere Kontexte oder Sicherheitsmarge. Verwenden Sie nvidia-smi zur Messung echter Nutzung, dann benchen Sie Ihr Modell zur Leistungsbestätigung.

Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?

Ja. Die DSGVO Artikel 28 erfordert Datenverarbeitungsverträge. Lokale Inferenz auf eigenem Hardware erfüllt Datenschutz-Anforderungen: Daten bleiben on-premises, keine Übertragung an Cloud-APIs. BSI-Grundschutz-Kataloge für Bundestechnologiestandards: lokale LLMs erfüllen Anforderungen für sensible Daten in Behörden und Finanzinstitutionen. Diese VRAM-Berechnungen unterstützen DSGVO-konforme Deployments.

Ist der Einsatz lokaler LLMs für den deutschen Mittelstand geeignet?

Ja, sehr geeignet. Kleine und mittlere Unternehmen (Mittelstand) profitieren: Kostenenkontrolle (keine wiederkehrenden API-Kosten), Datensicherheit (keine externen Abhängigkeiten), Compliance mit BSI IT-Sicherheitsstandards. Mit diesem VRAM-Rechner können Mittelstand-Unternehmen exakt kalkulieren, welche GPU für ihre Anforderungen passt—oft genügt eine RTX 4070 Ti (€600–800) für 13B-Modelle. Besser als monatliche Cloud-Abos für APIs.

Weiterführende Ressourcen

Hardware-Anleitung für lokale LLMs 2026 -- Vollständige GPU- und CPU-Empfehlungen für Ihr Budget.
Beste GPUs für lokale LLMs -- RTX 4090, 4080, 4070 Ti Benchmarks und Kostenanalyse.
70B-Modelle auf 24GB VRAM ausführen -- Quantisierungs- und Offloading-Techniken für große Modelle.
LLM-Quantisierung erklärt -- Tiefgang in Q4, Q5, Q8-Formate und Qualitäts-Trade-offs.
Stromverbrauch lokaler LLMs -- Netzteil-, Kühl- und Stromkostenanalyse.
Multi-GPU lokale LLMs -- Layer-Splitting und verteilte Inferenz für 70B+ Modelle.

Quellen

GGUF-Spezifikation -- ggerganov/ggml-Dokumentation zum quantisierten Dateiformat.
Transformers Quantisierungs-Dokumentation -- Hugging Face offizieller Leitfaden zu Quantisierungsmethoden.
Ollama-Dokumentation -- Offizielle Ollama-Anleitungen zur Modellverwaltung.
vLLM Performance-Anleitung -- vLLM Framework Optimierungs-Dokumentation.

VRAM-Rechner 2026: GPU-Anforderungen für 7B/13B/70B LLMs (Q4, Q5, Q8)

Präsentation: VRAM-Rechner 2026: GPU-Anforderungen für 7B/13B/70B LLMs (Q4, Q5, Q8)

Quick Facts: VRAM-Anforderungen nach GPU

In einem Satz

In einfachen Worten

Was ist die VRAM-Formel?

Interaktiver VRAM-Rechner

Compatible GPUs

Was bedeuten Quantisierungsstufen?

Quick-Reference-Tabelle: VRAM nach Modell und Quantisierung

Praxisbeispiele

Welcher versteckter VRAM-Overhead sollte man berücksichtigen?

Welches lokale LLM passt zu Ihrer GPU? 2026-Anleitung

Wie genau ist die Formel?

Häufige Fehler bei VRAM-Berechnung

Überlegungen zur regionalen Bereitstellung

FAQ: VRAM und GPU-Anforderungen

Funktioniert die Formel für alle Modelltypen?

Welche Quantisierung sollte ich verwenden?

Wie viel System-RAM benötige ich?

Beeinflußt die Batch-Größe die VRAM-Berechnung?

Kann ich ein 70B-Modell auf einer 12 GB GPU ausführen?

Was ist, wenn meine tatsächliche VRAM-Nutzung niedriger als berechnet ist?

Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?

Ist der Einsatz lokaler LLMs für den deutschen Mittelstand geeignet?

Quellen

A Note on Third-Party Facts