PromptQuorumPromptQuorum
Startseite/Lokale LLMs/VRAM-Rechner 2026: GPU-Anforderungen für 7B/13B/70B LLMs (Q4, Q5, Q8)
Hardware & Leistung

VRAM-Rechner 2026: GPU-Anforderungen für 7B/13B/70B LLMs (Q4, Q5, Q8)

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Diese Anleitung erklärt, wie Sie exakte VRAM-Anforderungen für jede Modell- und Hardware-Kombination berechnen. Die Formel ist einfach: (Modellgröße GB × Quantisierungs-Bits) ÷ 8 = VRAM erforderlich.

Interaktiver VRAM-Rechner für lokale LLMs. Geben Sie Modellgröße, Quantisierung, Kontextlänge und Batch-Größe ein, um den exakten GPU-VRAM-Bedarf zu berechnen. Funktioniert für 1B–405B-Modelle bei FP16, Q8, Q5, Q4-Quantisierung. Aktualisiert April 2026 mit RTX 4090, 4080, 3060-Kompatibilität und Overhead-Berechnungen.

Präsentation: VRAM-Rechner 2026: GPU-Anforderungen für 7B/13B/70B LLMs (Q4, Q5, Q8)

Das Foliendeck unten behandelt: VRAM-Formel (Modell-Milliarden × Quantisierungs-Bits) ÷ 8, Quantisierungsstufen Q2–FP16 mit Qualitäts-Trade-offs, Quick-Reference-Tabelle (3B–70B-Modelle), reale GPU-Szenarien (RTX 4090, 4080, M5 Max) und regionale Compliance (EU GDPR, Japan APPI, China Data Security Law). Laden Sie die PDF als VRAM-Rechner-Referenzkarte herunter.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • VRAM = (Modellgröße × Quantisierungs-Bits) ÷ 8
  • FP16 = 16 Bits, Q8 = 8, Q5 = 5, Q4 = 4 Bits
  • Beispiel: 13B-Modell bei Q4 = (13 × 4) ÷ 8 = 6,5 GB
  • Addieren Sie immer 25 % Puffer für Kontext, Systemoverhead und Sicherheitsmarge
  • Ab April 2026 ist diese Formel auf ±10 % genau

Quick Facts: VRAM-Anforderungen nach GPU

  • RTX 4090 (24 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB), 70B bei Q4 mit Offloading
  • RTX 4080 (16 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB), 32B bei Q4 (16 GB)
  • RTX 4070 Ti (12 GB): Llama 3.1 7B bei Q4 (3,5 GB), 13B bei Q5 (8,1 GB mit knappem Spielraum)
  • M5 Max Mac (36 GB unified): Llama 3.1 13B bei FP16 (26 GB), 70B nicht möglich ohne extreme Quantisierung
  • Faustregel: Budget immer 25–40 % zusätzliches VRAM für Kontext, Batching und Systemoverhead über dem Formelergebnis

In einem Satz

Der erforderliche VRAM (GB) entspricht Modellparametern in Milliarden multipliziert mit Quantisierungs-Bits (16 für FP16, 8 für Q8, 4 für Q4 usw.) geteilt durch 8.

In einfachen Worten

Stellen Sie sich VRAM wie Regalplatz vor. Größere Bücher (Modelle mit mehr Parametern wie 70B) benötigen mehr Regalplatz. Kleinere Bücher (Q4-Quantisierung) benötigen weniger Platz als größere (FP16). Die Formel sagt Ihnen exakt, wie viele „Regale" (GB) Sie benötigen. Lassen Sie immer extra leere Regale für Gespräche, mehrere gleichzeitige Anfragen und Systemsoftware.

Was ist die VRAM-Formel?

Die Formel für VRAM-Anforderung ist betrügerisch einfach:

💡 Pro-Tipp: Diese Formel berechnet nur Modellgewichte. Echte VRAM-Nutzung ist 25–40 % höher aufgrund von Kontext, Batching und Systemoverhead. Addieren Sie immer eine Sicherheitsmarge.

bash
VRAM (GB) = (Modellgröße in Milliarden × Quantisierungs-Bits) ÷ 8

Beispiel:
- 7B-Modell bei 4-Bit-Quantisierung
- (7 × 4) ÷ 8 = 3,5 GB

- 13B-Modell bei 5-Bit-Quantisierung
- (13 × 5) ÷ 8 = 8,125 GB

- 70B-Modell bei 8-Bit-Quantisierung
- (70 × 8) ÷ 8 = 70 GB
VRAM-Formel mit 3 Berechnungsbeispielen: 7B-Modell bei Q4 = 3,5 GB, 13B bei Q5 = 8,1 GB, 70B bei Q8 = 70 GB. Addieren Sie immer 25–40 % Puffer für Kontext, Batching und Systemoverhead.
VRAM-Formel mit 3 Berechnungsbeispielen: 7B-Modell bei Q4 = 3,5 GB, 13B bei Q5 = 8,1 GB, 70B bei Q8 = 70 GB. Addieren Sie immer 25–40 % Puffer für Kontext, Batching und Systemoverhead.

Interaktiver VRAM-Rechner

Verwenden Sie diesen Rechner, um exakte VRAM-Anforderungen für jede Kombination von Modell, Quantisierung, Kontext und Batch-Größe zu berechnen. Wählen Sie Ihre Konfiguration und sehen Sie, welche GPUs passen.

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

Was bedeuten Quantisierungsstufen?

🔍 Schlüsselinsight: Quantisierung handelt Dateigröße gegen Qualität. Q5 ist der Sweet Spot (95 % Qualität, 68 % kleiner). Q4 ist für die meisten Benutzer akzeptabel. Q3 und darunter sind nur für Edge-Geräte oder wenn VRAM kritisch begrenzt ist.

QuantisierungGrößenreduktionQualitätGeschwindigkeitAnwendungsfall
FP16 (16-Bit)Keine (Basis)100 % (perfekt)BasisForschung, Fine-Tuning
Q8 (8-Bit)50 %99 % (unmerklich)BasisProduktion, lokale Server
Q6 (6-Bit)62,5 %98 % (vernachlässigbar)BasisAusgewogene Nutzung
Q5 (5-Bit)68,75 %95 % (geringer Verlust)BasisGute Kompression, Consumer
Q4 (4-Bit)75 %90–95 % (akzeptabel)BasisMaximale Kompression
Q3 (3-Bit)81 %80–85 % (merklicher Verlust)SchnellerExtreme Kompression, CPU
Q2 (2-Bit)87,5 %70 % (sichtbarer Verlust)Am schnellstenKleine Modelle, Edge-Geräte
Quantisierungsstufen-Vergleich: FP16 (100 % Qualität), Q8 (99 %), Q5 (95 %, empfohlen), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 reduziert ein 7B-Modell von 14 GB auf 4,4 GB mit nur 5 % Qualitätsverlust.
Quantisierungsstufen-Vergleich: FP16 (100 % Qualität), Q8 (99 %), Q5 (95 %, empfohlen), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 reduziert ein 7B-Modell von 14 GB auf 4,4 GB mit nur 5 % Qualitätsverlust.

Quick-Reference-Tabelle: VRAM nach Modell und Quantisierung

ModellFP16Q8Q5Q4
3B6 GB3 GB1,9 GB1,5 GB
7B14 GB7 GB4,4 GB3,5 GB
13B26 GB13 GB8,1 GB6,5 GB
32B64 GB32 GB20 GB16 GB
70B140 GB70 GB43,75 GB35 GB
VRAM-Quick-Reference-Matrix: 3B bis 70B-Modelle bei FP16, Q8, Q5 und Q4-Quantisierung. Grün = passt in 12 GB GPU. Orange = benötigt 16–24 GB. Rot = benötigt 40+ GB oder Multi-GPU.
VRAM-Quick-Reference-Matrix: 3B bis 70B-Modelle bei FP16, Q8, Q5 und Q4-Quantisierung. Grün = passt in 12 GB GPU. Orange = benötigt 16–24 GB. Rot = benötigt 40+ GB oder Multi-GPU.

Praxisbeispiele

Praktische VRAM-Berechnungen für häufige Szenarien:

⚠️ Warnung: Diese Berechnungen sind nur für Modellgewichte. Addieren Sie 25–40 % für Kontext, Batch-Verarbeitung und Systemoverhead. Beispiel: 13B Q5 = 8,1 GB Modell + 2–3 GB Overhead = 10–11 GB tatsächlich.

  • RTX 4070 Ti (12 GB): Llama 3.1 7B bei Q4 = 3,5 GB ✓ (viel Platz). Llama 3.1 13B bei Q5 = 8,1 GB ✓ (knapp, aber funktioniert ohne Kontext/Batching).
  • RTX 4090 (24 GB): Llama 3.1 70B bei Q5 = 43,75 GB ✗ (zu groß). Llama 3.1 70B bei Q4 = 35 GB ✗ (immer noch zu groß). Llama 3.1 70B bei Q4 mit Offloading = funktioniert (langsam, 3–5 Tokens/s).
  • M5 Max Mac (36 GB): Llama 3.1 13B bei FP16 = 26 GB ✓ (funktioniert). Llama 3.1 70B = unmöglich (selbst bei Q2, ~70 % Qualitätsverlust).
Praxis-GPU-Szenarien: RTX 4090 (24 GB), RTX 4080 (16 GB), RTX 4070 Ti (12 GB), M5 Max Mac (36 GB) und RTX 3060 (12 GB) — welche Llama 3.1 Modelle jede bei verschiedenen Quantisierungsstufen ausführen kann.
Praxis-GPU-Szenarien: RTX 4090 (24 GB), RTX 4080 (16 GB), RTX 4070 Ti (12 GB), M5 Max Mac (36 GB) und RTX 3060 (12 GB) — welche Llama 3.1 Modelle jede bei verschiedenen Quantisierungsstufen ausführen kann.

Welcher versteckter VRAM-Overhead sollte man berücksichtigen?

Die Formel berechnet nur Modellgewichte. Ihre echte VRAM-Nutzung wird höher sein aufgrund mehrerer Faktoren. Budget zusätzlich 25–40 % über dem berechneten Betrag.

Kontextfenster (Key-Value-Cache) speichert Gesprächsverlauf während Inferenz. Ein 4K-Token-Kontext verwendet ca. 2–3 GB für ein 7B-Modell.

📌 Schlüsselpunkt: Batch-Verarbeitung erhöht VRAM-Nutzung linear. Jede zusätzliche gleichzeitige Anfrage (bei simultaner Verarbeitung mehrerer Anfragen) nutzt 500 MB–2 GB zusätzlich. Wenn Sie Batch=4 ausführen, multiplizieren Sie Single-Request-VRAM mit 4 und addieren Overhead.

Systemoverhead vom Betriebssystem und Inferenz-Engine-Framework (Ollama, vLLM, llama.cpp) reserviert 500 MB–1 GB. Halten Sie immer Sicherheitsmarge bei GPU-Auswahl.

Versteckter VRAM-Overhead-Aufschlüsselung: Kontextfenster (2–3 GB für 4K Tokens), Batch-Verarbeitung (×4 für Batch=4), Systemoverhead (500 MB–1 GB) und 25–40 % Sicherheitsmarge gesamt.
Versteckter VRAM-Overhead-Aufschlüsselung: Kontextfenster (2–3 GB für 4K Tokens), Batch-Verarbeitung (×4 für Batch=4), Systemoverhead (500 MB–1 GB) und 25–40 % Sicherheitsmarge gesamt.

Welches lokale LLM passt zu Ihrer GPU? 2026-Anleitung

Verwenden Sie den interaktiven Rechner oben zur exakten Passform. Unten sind häufige GPU-Szenarien und empfohlene Modelle.

  • RTX 3060 (12 GB): Bestes Modell: Qwen2.5 7B Q5 (4,4 GB) ✓. Alternative: Llama 3.2 8B Q4 (4 GB) ✓. Nicht möglich: 32B+ Modelle.
  • RTX 4070 (12 GB): Bestes Modell: Qwen2.5 13B Q4 (6,5 GB) ✓. Mit Spielraum: Llama 3.2 8B Q5 (5 GB) ✓. Nicht möglich: 32B-Modelle.
  • RTX 4070 Ti (12 GB): Bestes Modell: Qwen2.5 13B Q5 (8,1 GB) ✓. Enge Passform: Llama 3.3 13B Q4 (6,5 GB) ✓. Nicht ideal: Batch-Verarbeitung.
  • RTX 4080 (16 GB): Bestes Modell: Qwen2.5 32B Q4 (16 GB) ✓ knapp. Komfortabel: Mistral 3.1 24B Q5 (15 GB) ✓. Empfohlen: Llama 3.3 13B Q8 (13 GB) ✓.
  • RTX 4090 (24 GB): Bestes Modell: Qwen2.5 32B Q5 (20 GB) ✓. Mit Offload: Llama 3.3 70B Q4 (35 GB – benötigt Offloading). Komfortabel: Alle 32B bei Q5/Q8.
  • RTX 5090 (32 GB, wenn veröffentlicht): Bestes Modell: Llama 3.3 70B Q4 (35 GB – enge Passform). Besser: Qwen2.5 72B Q3 (27 GB) ✓. Komfortabel: 70B bei Q5+ mit Batching.

Wie genau ist die Formel?

Die Formel ist für die meisten Fälle auf ±10 % genau. Echte VRAM-Nutzung variiert basierend auf Implementierung, Modellarchitektur und Inferenz-Engine-Optimierungen.

Variationsquellen umfassen: verschiedene Quantisierungsformate (GGUF vs. Safetensors vs. AWQ), Modellarchitektur (Transformer vs. Nicht-Transformer) und Inferenz-Engine-spezifische Optimierungen (vLLM, llama.cpp, Ollama).

Ab April 2026 behandeln Sie die Formel als konservative Schätzung. Addieren Sie immer 25 % Sicherheitsmarge beim GPU-Kauf, um Kontext-Overhead, Batching und Systemprozesse zu berücksichtigen.

VRAM-Formel-Genauigkeit ±10 %: Abweichung verursacht durch Quantisierungsformat (GGUF vs. GPTQ vs. AWQ), Modellarchitektur (Transformer vs. MoE) und Inferenz-Engine (vLLM vs. llama.cpp vs. Ollama).
VRAM-Formel-Genauigkeit ±10 %: Abweichung verursacht durch Quantisierungsformat (GGUF vs. GPTQ vs. AWQ), Modellarchitektur (Transformer vs. MoE) und Inferenz-Engine (vLLM vs. llama.cpp vs. Ollama).

Häufige Fehler bei VRAM-Berechnung

  • Kontext-Overhead vergessen. Ein 7B-Modell bei Q4 ist 3,5 GB, aber mit 4K-Kontext benötigt es 5–6 GB gesamt.
  • Modellgröße von HuggingFace ohne Quantisierung verwenden. 70B bedeutet 70 Milliarden Parameter, nicht 70 GB VRAM.
  • Systemoverhead nicht berücksichtigen. Modelle erhalten nie vollständiges GPU-VRAM. 1–2 GB für OS und Inferenz-Engine reservieren.
  • GPU exakt bei berechneter Größe kaufen. Kaufen Sie immer 25 % mehr. Berechneter 18 GB-Bedarf = kaufen Sie 24 GB GPU.
4 häufige VRAM-Fehler: Kontext-Overhead vergessen (addiert 1,5–3 GB), 70B-Parameter mit 70 GB VRAM verwechseln, Systemoverhead von 1–2 GB ignorieren, GPU exakt bei berechneter Größe kaufen ohne 25 % Marge.
4 häufige VRAM-Fehler: Kontext-Overhead vergessen (addiert 1,5–3 GB), 70B-Parameter mit 70 GB VRAM verwechseln, Systemoverhead von 1–2 GB ignorieren, GPU exakt bei berechneter Größe kaufen ohne 25 % Marge.

Überlegungen zur regionalen Bereitstellung

Europäische Union (GDPR): Lokale Inferenz (On-Premises) gewährleistet Datenschutz-Compliance unter GDPR. Das Ausführen von Modellen auf Ihrer eigenen GPU hält Benutzerdaten im Land. Dieser VRAM-Rechner hilft Ihnen, Hardware für datenschutzfreundliche Deployments richtig zu dimensionieren.

Deutschland & DACH-Region (BSI-Grundschutz): Der BSI-Grundschutz-Katalog ist Standard für deutsche Behörden, Finanzinstitute und Mittelstand. Lokale LLM-Inferenz erfüllt BSI-Anforderungen für sensible Daten: keine Cloud-Abhängigkeiten, vollständige Kontrolle über Datenverarbeitung. Dieser Rechner unterstützt DSGVO-konforme und BSI-konforme Deployments.

Japan (APPI): Das Gesetz zum Schutz personenbezogener Daten (APPI) erfordert sorgfältige Datenbehandlung. On-Device-LLM-Inferenz reduziert Datentransfer und externe Verarbeitung von Japan. Verwenden Sie diesen Rechner zur Dimensionierung für japanische Unternehmensbereitstellungen.

China (Datensicherheitsgesetz): Chinas 2021 Datensicherheitsgesetz erfordert Datenresidenz innerhalb chinesischer Grenzen. Lokale LLM-Inferenz auf inländischen Servern (Alibaba Cloud, Tencent Cloud) ist konform. Diese Formel gilt für Dimensionierung dieser Deployments mit chinesisch-optimierten Modellen wie Qwen2.5.

In allen Regionen bietet lokale Inferenz stärkere Datenschutz-Garantien als Cloud-APIs. Dieser VRAM-Rechner ist essentiell für das Design konformer, datenschutzfreundlicher KI-Systeme.

FAQ: VRAM und GPU-Anforderungen

Funktioniert die Formel für alle Modelltypen?

Ja. Die Formel (Modell-Milliarden × Quantisierungs-Bits) ÷ 8 gilt für alle Transformer-basierten Modelle (Llama, Qwen, Mistral, Claude usw.). Nicht-Transformer-Architekturen (RNNs usw.) sind selten und können Anpassungen erfordern.

Welche Quantisierung sollte ich verwenden?

Für die meisten Anwendungsfälle: Q5 bietet die beste Balance (95 % Qualität, 68 % Größenreduktion). Für Consumer-GPUs: Q4 ist Standard (90–95 % Qualität, 75 % Reduktion). Für Produktion: Q8, wenn VRAM verfügbar (99 % Qualität). Vermeiden Sie Q3 und darunter, es sei denn, Sie haben keine andere Wahl.

Wie viel System-RAM benötige ich?

Minimum 16 GB für Offloading. Wenn Sie VRAM-Offloading verwenden (CPU-Spillover), wird System-RAM zum Fallback. Für Batch-Verarbeitung addieren Sie 8–16 GB System-RAM zu den Modell-Offload-Anforderungen. Für Single-User-Chat genügen 16 GB.

Beeinflußt die Batch-Größe die VRAM-Berechnung?

Ja. Die Formel berechnet Single-Request-VRAM. Batch-Größe addiert zusätzliches VRAM linear: jede gleichzeitige Anfrage addiert ~500 MB–2 GB je nach Kontextlänge. Wenn Sie Batch=4 ausführen, addieren Sie 2–8 GB zur berechneten Menge.

Kann ich ein 70B-Modell auf einer 12 GB GPU ausführen?

Nur mit extremer Quantisierung (Q2, ~70 % Qualitätsverlust) und CPU-Offloading (sehr langsam, 1–3 Tokens/s). Nicht praktisch. Bessere Option: Verwenden Sie ein 13B-Modell bei Q4 (gleiches VRAM, viel schneller und bessere Qualität).

Was ist, wenn meine tatsächliche VRAM-Nutzung niedriger als berechnet ist?

Die Formel ist konservativ und includes Overhead. Niedrigere Nutzung bedeutet mehr Spielraum für Batch-Verarbeitung, längere Kontexte oder Sicherheitsmarge. Verwenden Sie nvidia-smi zur Messung echter Nutzung, dann benchen Sie Ihr Modell zur Leistungsbestätigung.

Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?

Ja. Die DSGVO Artikel 28 erfordert Datenverarbeitungsverträge. Lokale Inferenz auf eigenem Hardware erfüllt Datenschutz-Anforderungen: Daten bleiben on-premises, keine Übertragung an Cloud-APIs. BSI-Grundschutz-Kataloge für Bundestechnologiestandards: lokale LLMs erfüllen Anforderungen für sensible Daten in Behörden und Finanzinstitutionen. Diese VRAM-Berechnungen unterstützen DSGVO-konforme Deployments.

Ist der Einsatz lokaler LLMs für den deutschen Mittelstand geeignet?

Ja, sehr geeignet. Kleine und mittlere Unternehmen (Mittelstand) profitieren: Kostenenkontrolle (keine wiederkehrenden API-Kosten), Datensicherheit (keine externen Abhängigkeiten), Compliance mit BSI IT-Sicherheitsstandards. Mit diesem VRAM-Rechner können Mittelstand-Unternehmen exakt kalkulieren, welche GPU für ihre Anforderungen passt—oft genügt eine RTX 4070 Ti (€600–800) für 13B-Modelle. Besser als monatliche Cloud-Abos für APIs.

Quellen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

VRAM-Rechner 2026: GPU-Anforderungen für 7B/13B/70B LLMs