PromptQuorumPromptQuorum
Startseite/Lokale LLMs/VRAM-Richtlinie: 7B=8GB, 70B=48GB (2026 Guide)
GPU Buying Guides

VRAM-Richtlinie: 7B=8GB, 70B=48GB (2026 Guide)

·7 min Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Für 7B-Modelle bei Q4-Quantisierung benötigen Sie 4-5 GB VRAM -- jede moderne GPU mit 8 GB verwaltet dies mühelos. Für 13B-Modelle: 8-10 GB VRAM. Für 70B: 35-40 GB, erfordert zwei RTX 4090 oder eine einzelne A100. Ab April 2026 ist Q4 (4-Bit) die Standard-Quantisierungsmethode -- sie reduziert VRAM-Anforderungen um 87% gegenüber vollständiger Präzision mit unter 1% Qualitätsverlust für die meisten Aufgaben. Die VRAM-Formel: (Parameter in Milliarden × Bits pro Gewicht) ÷ 8, plus 10-15% Overhead für KV-Cache und Laufzeit.

Wichtigste Erkenntnisse

  • 7B-Modelle: Minimum 8 GB (Q4), komfortabel 10 GB (Q5), vollständig 14 GB.
  • 13B-Modelle: Minimum 12 GB (Q4), komfortabel 16 GB (Q5).
  • 70B-Modelle: Minimum 35-40 GB (Q4) -- erfordert 2× RTX 4090 oder A100.
  • Q4-Quantisierung: Reduziert VRAM um 87% gegenüber vollständiger Präzision, unter 1% Qualitätsverlust.
  • Apple Silicon: Einheitlicher Speicher ist vollständig für LLM-Inferenz verfügbar -- MacBook Pro M3 18 GB kann Llama3 13B Q4 ausführen.
  • RTX 4060 Ti 8 GB: 7B Q4 ist machbar, aber der Cache ist eng. RTX 4070 12 GB ist sicherer.
  • CPU-Inferenz: Möglich, aber GPU ist 20-40× schneller -- praktisch wird ein GPU mit mindestens 8 GB empfohlen.

VRAM-Berechnungsformel für lokale LLMs

VRAM erforderlich = (Modellparameter in Milliarden × Bits pro Gewicht) ÷ 8 + (KV-Cache + Laufzeit-Overhead)

Beispiel: Llama3 7B Q4 = (7 × 4) ÷ 8 + 1,5 GB = 3,5 + 1,5 = 5 GB

Q4: 32-Bit-Werte werden auf 4 Bits komprimiert (8× Reduktion).

Q8: 32-Bit → 8-Bit (4× Reduktion), nahezu vollständige Präzision.

FP32: Keine Kompression, vollständige Präzision, VRAM-intensiv.

KV-Cache: Proportional zur Sequenzlänge -- 128-Token-Ausgabe +1-2 GB, 2048-Token +5 GB.

VRAM nach Modellgröße

ModellgrößeFP32Q8Q5Q4Empfohlene GPU
3B12 GB3 GB2 GB1,5 GBCPU oder RTX 3060 (3GB)
7B28 GB7 GB4,5 GB3,5 GBRTX 4060 Ti (8GB), RTX 4070 (12GB)
13B52 GB13 GB8 GB7 GBRTX 4080 (16GB), RTX 6800 XT (16GB)
70B280 GB70 GB44 GB35-40 GBZwei RTX 4090 (24GB×2) oder A100 (80GB)
Qwen 3.6 35B-A3B (3B aktiv, MoE)*12 GB3 GB2 GB1,5 GBCPU oder RTX 3060 (3GB)
DeepSeek V4-Flash (13B aktiv / 284B gesamt, MoE)*52 GB13 GB8 GB7 GBRTX 4060 Ti (8GB), RTX 4070 (12GB)
Llama 4 Scout (17B aktiv / 109B gesamt, MoE)*68 GB17 GB11 GB9 GBRTX 4080 (16GB), RTX 6800 XT (16GB)
Kimi K2.6 (42B aktiv / 1T gesamt, MoE)*168 GB42 GB27 GB21 GBZwei RTX 4090 (24GB×2) oder A100 (80GB)
Kontext (KV-Cache)+40 GB @ 2048 Token+10 GB @ 2048 Token+6 GB @ 2048 Token+3-5 GB @ 2048 TokenDurch Ollama-Kontextlänge und top_k verwaltet

* MoE-Modelle: VRAM wird nur aus aktiven Parametern berechnet, nicht aus der Gesamtmodellgröße.

Wie reduziert Quantisierung VRAM-Anforderungen?

Quantisierung komprimiert Modellgewichte zu niedriger Präzision. Die Umwandlung von FP32 (32-Bit) auf Q4 (4-Bit) reduziert Werte um 87%.

Q4 (4-Bit): Standard für Consumer-GPUs. VRAM: 3,5× Reduktion. Qualität: Unter 1% Verlust. Für fast alle Aufgaben empfohlen.

Q5 (5-Bit): Ähnlich wie Q4, aber 2% bessere Genauigkeit. VRAM: 25% mehr, minimale Qualitätsverbesserung. Nur für fortgeschrittene Anwendungsfälle.

Q8 (8-Bit): Nahezu vollständige Präzision (<0,5% Verlust). VRAM-Reduktion: 4×. RTX 4080+ empfohlen.

FP32 (Vollständige Präzision): Alle Gewichte werden mit 32 Bit gespeichert. Auf Consumer-GPUs nicht praktikabel -- 70B FP32 benötigt 280 GB VRAM.

VRAM bestimmt die Modellgröße, aber das Prompt-Design bestimmt die Ausgabequalität. Techniken wie Chain-of-Thought und Few-Shot-Prompting können die Qualitätslücke zwischen kleineren und größeren Modellen schließen. Entdecken Sie das vollständige Prompt-Engineering-Toolkit, um mehr aus den Modellen herauszuholen, die Ihre Hardware unterstützt. Wenn Sie 12–16 GB VRAM haben und einen konkreten Coding-Workload zum Testen dieses Toolkits suchen, beschreibt GitHub Copilot durch ein lokales LLM ersetzen den Continue.dev + Ollama + Qwen3-Coder-Stack passend zu genau diesen VRAM-Stufen.

Batch-Größe und Multi-User-Inferenz

Batch-Größe ist die Anzahl der Text-Eingaben, die in einer Ausführung verarbeitet werden.

Single-User-Inferenz (batch=1): Eine Eingabeaufforderung auf einer GPU. VRAM: Nur Modellgröße + KV-Cache.

Beispiel: Llama3 7B Q4 = 3,5 GB (Modell) + 1,5 GB (KV-Cache) = 5 GB.

Batch-Verarbeitung (batch=4, 8, 16): Mehrere Eingaben gleichzeitig verarbeiten. VRAM: Linear steigend.

batch=4: ×4 VRAM (= 20 GB für 7B Q4). Durchsatz: ×3-3,5 (Parallelisierungsgewinn).

Batch-Inferenz ist wichtig für Multi-User-Server (3-5 Personen, gleichzeitige Anfragen). Für Single-User/Entwicklung nicht erforderlich.

KV-Cache (abhängig von Sequenzlänge):

VRAM-Overhead: Mehr als nur Modellgröße

Die Parametergröße des Modells ist nicht das gesamte VRAM-Anforderungs-Bild. Zusätzlicher Speicher ist erforderlich:

KV-Cache (Key-Value Cache): Das Modell muss vorherige Token „merken". Nebenprodukt des Transformer-Aufmerksamkeitsmechanismus.

- Proportional zur Eingabe-Ausgabe-Länge.

- 7B-Modell, 2048-Token-Kontext, batch=1: +2-4 GB.

Aktivierungen: Zwischenrechenergebnisse während der Inferenz.

- Typischerweise 10-15% der Modellgröße.

- 7B: +0,7-1,5 GB.

Laufzeit-Overhead: CUDA-Speicherpool, Framebuffer, OS-Reservierungen.

- Typischerweise 0,5-1,5 GB.

Häufige Fehler

Missverständnis 1: „VRAM erforderlich = Modellgröße"

VRAM ist immer größer als die Modellgröße. 3,5 GB-Modell benötigt mindestens 5 GB. RTX 4060 Ti 8 GB ist sicher, aber RTX 3060 6 GB birgt Risiken.

Missverständnis 2: „Apple Silicon (M3) Speicher ist nicht das gleiche wie GPU VRAM"

Apple Silicon verwendet Unified Memory -- CPU und GPU teilen einen Speicherpool. M3 18 GB entspricht 18 GB GPU VRAM. Llama3 13B Q4 (~7 GB) kann auf M3 16 GB ausgeführt werden.

Missverständnis 3: „Quantisierung verlangsamt die Inferenz"

Tatsächlich: Q4 ist schneller als Q5/Q8. Niedrigere Speicherbandbreite, effizienterer Cache. Ollama: Q4 ist einige Prozentpunkte schneller.

Regionales Umfeld

EU und Deutschland (DSGVO + BSI)

Die DSGVO verlangt von Unternehmen, dass Modellgewichte und Trainingsdaten auf dem EU-Territorium gespeichert bleiben. Lokale LLM-Inferenz ist eine Compliance-Anforderung, nicht optional. Das BSI (Bundesamt für Sicherheit in der Informationstechnik) empfiehlt lokale Inferenz als Best Practice für Unternehmen mit sensiblen Daten.

Enterprise-Leitlinien für den deutschen Mittelstand:

- 1-50 Nutzer: RTX 4070 Ti (12 GB) mit Llama3 13B Q4 (7-8 GB). Skalierbar mit Ollama im single-GPU-Modus.

- 50-500 Nutzer: RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB) für parallele Anfragen und Batch-Verarbeitung. Erfordert vLLM oder Text Generation WebUI.

- 500+ Nutzer: A100 (80 GB) oder H100 (80 GB). Enterprise-Setup mit Load-Balancing über mehrere Server.

BSI-Sicherheitsempfehlungen:

- ECC-GPUs (A6000, A100) für Speicherfehler-Detektion.

- GPU-Speicher-Dumps verhindern durch physische Sicherheit oder Encrypted Memory (wenn verfügbar).

- DSGVO-Audit für Modell-Abhängigkeiten und Training-Daten-Herkunft obligatorisch.

VRAM-Rechner

Wählen Sie Ihre Modellgröße und Quantisierung aus, um die VRAM-Anforderungen zu schätzen.

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

Kann ein 3B-Modell auf meiner GPU laufen?

RTX 3060 (3 GB) oder CPU. Q4-Quantisierung benötigt 1,5-2 GB VRAM. Ollama, Llama.cpp, LM Studio unterstützen alle.

Ist RTX 4060 ausreichend für 7B Q4?

Knapp. RTX 4060 (8 GB) sollte 5 GB theoretisch verwalten, aber OS/Laufzeit-Overhead (0,5-1,5 GB) wird eng. RTX 4070 (12 GB) empfohlen.

Sind 12 GB für Llama3 13B ausreichend?

Q4 knapp. Q5 oder Q8 nicht. 12 GB ist eng. 16 GB komfortabel.

Benötige ich 24 GB für ein 70B-Modell?

Q4 ja. Q5+ nein. Höhere Quantisierung (Q5, Q8) benötigt 32 GB+. 70B mindestens 35-40 GB erforderlich.

Reduziert höhere Batch-Größe VRAM für einzelne Inferenz?

Nein. Einzelne Inferenz verwendet immer batch=1. Batch-Größe hilft nur Durchsatz (Multi-User-Szenarios).

Was ist die präziseste Quantisierung?

Q8 nahezu unmerklicher Verlust. Q5 ~2% Verlust. Q4 ~1% Verlust. Für die meisten Fälle Q4 beste Balance.

Kann ich Teil des VRAM auf CPU-RAM auslagern?

Ja, über Layer-Splitting (NVLink). Llama.cpp und Ollama unterstützen es. Leistung sinkt 30-50%.

Was ist die minimale VRAM für lokale LLM-Ausführung?

4 GB VRAM mit 3B Q4-Modell -- Modell ~1,8 GB, KV-Cache hat Platz. Praktisches Minimum 8 GB VRAM + 7B Q4. Unter 6 GB OOM für die meisten 7B-Modelle.

Ist Apple Silicon VRAM dasselbe wie GPU VRAM?

Apple Silicon verwendet Unified Memory zwischen CPU/GPU gemeinsam -- ganzer Speicherpool verfügbar für Modell-Inferenz. M3 18 GB = GPU 18 GB VRAM. MacBook Pro M3 18 GB kann Llama3 13B Q4 (~7 GB) + Overhead ausführen.

Wie viel VRAM benötigt 7B bei verschiedenen Quantisierungen?

7B FP32: ~28 GB -- unpraktisch auf Consumer-GPUs. 7B Q8: ~7 GB -- passt auf RTX 4070 Ti 12 GB mit Puffer. 7B Q5: ~4,5 GB -- passt auf 8 GB GPU. 7B Q4: ~3,5 GB Modell + ~1,5 GB Overhead = ~5 GB -- passt auf 6 GB GPU eng, 8 GB komfortabel.

Was sind die VRAM-Anforderungen für DSGVO-konforme lokale Inferenz in Unternehmen?

Minimum RTX 4070 Ti (12 GB) für bis zu 50 Nutzer mit Llama3 13B Q4. Für 50-500 Nutzer RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB). ECC-GPU empfohlen für Speicherfehler-Detektion. GPU-Speicher-Dumps müssen verhindert werden (Firmware/physische Sicherheit).

Welche GPU empfiehlt sich für einen Team-Server im deutschen Mittelstand?

RTX 4070 Ti (12 GB) für 1-50 Mitarbeiter. RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB) für 50-500 Mitarbeiter. RTX 4070 Ti kann Llama3 13B Q4 + vLLM mit 3-5 gleichzeitigen Anfragen verwalten. Größere Teams benötigen A100 (80 GB) oder H100 und Enterprise-Clustering.

Weiterführende Literatur

  • /local-llms/best-local-llm-models-2026?lang=de
  • /local-llms/how-to-run-ollama-locally?lang=de
  • /local-llms/local-llm-hardware-guide-2026?lang=de
  • /local-llms/best-amd-gpus-local-llm?lang=de
  • /local-llms/local-llm-security-privacy-checklist?lang=de
  • /local-llms/how-much-unified-memory-for-local-llm?lang=de
  • /local-llms/running-70b-models-apple-silicon-m5-max?lang=de
  • /local-llms/best-models-apple-silicon-2026?lang=de
  • /local-llms/gpu-vs-cpu-vs-apple-silicon?lang=de

Quellen

  • NVIDIA CUDA-Dokumentation: GPU-Speicherverwaltung, Tensor Cores, Compute Capability
  • Ollama-Dokumentation: VRAM-Anforderungen, Quantisierungsschemata, GPU-Kompatibilitätsmatrix
  • Llama.cpp GitHub: GGUF-Format, Q4/Q5/Q8-Implementierung, Speicher-Profilierung

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

VRAM-Richtlinie: 7B=8GB, 70B=48GB (2026 Guide)