Für 7B-Modelle bei Q4-Quantisierung benötigen Sie 4-5 GB VRAM -- jede moderne GPU mit 8 GB verwaltet dies mühelos. Für 13B-Modelle: 8-10 GB VRAM. Für 70B: 35-40 GB, erfordert zwei RTX 4090 oder eine einzelne A100. Ab April 2026 ist Q4 (4-Bit) die Standard-Quantisierungsmethode -- sie reduziert VRAM-Anforderungen um 87% gegenüber vollständiger Präzision mit unter 1% Qualitätsverlust für die meisten Aufgaben. Die VRAM-Formel: (Parameter in Milliarden × Bits pro Gewicht) ÷ 8, plus 10-15% Overhead für KV-Cache und Laufzeit.

Wichtigste Erkenntnisse

7B-Modelle: Minimum 8 GB (Q4), komfortabel 10 GB (Q5), vollständig 14 GB.
13B-Modelle: Minimum 12 GB (Q4), komfortabel 16 GB (Q5).
70B-Modelle: Minimum 35-40 GB (Q4) -- erfordert 2× RTX 4090 oder A100.
Q4-Quantisierung: Reduziert VRAM um 87% gegenüber vollständiger Präzision, unter 1% Qualitätsverlust.
Apple Silicon: Einheitlicher Speicher ist vollständig für LLM-Inferenz verfügbar -- MacBook Pro M3 18 GB kann Llama3 13B Q4 ausführen.
RTX 4060 Ti 8 GB: 7B Q4 ist machbar, aber der Cache ist eng. RTX 4070 12 GB ist sicherer.
CPU-Inferenz: Möglich, aber GPU ist 20-40× schneller -- praktisch wird ein GPU mit mindestens 8 GB empfohlen.

VRAM-Berechnungsformel für lokale LLMs

VRAM erforderlich = (Modellparameter in Milliarden × Bits pro Gewicht) ÷ 8 + (KV-Cache + Laufzeit-Overhead)

Beispiel: Llama3 7B Q4 = (7 × 4) ÷ 8 + 1,5 GB = 3,5 + 1,5 = 5 GB

Q4: 32-Bit-Werte werden auf 4 Bits komprimiert (8× Reduktion).

Q8: 32-Bit → 8-Bit (4× Reduktion), nahezu vollständige Präzision.

FP32: Keine Kompression, vollständige Präzision, VRAM-intensiv.

KV-Cache: Proportional zur Sequenzlänge -- 128-Token-Ausgabe +1-2 GB, 2048-Token +5 GB.

VRAM nach Modellgröße

Modellgröße	FP32	Q8	Q5	Q4	Empfohlene GPU
3B	12 GB	3 GB	2 GB	1,5 GB	CPU oder RTX 3060 (3GB)
7B	28 GB	7 GB	4,5 GB	3,5 GB	RTX 4060 Ti (8GB), RTX 4070 (12GB)
13B	52 GB	13 GB	8 GB	7 GB	RTX 4080 (16GB), RTX 6800 XT (16GB)
70B	280 GB	70 GB	44 GB	35-40 GB	Zwei RTX 4090 (24GB×2) oder A100 (80GB)
Qwen 3.6 35B-A3B (3B aktiv, MoE)*	12 GB	3 GB	2 GB	1,5 GB	CPU oder RTX 3060 (3GB)
DeepSeek V4-Flash (13B aktiv / 284B gesamt, MoE)*	52 GB	13 GB	8 GB	7 GB	RTX 4060 Ti (8GB), RTX 4070 (12GB)
Llama 4 Scout (17B aktiv / 109B gesamt, MoE)*	68 GB	17 GB	11 GB	9 GB	RTX 4080 (16GB), RTX 6800 XT (16GB)
Kimi K2.6 (42B aktiv / 1T gesamt, MoE)*	168 GB	42 GB	27 GB	21 GB	Zwei RTX 4090 (24GB×2) oder A100 (80GB)
Kontext (KV-Cache)	+40 GB @ 2048 Token	+10 GB @ 2048 Token	+6 GB @ 2048 Token	+3-5 GB @ 2048 Token	Durch Ollama-Kontextlänge und top_k verwaltet

* MoE-Modelle: VRAM wird nur aus aktiven Parametern berechnet, nicht aus der Gesamtmodellgröße.

Wie reduziert Quantisierung VRAM-Anforderungen?

Quantisierung komprimiert Modellgewichte zu niedriger Präzision. Die Umwandlung von FP32 (32-Bit) auf Q4 (4-Bit) reduziert Werte um 87%.

Q4 (4-Bit): Standard für Consumer-GPUs. VRAM: 3,5× Reduktion. Qualität: Unter 1% Verlust. Für fast alle Aufgaben empfohlen.

Q5 (5-Bit): Ähnlich wie Q4, aber 2% bessere Genauigkeit. VRAM: 25% mehr, minimale Qualitätsverbesserung. Nur für fortgeschrittene Anwendungsfälle.

Q8 (8-Bit): Nahezu vollständige Präzision (<0,5% Verlust). VRAM-Reduktion: 4×. RTX 4080+ empfohlen.

FP32 (Vollständige Präzision): Alle Gewichte werden mit 32 Bit gespeichert. Auf Consumer-GPUs nicht praktikabel -- 70B FP32 benötigt 280 GB VRAM.

VRAM bestimmt die Modellgröße, aber das Prompt-Design bestimmt die Ausgabequalität. Techniken wie Chain-of-Thought und Few-Shot-Prompting können die Qualitätslücke zwischen kleineren und größeren Modellen schließen. Entdecken Sie das vollständige Prompt-Engineering-Toolkit, um mehr aus den Modellen herauszuholen, die Ihre Hardware unterstützt. Wenn Sie 12–16 GB VRAM haben und einen konkreten Coding-Workload zum Testen dieses Toolkits suchen, beschreibt GitHub Copilot durch ein lokales LLM ersetzen den Continue.dev + Ollama + Qwen3-Coder-Stack passend zu genau diesen VRAM-Stufen.

Batch-Größe und Multi-User-Inferenz

Batch-Größe ist die Anzahl der Text-Eingaben, die in einer Ausführung verarbeitet werden.

Single-User-Inferenz (batch=1): Eine Eingabeaufforderung auf einer GPU. VRAM: Nur Modellgröße + KV-Cache.

Beispiel: Llama3 7B Q4 = 3,5 GB (Modell) + 1,5 GB (KV-Cache) = 5 GB.

Batch-Verarbeitung (batch=4, 8, 16): Mehrere Eingaben gleichzeitig verarbeiten. VRAM: Linear steigend.

batch=4: ×4 VRAM (= 20 GB für 7B Q4). Durchsatz: ×3-3,5 (Parallelisierungsgewinn).

Batch-Inferenz ist wichtig für Multi-User-Server (3-5 Personen, gleichzeitige Anfragen). Für Single-User/Entwicklung nicht erforderlich.

KV-Cache (abhängig von Sequenzlänge):

VRAM-Overhead: Mehr als nur Modellgröße

Die Parametergröße des Modells ist nicht das gesamte VRAM-Anforderungs-Bild. Zusätzlicher Speicher ist erforderlich:

KV-Cache (Key-Value Cache): Das Modell muss vorherige Token „merken". Nebenprodukt des Transformer-Aufmerksamkeitsmechanismus.

- Proportional zur Eingabe-Ausgabe-Länge.

- 7B-Modell, 2048-Token-Kontext, batch=1: +2-4 GB.

Aktivierungen: Zwischenrechenergebnisse während der Inferenz.

- Typischerweise 10-15% der Modellgröße.

- 7B: +0,7-1,5 GB.

Laufzeit-Overhead: CUDA-Speicherpool, Framebuffer, OS-Reservierungen.

- Typischerweise 0,5-1,5 GB.

Häufige Fehler

Missverständnis 1: „VRAM erforderlich = Modellgröße"

VRAM ist immer größer als die Modellgröße. 3,5 GB-Modell benötigt mindestens 5 GB. RTX 4060 Ti 8 GB ist sicher, aber RTX 3060 6 GB birgt Risiken.

Missverständnis 2: „Apple Silicon (M3) Speicher ist nicht das gleiche wie GPU VRAM"

Apple Silicon verwendet Unified Memory -- CPU und GPU teilen einen Speicherpool. M3 18 GB entspricht 18 GB GPU VRAM. Llama3 13B Q4 (~7 GB) kann auf M3 16 GB ausgeführt werden.

Missverständnis 3: „Quantisierung verlangsamt die Inferenz"

Tatsächlich: Q4 ist schneller als Q5/Q8. Niedrigere Speicherbandbreite, effizienterer Cache. Ollama: Q4 ist einige Prozentpunkte schneller.

Regionales Umfeld

EU und Deutschland (DSGVO + BSI)

Die DSGVO verlangt von Unternehmen, dass Modellgewichte und Trainingsdaten auf dem EU-Territorium gespeichert bleiben. Lokale LLM-Inferenz ist eine Compliance-Anforderung, nicht optional. Das BSI (Bundesamt für Sicherheit in der Informationstechnik) empfiehlt lokale Inferenz als Best Practice für Unternehmen mit sensiblen Daten.

Enterprise-Leitlinien für den deutschen Mittelstand:

- 1-50 Nutzer: RTX 4070 Ti (12 GB) mit Llama3 13B Q4 (7-8 GB). Skalierbar mit Ollama im single-GPU-Modus.

- 50-500 Nutzer: RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB) für parallele Anfragen und Batch-Verarbeitung. Erfordert vLLM oder Text Generation WebUI.

- 500+ Nutzer: A100 (80 GB) oder H100 (80 GB). Enterprise-Setup mit Load-Balancing über mehrere Server.

BSI-Sicherheitsempfehlungen:

- ECC-GPUs (A6000, A100) für Speicherfehler-Detektion.

- GPU-Speicher-Dumps verhindern durch physische Sicherheit oder Encrypted Memory (wenn verfügbar).

- DSGVO-Audit für Modell-Abhängigkeiten und Training-Daten-Herkunft obligatorisch.

VRAM-Rechner

Wählen Sie Ihre Modellgröße und Quantisierung aus, um die VRAM-Anforderungen zu schätzen.

Popular Models

Model Size

Quantization

Context Length

Batch Size

Use Case

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

Always use the "with safety margin" figure when buying a GPU
Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
Context overhead grows with conversation length. Budget 1-3 GB for typical usage
Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Kann ein 3B-Modell auf meiner GPU laufen?

RTX 3060 (3 GB) oder CPU. Q4-Quantisierung benötigt 1,5-2 GB VRAM. Ollama, Llama.cpp, LM Studio unterstützen alle.

Ist RTX 4060 ausreichend für 7B Q4?

Knapp. RTX 4060 (8 GB) sollte 5 GB theoretisch verwalten, aber OS/Laufzeit-Overhead (0,5-1,5 GB) wird eng. RTX 4070 (12 GB) empfohlen.

Sind 12 GB für Llama3 13B ausreichend?

Q4 knapp. Q5 oder Q8 nicht. 12 GB ist eng. 16 GB komfortabel.

Benötige ich 24 GB für ein 70B-Modell?

Q4 ja. Q5+ nein. Höhere Quantisierung (Q5, Q8) benötigt 32 GB+. 70B mindestens 35-40 GB erforderlich.

Reduziert höhere Batch-Größe VRAM für einzelne Inferenz?

Nein. Einzelne Inferenz verwendet immer batch=1. Batch-Größe hilft nur Durchsatz (Multi-User-Szenarios).

Was ist die präziseste Quantisierung?

Q8 nahezu unmerklicher Verlust. Q5 ~2% Verlust. Q4 ~1% Verlust. Für die meisten Fälle Q4 beste Balance.

Kann ich Teil des VRAM auf CPU-RAM auslagern?

Ja, über Layer-Splitting (NVLink). Llama.cpp und Ollama unterstützen es. Leistung sinkt 30-50%.

Was ist die minimale VRAM für lokale LLM-Ausführung?

4 GB VRAM mit 3B Q4-Modell -- Modell ~1,8 GB, KV-Cache hat Platz. Praktisches Minimum 8 GB VRAM + 7B Q4. Unter 6 GB OOM für die meisten 7B-Modelle.

Ist Apple Silicon VRAM dasselbe wie GPU VRAM?

Apple Silicon verwendet Unified Memory zwischen CPU/GPU gemeinsam -- ganzer Speicherpool verfügbar für Modell-Inferenz. M3 18 GB = GPU 18 GB VRAM. MacBook Pro M3 18 GB kann Llama3 13B Q4 (~7 GB) + Overhead ausführen.

Wie viel VRAM benötigt 7B bei verschiedenen Quantisierungen?

7B FP32: ~28 GB -- unpraktisch auf Consumer-GPUs. 7B Q8: ~7 GB -- passt auf RTX 4070 Ti 12 GB mit Puffer. 7B Q5: ~4,5 GB -- passt auf 8 GB GPU. 7B Q4: ~3,5 GB Modell + ~1,5 GB Overhead = ~5 GB -- passt auf 6 GB GPU eng, 8 GB komfortabel.

Was sind die VRAM-Anforderungen für DSGVO-konforme lokale Inferenz in Unternehmen?

Minimum RTX 4070 Ti (12 GB) für bis zu 50 Nutzer mit Llama3 13B Q4. Für 50-500 Nutzer RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB). ECC-GPU empfohlen für Speicherfehler-Detektion. GPU-Speicher-Dumps müssen verhindert werden (Firmware/physische Sicherheit).

Welche GPU empfiehlt sich für einen Team-Server im deutschen Mittelstand?

RTX 4070 Ti (12 GB) für 1-50 Mitarbeiter. RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB) für 50-500 Mitarbeiter. RTX 4070 Ti kann Llama3 13B Q4 + vLLM mit 3-5 gleichzeitigen Anfragen verwalten. Größere Teams benötigen A100 (80 GB) oder H100 und Enterprise-Clustering.

Weiterführende Literatur

/local-llms/best-local-llm-models-2026?lang=de
/local-llms/how-to-run-ollama-locally?lang=de
/local-llms/local-llm-hardware-guide-2026?lang=de
/local-llms/best-amd-gpus-local-llm?lang=de
/local-llms/local-llm-security-privacy-checklist?lang=de
/local-llms/how-much-unified-memory-for-local-llm?lang=de
/local-llms/running-70b-models-apple-silicon-m5-max?lang=de
/local-llms/best-models-apple-silicon-2026?lang=de
/local-llms/gpu-vs-cpu-vs-apple-silicon?lang=de

Quellen

NVIDIA CUDA-Dokumentation: GPU-Speicherverwaltung, Tensor Cores, Compute Capability
Ollama-Dokumentation: VRAM-Anforderungen, Quantisierungsschemata, GPU-Kompatibilitätsmatrix
Llama.cpp GitHub: GGUF-Format, Q4/Q5/Q8-Implementierung, Speicher-Profilierung

VRAM-Richtlinie: 7B=8GB, 70B=48GB (2026 Guide)

VRAM-Berechnungsformel für lokale LLMs

VRAM nach Modellgröße

Wie reduziert Quantisierung VRAM-Anforderungen?

Batch-Größe und Multi-User-Inferenz

VRAM-Overhead: Mehr als nur Modellgröße

Häufige Fehler

Regionales Umfeld

VRAM-Rechner

Compatible GPUs

Kann ein 3B-Modell auf meiner GPU laufen?

Ist RTX 4060 ausreichend für 7B Q4?

Sind 12 GB für Llama3 13B ausreichend?

Benötige ich 24 GB für ein 70B-Modell?

Reduziert höhere Batch-Größe VRAM für einzelne Inferenz?

Was ist die präziseste Quantisierung?

Kann ich Teil des VRAM auf CPU-RAM auslagern?

Was ist die minimale VRAM für lokale LLM-Ausführung?

Ist Apple Silicon VRAM dasselbe wie GPU VRAM?

Wie viel VRAM benötigt 7B bei verschiedenen Quantisierungen?

Was sind die VRAM-Anforderungen für DSGVO-konforme lokale Inferenz in Unternehmen?

Welche GPU empfiehlt sich für einen Team-Server im deutschen Mittelstand?

Weiterführende Literatur

Quellen

A Note on Third-Party Facts