Wichtigste Erkenntnisse
- 7B-Modelle: Minimum 8 GB (Q4), komfortabel 10 GB (Q5), vollständig 14 GB.
- 13B-Modelle: Minimum 12 GB (Q4), komfortabel 16 GB (Q5).
- 70B-Modelle: Minimum 35-40 GB (Q4) -- erfordert 2× RTX 4090 oder A100.
- Q4-Quantisierung: Reduziert VRAM um 87% gegenüber vollständiger Präzision, unter 1% Qualitätsverlust.
- Apple Silicon: Einheitlicher Speicher ist vollständig für LLM-Inferenz verfügbar -- MacBook Pro M3 18 GB kann Llama3 13B Q4 ausführen.
- RTX 4060 Ti 8 GB: 7B Q4 ist machbar, aber der Cache ist eng. RTX 4070 12 GB ist sicherer.
- CPU-Inferenz: Möglich, aber GPU ist 20-40× schneller -- praktisch wird ein GPU mit mindestens 8 GB empfohlen.
VRAM-Berechnungsformel für lokale LLMs
VRAM erforderlich = (Modellparameter in Milliarden × Bits pro Gewicht) ÷ 8 + (KV-Cache + Laufzeit-Overhead)
Beispiel: Llama3 7B Q4 = (7 × 4) ÷ 8 + 1,5 GB = 3,5 + 1,5 = 5 GB
Q4: 32-Bit-Werte werden auf 4 Bits komprimiert (8× Reduktion).
Q8: 32-Bit → 8-Bit (4× Reduktion), nahezu vollständige Präzision.
FP32: Keine Kompression, vollständige Präzision, VRAM-intensiv.
KV-Cache: Proportional zur Sequenzlänge -- 128-Token-Ausgabe +1-2 GB, 2048-Token +5 GB.
VRAM nach Modellgröße
| Modellgröße | FP32 | Q8 | Q5 | Q4 | Empfohlene GPU |
|---|---|---|---|---|---|
| 3B | 12 GB | 3 GB | 2 GB | 1,5 GB | CPU oder RTX 3060 (3GB) |
| 7B | 28 GB | 7 GB | 4,5 GB | 3,5 GB | RTX 4060 Ti (8GB), RTX 4070 (12GB) |
| 13B | 52 GB | 13 GB | 8 GB | 7 GB | RTX 4080 (16GB), RTX 6800 XT (16GB) |
| 70B | 280 GB | 70 GB | 44 GB | 35-40 GB | Zwei RTX 4090 (24GB×2) oder A100 (80GB) |
| Qwen 3.6 35B-A3B (3B aktiv, MoE)* | 12 GB | 3 GB | 2 GB | 1,5 GB | CPU oder RTX 3060 (3GB) |
| DeepSeek V4-Flash (13B aktiv / 284B gesamt, MoE)* | 52 GB | 13 GB | 8 GB | 7 GB | RTX 4060 Ti (8GB), RTX 4070 (12GB) |
| Llama 4 Scout (17B aktiv / 109B gesamt, MoE)* | 68 GB | 17 GB | 11 GB | 9 GB | RTX 4080 (16GB), RTX 6800 XT (16GB) |
| Kimi K2.6 (42B aktiv / 1T gesamt, MoE)* | 168 GB | 42 GB | 27 GB | 21 GB | Zwei RTX 4090 (24GB×2) oder A100 (80GB) |
| Kontext (KV-Cache) | +40 GB @ 2048 Token | +10 GB @ 2048 Token | +6 GB @ 2048 Token | +3-5 GB @ 2048 Token | Durch Ollama-Kontextlänge und top_k verwaltet |
* MoE-Modelle: VRAM wird nur aus aktiven Parametern berechnet, nicht aus der Gesamtmodellgröße.
Wie reduziert Quantisierung VRAM-Anforderungen?
Quantisierung komprimiert Modellgewichte zu niedriger Präzision. Die Umwandlung von FP32 (32-Bit) auf Q4 (4-Bit) reduziert Werte um 87%.
Q4 (4-Bit): Standard für Consumer-GPUs. VRAM: 3,5× Reduktion. Qualität: Unter 1% Verlust. Für fast alle Aufgaben empfohlen.
Q5 (5-Bit): Ähnlich wie Q4, aber 2% bessere Genauigkeit. VRAM: 25% mehr, minimale Qualitätsverbesserung. Nur für fortgeschrittene Anwendungsfälle.
Q8 (8-Bit): Nahezu vollständige Präzision (<0,5% Verlust). VRAM-Reduktion: 4×. RTX 4080+ empfohlen.
FP32 (Vollständige Präzision): Alle Gewichte werden mit 32 Bit gespeichert. Auf Consumer-GPUs nicht praktikabel -- 70B FP32 benötigt 280 GB VRAM.
VRAM bestimmt die Modellgröße, aber das Prompt-Design bestimmt die Ausgabequalität. Techniken wie Chain-of-Thought und Few-Shot-Prompting können die Qualitätslücke zwischen kleineren und größeren Modellen schließen. Entdecken Sie das vollständige Prompt-Engineering-Toolkit, um mehr aus den Modellen herauszuholen, die Ihre Hardware unterstützt. Wenn Sie 12–16 GB VRAM haben und einen konkreten Coding-Workload zum Testen dieses Toolkits suchen, beschreibt GitHub Copilot durch ein lokales LLM ersetzen den Continue.dev + Ollama + Qwen3-Coder-Stack passend zu genau diesen VRAM-Stufen.
Batch-Größe und Multi-User-Inferenz
Batch-Größe ist die Anzahl der Text-Eingaben, die in einer Ausführung verarbeitet werden.
Single-User-Inferenz (batch=1): Eine Eingabeaufforderung auf einer GPU. VRAM: Nur Modellgröße + KV-Cache.
Beispiel: Llama3 7B Q4 = 3,5 GB (Modell) + 1,5 GB (KV-Cache) = 5 GB.
Batch-Verarbeitung (batch=4, 8, 16): Mehrere Eingaben gleichzeitig verarbeiten. VRAM: Linear steigend.
batch=4: ×4 VRAM (= 20 GB für 7B Q4). Durchsatz: ×3-3,5 (Parallelisierungsgewinn).
Batch-Inferenz ist wichtig für Multi-User-Server (3-5 Personen, gleichzeitige Anfragen). Für Single-User/Entwicklung nicht erforderlich.
KV-Cache (abhängig von Sequenzlänge):
VRAM-Overhead: Mehr als nur Modellgröße
Die Parametergröße des Modells ist nicht das gesamte VRAM-Anforderungs-Bild. Zusätzlicher Speicher ist erforderlich:
KV-Cache (Key-Value Cache): Das Modell muss vorherige Token „merken". Nebenprodukt des Transformer-Aufmerksamkeitsmechanismus.
- Proportional zur Eingabe-Ausgabe-Länge.
- 7B-Modell, 2048-Token-Kontext, batch=1: +2-4 GB.
Aktivierungen: Zwischenrechenergebnisse während der Inferenz.
- Typischerweise 10-15% der Modellgröße.
- 7B: +0,7-1,5 GB.
Laufzeit-Overhead: CUDA-Speicherpool, Framebuffer, OS-Reservierungen.
- Typischerweise 0,5-1,5 GB.
Häufige Fehler
Missverständnis 1: „VRAM erforderlich = Modellgröße"
VRAM ist immer größer als die Modellgröße. 3,5 GB-Modell benötigt mindestens 5 GB. RTX 4060 Ti 8 GB ist sicher, aber RTX 3060 6 GB birgt Risiken.
Missverständnis 2: „Apple Silicon (M3) Speicher ist nicht das gleiche wie GPU VRAM"
Apple Silicon verwendet Unified Memory -- CPU und GPU teilen einen Speicherpool. M3 18 GB entspricht 18 GB GPU VRAM. Llama3 13B Q4 (~7 GB) kann auf M3 16 GB ausgeführt werden.
Missverständnis 3: „Quantisierung verlangsamt die Inferenz"
Tatsächlich: Q4 ist schneller als Q5/Q8. Niedrigere Speicherbandbreite, effizienterer Cache. Ollama: Q4 ist einige Prozentpunkte schneller.
Regionales Umfeld
EU und Deutschland (DSGVO + BSI)
Die DSGVO verlangt von Unternehmen, dass Modellgewichte und Trainingsdaten auf dem EU-Territorium gespeichert bleiben. Lokale LLM-Inferenz ist eine Compliance-Anforderung, nicht optional. Das BSI (Bundesamt für Sicherheit in der Informationstechnik) empfiehlt lokale Inferenz als Best Practice für Unternehmen mit sensiblen Daten.
Enterprise-Leitlinien für den deutschen Mittelstand:
- 1-50 Nutzer: RTX 4070 Ti (12 GB) mit Llama3 13B Q4 (7-8 GB). Skalierbar mit Ollama im single-GPU-Modus.
- 50-500 Nutzer: RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB) für parallele Anfragen und Batch-Verarbeitung. Erfordert vLLM oder Text Generation WebUI.
- 500+ Nutzer: A100 (80 GB) oder H100 (80 GB). Enterprise-Setup mit Load-Balancing über mehrere Server.
BSI-Sicherheitsempfehlungen:
- ECC-GPUs (A6000, A100) für Speicherfehler-Detektion.
- GPU-Speicher-Dumps verhindern durch physische Sicherheit oder Encrypted Memory (wenn verfügbar).
- DSGVO-Audit für Modell-Abhängigkeiten und Training-Daten-Herkunft obligatorisch.
VRAM-Rechner
Wählen Sie Ihre Modellgröße und Quantisierung aus, um die VRAM-Anforderungen zu schätzen.
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
Kann ein 3B-Modell auf meiner GPU laufen?
RTX 3060 (3 GB) oder CPU. Q4-Quantisierung benötigt 1,5-2 GB VRAM. Ollama, Llama.cpp, LM Studio unterstützen alle.
Ist RTX 4060 ausreichend für 7B Q4?
Knapp. RTX 4060 (8 GB) sollte 5 GB theoretisch verwalten, aber OS/Laufzeit-Overhead (0,5-1,5 GB) wird eng. RTX 4070 (12 GB) empfohlen.
Sind 12 GB für Llama3 13B ausreichend?
Q4 knapp. Q5 oder Q8 nicht. 12 GB ist eng. 16 GB komfortabel.
Benötige ich 24 GB für ein 70B-Modell?
Q4 ja. Q5+ nein. Höhere Quantisierung (Q5, Q8) benötigt 32 GB+. 70B mindestens 35-40 GB erforderlich.
Reduziert höhere Batch-Größe VRAM für einzelne Inferenz?
Nein. Einzelne Inferenz verwendet immer batch=1. Batch-Größe hilft nur Durchsatz (Multi-User-Szenarios).
Was ist die präziseste Quantisierung?
Q8 nahezu unmerklicher Verlust. Q5 ~2% Verlust. Q4 ~1% Verlust. Für die meisten Fälle Q4 beste Balance.
Kann ich Teil des VRAM auf CPU-RAM auslagern?
Ja, über Layer-Splitting (NVLink). Llama.cpp und Ollama unterstützen es. Leistung sinkt 30-50%.
Was ist die minimale VRAM für lokale LLM-Ausführung?
4 GB VRAM mit 3B Q4-Modell -- Modell ~1,8 GB, KV-Cache hat Platz. Praktisches Minimum 8 GB VRAM + 7B Q4. Unter 6 GB OOM für die meisten 7B-Modelle.
Ist Apple Silicon VRAM dasselbe wie GPU VRAM?
Apple Silicon verwendet Unified Memory zwischen CPU/GPU gemeinsam -- ganzer Speicherpool verfügbar für Modell-Inferenz. M3 18 GB = GPU 18 GB VRAM. MacBook Pro M3 18 GB kann Llama3 13B Q4 (~7 GB) + Overhead ausführen.
Wie viel VRAM benötigt 7B bei verschiedenen Quantisierungen?
7B FP32: ~28 GB -- unpraktisch auf Consumer-GPUs. 7B Q8: ~7 GB -- passt auf RTX 4070 Ti 12 GB mit Puffer. 7B Q5: ~4,5 GB -- passt auf 8 GB GPU. 7B Q4: ~3,5 GB Modell + ~1,5 GB Overhead = ~5 GB -- passt auf 6 GB GPU eng, 8 GB komfortabel.
Was sind die VRAM-Anforderungen für DSGVO-konforme lokale Inferenz in Unternehmen?
Minimum RTX 4070 Ti (12 GB) für bis zu 50 Nutzer mit Llama3 13B Q4. Für 50-500 Nutzer RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB). ECC-GPU empfohlen für Speicherfehler-Detektion. GPU-Speicher-Dumps müssen verhindert werden (Firmware/physische Sicherheit).
Welche GPU empfiehlt sich für einen Team-Server im deutschen Mittelstand?
RTX 4070 Ti (12 GB) für 1-50 Mitarbeiter. RTX A6000 (48 GB) oder Dual RTX 4080 (32 GB) für 50-500 Mitarbeiter. RTX 4070 Ti kann Llama3 13B Q4 + vLLM mit 3-5 gleichzeitigen Anfragen verwalten. Größere Teams benötigen A100 (80 GB) oder H100 und Enterprise-Clustering.
Weiterführende Literatur
- /local-llms/best-local-llm-models-2026?lang=de
- /local-llms/how-to-run-ollama-locally?lang=de
- /local-llms/local-llm-hardware-guide-2026?lang=de
- /local-llms/best-amd-gpus-local-llm?lang=de
- /local-llms/local-llm-security-privacy-checklist?lang=de
- /local-llms/how-much-unified-memory-for-local-llm?lang=de
- /local-llms/running-70b-models-apple-silicon-m5-max?lang=de
- /local-llms/best-models-apple-silicon-2026?lang=de
- /local-llms/gpu-vs-cpu-vs-apple-silicon?lang=de
Quellen
- NVIDIA CUDA-Dokumentation: GPU-Speicherverwaltung, Tensor Cores, Compute Capability
- Ollama-Dokumentation: VRAM-Anforderungen, Quantisierungsschemata, GPU-Kompatibilitätsmatrix
- Llama.cpp GitHub: GGUF-Format, Q4/Q5/Q8-Implementierung, Speicher-Profilierung