Wie viel VRAM braucht ein 70B-Modell?
Wichtigste Punkte
- ✓Ein 70B-Modell bei Q4_K_M benötigt ca. 40 GB VRAM
- ✓Consumer-Hardware-Optionen: Dual RTX 3090 (48 GB) oder Apple M5 Max mit 128 GB Unified Memory
- ✓Bei gelegentlicher Nutzung unter 5 Stunden pro Woche ist Cloud-GPU-Miete für ca. 0,50–1,50 USD/Stunde günstiger als Hardware-Kauf
Hardware-Optionen für ein 70B-Modell
Stand Mai 2026: Ein 70B-Modell bei Q4_K_M entspricht ca. 40 GB komprimierter Gewichte — 1,7× eine einzelne RTX 4090 und 1,6× eine einzelne RTX 3090. Deshalb ist 70B die schwierigste Kategorie für lokale Ausführung: Sie überschreitet die Grenze zwischen Consumer-GPUs (max. 24 GB) und Workstation-Hardware. Drei Optionen stehen zur Auswahl, jede mit unterschiedlichen Kompromissen.
Apple M5 Max mit 128 GB Unified Memory ist die komfortabelste Einzelsystem-Option — kein PCIe-Übertragungsengpass zwischen CPU- und GPU-Speicher, macOS verwaltet die Zuweisung automatisch. Dual RTX 3090 funktioniert, erfordert aber einen Workstation-Desktop und sorgfältige Treiberkonfiguration.
| Hardware | Gesamt-VRAM | Geschwindigkeit |
|---|---|---|
| Dual RTX 3090 | 48 GB | ~8 Tok/s |
| RTX 3090 + CPU-Offload | 24 GB + 32 GB RAM | ~3 Tok/s |
| Apple M5 Max 128 GB | 128 GB unified | ~15 Tok/s |
| RunPod H100 (Cloud) | 80 GB | ~50 Tok/s |
Wann Cloud sinnvoller ist als lokale Hardware
Cloud-GPU-Miete für 70B-Inferenz kostet Stand Mai 2026 ca. 0,50–1,50 USD pro Stunde bei RunPod und Lambda Labs. Ein Dual RTX 3090-Setup kostet ca. 1.200–2.000 € als Hardware — Amortisation gegenüber Cloud-Kosten erst nach 1.500–3.000 Betriebsstunden.
Für Teams oder Einzelpersonen, die 70B-Modelle weniger als 5 Stunden pro Woche nutzen, ist Cloud-Miete sowohl günstiger als auch wartungsärmer. Lokale 70B-Ausführung ist gerechtfertigt für datenschutzkritische Anwendungsfälle (keine Daten verlassen die eigene Hardware) oder dauerhaft hohe Inferenz-Frequenz, bei der Cloud-Kosten schnell eskalieren. Für kleinere Modelle, die auf Consumer-GPUs passen, siehe den VRAM-Tier-Leitfaden.
Für eine vollständige Aufschlüsselung der 70B-Deployment-Strategien, siehe wie man 70B-Modelle mit 24 GB VRAM betreibt.
Verwandte Anleitungen
- ▸Wie viel VRAM braucht man für ein lokales LLM? — VRAM-Tabelle für alle Modellgrößen
- ▸Günstigster Weg, ein 70B-Modell lokal zu betreiben — Kostenpfad bei überteuert Hardware
- ▸Lokaler LLM Hardware-Leitfaden 2026 — vollständiger Leitfaden für 70B-fähige Hardware
- ▸Beste lokale LLMs 2026 — welche 70B-Modelle den Hardwarepreis wert sind