Wichtigste Punkte
Stand Mai 2026: Ein 70B-Modell bei Q4_K_M entspricht ca. 40 GB komprimierter Gewichte — 1,7× eine einzelne RTX 4090 und 1,6× eine einzelne RTX 3090. Deshalb ist 70B die schwierigste Kategorie für lokale Ausführung: Sie überschreitet die Grenze zwischen Consumer-GPUs (max. 24 GB) und Workstation-Hardware. Drei Optionen stehen zur Auswahl, jede mit unterschiedlichen Kompromissen.
Apple M5 Max mit 128 GB Unified Memory ist die komfortabelste Einzelsystem-Option — kein PCIe-Übertragungsengpass zwischen CPU- und GPU-Speicher, macOS verwaltet die Zuweisung automatisch. Dual RTX 3090 funktioniert, erfordert aber einen Workstation-Desktop und sorgfältige Treiberkonfiguration.
| Hardware | Gesamt-VRAM | Geschwindigkeit |
|---|---|---|
| Dual RTX 3090 | 48 GB | ~8 Tok/s |
| RTX 3090 + CPU-Offload | 24 GB + 32 GB RAM | ~3 Tok/s |
| Apple M5 Max 128 GB | 128 GB unified | ~15 Tok/s |
| RunPod H100 (Cloud) | 80 GB | ~50 Tok/s |
Cloud-GPU-Miete für 70B-Inferenz kostet Stand Mai 2026 ca. 0,50–1,50 USD pro Stunde bei RunPod und Lambda Labs. Ein Dual RTX 3090-Setup kostet ca. 1.200–2.000 € als Hardware — Amortisation gegenüber Cloud-Kosten erst nach 1.500–3.000 Betriebsstunden.
Für Teams oder Einzelpersonen, die 70B-Modelle weniger als 5 Stunden pro Woche nutzen, ist Cloud-Miete sowohl günstiger als auch wartungsärmer. Lokale 70B-Ausführung ist gerechtfertigt für datenschutzkritische Anwendungsfälle (keine Daten verlassen die eigene Hardware) oder dauerhaft hohe Inferenz-Frequenz, bei der Cloud-Kosten schnell eskalieren. Für kleinere Modelle, die auf Consumer-GPUs passen, siehe den VRAM-Tier-Leitfaden.
Für eine vollständige Aufschlüsselung der 70B-Deployment-Strategien, siehe wie man 70B-Modelle mit 24 GB VRAM betreibt.