PromptQuorumPromptQuorum

Wie viel VRAM braucht ein 70B-Modell?

Quantization & VRAM

Wichtigste Punkte

  • Ein 70B-Modell bei Q4_K_M benötigt ca. 40 GB VRAM
  • Consumer-Hardware-Optionen: Dual RTX 3090 (48 GB) oder Apple M5 Max mit 128 GB Unified Memory
  • Bei gelegentlicher Nutzung unter 5 Stunden pro Woche ist Cloud-GPU-Miete für ca. 0,50–1,50 USD/Stunde günstiger als Hardware-Kauf

Hardware-Optionen für ein 70B-Modell

Stand Mai 2026: Ein 70B-Modell bei Q4_K_M entspricht ca. 40 GB komprimierter Gewichte — 1,7× eine einzelne RTX 4090 und 1,6× eine einzelne RTX 3090. Deshalb ist 70B die schwierigste Kategorie für lokale Ausführung: Sie überschreitet die Grenze zwischen Consumer-GPUs (max. 24 GB) und Workstation-Hardware. Drei Optionen stehen zur Auswahl, jede mit unterschiedlichen Kompromissen.

Apple M5 Max mit 128 GB Unified Memory ist die komfortabelste Einzelsystem-Option — kein PCIe-Übertragungsengpass zwischen CPU- und GPU-Speicher, macOS verwaltet die Zuweisung automatisch. Dual RTX 3090 funktioniert, erfordert aber einen Workstation-Desktop und sorgfältige Treiberkonfiguration.

HardwareGesamt-VRAMGeschwindigkeit
Dual RTX 309048 GB~8 Tok/s
RTX 3090 + CPU-Offload24 GB + 32 GB RAM~3 Tok/s
Apple M5 Max 128 GB128 GB unified~15 Tok/s
RunPod H100 (Cloud)80 GB~50 Tok/s

Wann Cloud sinnvoller ist als lokale Hardware

Cloud-GPU-Miete für 70B-Inferenz kostet Stand Mai 2026 ca. 0,50–1,50 USD pro Stunde bei RunPod und Lambda Labs. Ein Dual RTX 3090-Setup kostet ca. 1.200–2.000 € als Hardware — Amortisation gegenüber Cloud-Kosten erst nach 1.500–3.000 Betriebsstunden.

Für Teams oder Einzelpersonen, die 70B-Modelle weniger als 5 Stunden pro Woche nutzen, ist Cloud-Miete sowohl günstiger als auch wartungsärmer. Lokale 70B-Ausführung ist gerechtfertigt für datenschutzkritische Anwendungsfälle (keine Daten verlassen die eigene Hardware) oder dauerhaft hohe Inferenz-Frequenz, bei der Cloud-Kosten schnell eskalieren. Für kleinere Modelle, die auf Consumer-GPUs passen, siehe den VRAM-Tier-Leitfaden.

Für eine vollständige Aufschlüsselung der 70B-Deployment-Strategien, siehe wie man 70B-Modelle mit 24 GB VRAM betreibt.

Häufige Fragen zum VRAM-Bedarf von 70B-Modellen

Kann eine einzelne RTX 3090 ein 70B-Modell ausführen?
Teilweise. Eine einzelne RTX 3090 (24 GB) kann 70B mit CPU-Offload betreiben, die Geschwindigkeit sinkt aber auf ~3 Tok/s — zu langsam für interaktive Nutzung. Vollständige GPU-Inferenz für 70B erfordert 40+ GB kombiniertes VRAM.
Kann ich ein 70B-Modell auf einem MacBook ausführen?
Nur auf M3 Max, M4 Max, M4 Ultra oder M5 Max mit 128 GB Unified Memory. Ein MacBook mit 32 GB RAM kann 70B bei Q4 nicht ausführen. Siehe den RAM-Größenleitfaden für kleinere Modell-Alternativen.
Gibt es einen günstigeren Weg, 70B-Modelle lokal zu betreiben?
Ja — verwenden Sie Q2_K-Quantisierung, um das 70B-Modell auf ~21 GB VRAM zu reduzieren, aber die Qualität verschlechtert sich erheblich. Alternativ liefern 34B-Modelle bei Q5 80–90 % der 70B-Qualität bei halbem VRAM-Bedarf.
Wie unterscheidet sich der VRAM-Bedarf von 70B vs. 13B?
Ein 13B-Modell bei Q4 benötigt ~9 GB VRAM vs. ~40 GB für 70B. Für die meisten Aufgaben — Chat, Coding, Zusammenfassung — deckt ein 13–14B-Modell bei Q5 den Unterschied ab. Siehe VRAM-Anforderungen nach Modellgröße.