Um lokale LLMs auszuführen, müssen Sie drei Komponenten verstehen: GPU (optional, aber empfohlen), CPU und RAM. Im Mai 2026 benötigt ein 7B-Parameter-Modell mindestens 8 GB RAM, während ein 70B-Modell 40+ GB benötigt. Dieser Leitfaden behandelt echte Hardware-Empfehlungen für RTX 5090, 4090, Apple Silicon und Budget-Builds sowie VRAM-Mathematik zur Berechnung der Anforderungen für jede Modellgröße.

Wichtigste Erkenntnisse

VRAM-Mathematik: (Modellgröße in GB) ÷ Quantisierung = erforderlicher VRAM. Beispiel: 70B-Modell bei 4-Bit = 70 ÷ 8 = 8,75 GB.
12 GB VRAM (RTX 4070 Ti): Beste Modelle: Llama 4 Scout 17B Q4_K_M (~10 GB, MoE, beste Gesamtqualität). Auch: Llama 3.1 8B Q8 (~9 GB, 80 tok/s).
16 GB VRAM (RTX 4080 / RTX 5080): Beste Modelle: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s). Für agentic coding: Devstral Small 24B Q4_K_M.
24 GB VRAM (RTX 4090): 70B-Modelle passen nicht bei Q4. Beste Option: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, beste Dense-Coding) oder DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s).
Apple M5 Max (128 GB unified): Erstes Mac das 70B-Modelle bei Q4_K_M ausführt – vergleichbar mit 2× RTX 4090 Desktop in Laptop oder Mac Studio.
Budget: RTX 4070 Ti ist das beste Preis-Leistungs-Verhältnis (ca. 600-700 €, verarbeitet 7-14B Modelle). RTX 4090 für jedes Single-GPU-Modell (ca. 1.800-2.100 €).

Beste GPUs zum Kaufen — 2026 Empfehlungen

Die Wahl einer GPU hängt von Ihrem Budget und der Modellgröße ab. Die NVIDIA RTX 40er und 50er-Serie dominieren 2026 für lokale LLMs:

RTX 4060 (8 GB) — 7B Modelle: ~180–220€. 40–60 tok/s.
RTX 4070 Ti (12 GB) — 14B Modelle: ~500–600€. 85–120 tok/s. Mainstream.
RTX 4080/5080 (16 GB) — 33B Modelle: ~1000–1200€. 110–140 tok/s.
RTX 4090 (24 GB) — 70B Modelle: ~1700–2000€. 150–180 tok/s.
Mac M5 Max 128GB — 70B Modelle: ~6000€. Bestes Preis-Leistung für Laptops.

Wie berechnen Sie VRAM-Anforderungen?

VRAM-Anforderungen hängen von drei Faktoren ab: Modellgröße (Parameter), Quantisierung (Bits pro Gewicht) und Inferenzmodus.

Formel:

``` VRAM (GB) = (Modellgröße × Quantisierungsbits) ÷ 8 ```

Quantisierungswerte: FP16 = 16 bits, Q8 = 8 bits, Q5 = 5 bits, Q4 = 4 bits.

Modell	FP16 (beste Qualität)	Q8 (hervorragend)	Q5 (gut)	Q4 (gut, kleinste Größe)
Llama 4 Scout 17B (aktiv)	—	—	—	—
Llama 3.1 8B	—	—	—	—
Qwen 3.6 27B	—	—	—	—
Qwen3 8B	—	—	—	—
Llama 3.3 70B	—	—	—	—
Qwen2.5 32B	—	—	—	—
Mistral Small 3.1 24B	—	—	—	—

VRAM-Rechner mit der Formel (Modellgröße × Bits) ÷ 8, mit Beispielen: 7B Q4 = 3,5 GB, 13B Q5 = 8,1 GB, 70B Q4 = 35 GB. Q4 ist der empfohlene Sweet-Spot für die meiste Hardware.

Welche GPU sollten Sie kaufen?

Ab Mai 2026 dominiert NVIDIA die Local LLM-Performance. Hier sind Tier-Empfehlungen:

Hardware bestimmt, welche Modelle Sie ausführen können; Prompt Engineering bestimmt, wie gut sie performen. Ein gut strukturierter Prompt bei einem 7B-Modell übertrifft oft einen schlecht konzipierten Prompt bei einem 70B-Modell. Im vollständigen Prompt-Engineering-Guide finden Sie Techniken, die die Ausgabequalität bei jeder Parameterzahl maximieren.

Tier	GPU	VRAM	Best für	Leistung
Budget (600 €)	RTX 4070 Ti / RTX 5070	12 GB	7-13B Modelle	Schnell (80 tokens/sec)
Mittelklasse (1200 €)	RTX 4080 / RTX 5080	16 GB	13-30B Modelle	Sehr schnell (120 tokens/sec)
High-End (2310 €)	RTX 4090 / RTX 5090	24 GB	Alle 70B Modelle	Extrem schnell (150 tokens/sec)
Server (3000+ €)	RTX 6000 Ada / A100	48+ GB	Multi-Benutzer, 70B+	Produktionsqualität

GPU-Tier-Empfehlungen: 600 € RTX 4070 Ti (12GB, 7-13B Modelle), 1200 € RTX 4080 (16GB, 13-30B), 2310 € RTX 4090 (24GB, jedes 70B Modell), 3000+ € Server-GPUs für Produktion. GPU-Wahl ist 10× wichtiger als CPU.

Welche CPU und RAM benötigen Sie?

Mit einer GPU sind CPU und RAM sekundär. Die GPU führt die schwere Arbeit durch; CPU/RAM verarbeiten Kontextvorbereitung.

Mindest-CPU: 8-Core-Prozessor (Intel i7 12. Gen, AMD Ryzen 7 7700X oder neuer). Ältere CPUs addieren 20%+ Latenz.

RAM: Mindestens 16 GB (mit GPU). Ohne GPU sollten 32+ GB empfohlen werden. RAM begrenzt nicht direkt die Modellgröße, wenn GPU vorhanden ist.

Speicher: 500 GB SSD für Modelldateien und Betriebssystem. M.2 NVMe wird bevorzugt (schnelleres Laden von Modellen).

Wie viel Speicher benötigen Sie?

Modelldateien sind groß. Ein 7B-Modell bei 4-Bit-Quantisierung ist 4-5 GB. Planen Sie entsprechend:

500 GB SSD: Betriebssystem + 1-2 kleine Modelle (3B, 7B)
1 TB SSD: Betriebssystem + 3-5 Modelle (Mischung aus 7B und 13B)
2 TB SSD: Betriebssystem + 10+ Modelle (verschiedene Größen)
4 TB NVMe RAID: Produktionsaufbau, schnelles Laden von Modellen

Empfohlene Budget-Builds

Einen lokalen LLM-Rechner von Grund auf aufbauen:

Budget	GPU	CPU	RAM	Modelle	Kosten
1500 € (Einstieg)	RTX 4070 Ti	i7 13700	16 GB	7-13B	Realistisch
2500 € (solide)	RTX 4080	i7 14700K	32 GB	13-30B	Empfohlen
4000 € (High-End)	2× RTX 4090	Ryzen 9 7950X	128 GB	Alle (70B+)	Overkill für Privat

Drei Baukonfigurationen: 1500 € Einstiegsniveau (RTX 4070 Ti, i7 13700, 16GB) für 7-13B Modelle, 2500 € solider Build (RTX 4080, i7 14700K, 32GB) für 13-30B, 4000 € High-End (2× RTX 4090, Ryzen 9, 128GB) für alle Modelle. Mittleres Niveau bietet das beste Preis-Leistungs-Verhältnis.

Was tun, wenn Sie sich die Hardware nicht leisten können?

Wenn eine 250–400 € GPU außerhalb Ihres Budgets liegt oder Ihr Laptop zu alt ist, um moderne Inference Engines zu unterstützen, lokale LLMs könnten für Sie 2026 nicht kosteneffektiv sein.

Berechnen Sie die wahren Kosten:

- Lokal: 800–2.000 € Anfangshardware + Strom + Wartung über 2–3 Jahre

- Cloud: 5–50 €/Monat für typische Entwicklernutzung (Llama API oder GPT-4o mini)

Für leichte Benutzer (< 100.000 Tokens/Monat) kostet Cloud-API 5–10 €/Monat und erfordert keine Hardware. Für schwere Benutzer (> 10 Mio. Tokens/Monat) rentiert sich lokal in 6–12 Monaten.

Vergleichen Sie den vollständigen Kosten- und Leistungs-Trade-off zwischen lokal und Cloud**, um Ihren Break-Even-Punkt zu finden. Viele Entwickler stellen fest, dass Cloud für ihr tatsächliches Nutzungsmuster billiger ist.

Schon unterhalb der empfohlenen VRAM-Stufen unterwegs? Welche Modell- und App-Kombinationen tatsächlich auf 8 GB oder weniger laufen, zeigt Beste lokale KI-App für einen schwachen PC.

Mac-Hardware für lokale LLMs

Apple Silicon (M-Serie) läuft lokale LLMs effizient mit einheitlichem Speicher zwischen CPU und GPU. M5, eingeführt seit Oktober 2025, ist ein bedeutender Durchbruch für lokale Inferenz. Apple behauptet 4× schnellere LLM-Prompt-Verarbeitung vs M4.

Das M5 Max mit 128 GB einheitlichem Speicher ist der erste Apple-Silicon-Chip, der bequem 70B-Modelle bei Q4_K_M ausführt – vergleichbar mit 2× RTX 4090 Desktops aber in einem Laptop oder Mac Studio Formfaktor. Das M5 Pro mit 64 GB einheitlichem Speicher handhabet 32B-Modelle mit großzügiger Kopfraum für KV-Cache und Multitasking.

Mac	GPU-Speicher	Best für	Beschränkung
M3 MacBook Pro 16"	18 GB unified	7B Modelle (schnell)	Kann 13B langsam ausführen
M4 Max	48-96 GB unified	13-30B Modelle	Nicht optimiert für 70B
M5 Pro (MacBook Pro)	64 GB unified, 307 GB/s	30B-Modelle bequem	Llama 4 Scout läuft gut
M5 Max (MacBook Pro / Studio)	128 GB unified, 460-614 GB/s	70B-Modelle bei Q4_K_M	Erstes Mac für 70B

Mac-Hardware-Vergleich: M3 MacBook Pro 16" (18GB, 7B), M4 Max (48-96GB, 13-30B), M5 Pro (64GB, 30B), M5 Max (128GB, 70B bei Q4_K_M). M5 Max ist erstes Mac um 70B-Modelle vergleichbar mit 2× RTX 4090 Desktops zu handhaben.

Server-Hardware vs. Consumer-Hardware

Für die Produktionsbereitstellung wird Server-Hardware empfohlen:

Consumer (RTX 4090): ~2310 €, 24 GB VRAM, Einzelbenutzer, anfällig für Drosselung bei anhaltender Last.
Server (RTX 6000 Ada): ~5000 €, 48 GB VRAM, für 24/7-Nutzung ausgelegt, bessere Kühlung, Fehlerkorrektur.
Empfehlung: Beginnen Sie mit RTX 4090. Bei 24/7-Betrieb von 70B-Modellen für mehrere Benutzer auf Dual-A100 oder RTX 6000 aufrüsten.

Consumer vs. Server-Hardware: RTX 4090 (2310 €, 24GB, Einzelbenutzer, Teilzeit) vs. RTX 6000 Ada (5000+ €, 48GB, Mehrbenutzer, 24/7 Betrieb). Beginnen Sie mit Consumer-Hardware; rüsten Sie auf Server-Hardware auf, nur wenn Sie Produktionsdienste betreiben.

Häufige Fehler bei der Hardware-Planung

Nur CPU kaufen, wenn GPU verfügbar ist. Eine 600 €-RTX 4070 Ti wird eine 2000 €-CPU überflügeln. GPU dominiert die LLM-Geschwindigkeit.
Nicht mit VRAM-Overhead rechnen. Modell-Dateigröße + Systemoverhead + Kontext = Gesamt-VRAM verwendet. Immer 25% mehr als Modellgröße kaufen.
Annahmen, dass alle 70B-Modelle in 40GB VRAM passen. Das tun sie, knapp, nur bei Q4 (4-Bit) Quantisierung. Q5 benötigt 45+ GB.
Stromversorgung und Kühlung ignorieren. RTX 4090 verbraucht 575W. Benötigen 1200W Stromversorgung und gute Gehäusebelüftung.
Denken, dass eine alte GPU funktioniert. RTX 2080 ist 10× langsamer als RTX 4070 Ti. Moderne GPU-Architektur ist bedeutsam.

Häufig gestellte Fragen zur Hardware für lokale LLMs

Kann ich ein 70B-Modell auf einem Laptop ausführen?

Nur mit schwerer Quantisierung (Q2, 2-Bit) und CPU-Fallback. Unpraktisch. Laptops eignen sich für 7B-Modelle. Für 70B verwenden Sie einen Desktop mit RTX 4090+.

Ist RTX 4090 übertrieben für Privatanwender?

Nein, wenn Sie 70B-Modelle ausführen oder mehrere Modelle gleichzeitig. Für nur 7B-Chat reicht RTX 4070 Ti. RTX 4090 ist zukunftssicher, wenn Sie Flexibilität wünschen.

Sollte ich RTX 5090 kaufen oder auf RTX 6090 warten?

RTX 5090 ist verfügbar (Anfang 2026). RTX 6000 Ada Server-GPUs sind auch solide. Falls Sie kein unbegrenztes Budget haben, sind RTX 5090 oder 4090 ausgezeichnet.

Wie beeinflusst Quantisierung die Qualität?

FP16 = 100% Qualität (Basis), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Für die meisten Aufgaben ist Q4 nicht zu unterscheiden von FP16.

Kann ich GPU später aufrüsten?

Ja. Beginnen Sie jetzt mit RTX 4070 Ti, rüsten Sie in 2 Jahren auf RTX 5090 auf, falls nötig. GPU ist die am meisten austauschbare Komponente.

Kann ich Apple Silicon (M1/M2/M3/M5) lokale LLMs ausführen?

Ja. Apple Silicon nutzt einen einheitlichen Speicher zwischen CPU und GPU. M5 Pro (64GB Unified Memory, 307GB/s) lädt 32B-Modelle mit 25-35 Tokens/Sekunde. M5 Max (128GB Unified Memory, 460-614GB/s) führt alle 70B-Modelle aus. M2 Pro (16 GB) führt 7B-Modelle mit 30-50 Tokens/Sekunde aus.

Welche 27B oder 32B Modelle passen auf 24GB VRAM (RTX 4090)?

Ja, die besten verfügbar. Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) ist das beste Dense-Coding-Modell. DeepSeek-R1 32B Q4_K_M (~19 GB) ist beste Reasoning. Beide passen mit 5-8 GB Headroom übrig für KV-Cache und Multitasking.

Quellen

NVIDIA GPU-Spezifikationen -- nvidia.com/de-de/geforce/graphics-cards/
Apple M5 Hardware-Spezifikationen -- apple.com/de/mac/m5 (offizielle Spezifikationen, 64GB und 128GB Unified Memory, 307-614GB/s Bandbreite)
Llama 4 Scout Modell -- meta.com/research (MoE-Architektur, 17B aktive Parameter, 109B gesamt)
Qwen3 und Qwen 3.6 Modelle -- huggingface.co/qwen (Leistungs-Benchmarks, 77,2% SWE-bench Coding)
LLM VRAM-Rechner -- vram.asult.com (Referenz)
Modell-Quantisierungs-Benchmarks -- huggingface.co/docs/transformers

70B LLM Hardware-Anforderungen 2026: VRAM, GPU & Build Guide

Präsentation: 70B LLM Hardware-Anforderungen 2026: VRAM, GPU & Build Guide