PromptQuorumPromptQuorum
Startseite/Lokale LLMs/70B LLM Hardware-Anforderungen 2026: VRAM, GPU & Build Guide
Hardware & Performance

70B LLM Hardware-Anforderungen 2026: VRAM, GPU & Build Guide

·13 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Die lokalen LLM-Hardware-Anforderungen hängen hauptsächlich vom VRAM ab: 7B-Modelle benötigen 8 GB, 13B-Modelle benötigen 12-16 GB und 70B-Modelle benötigen 35-48 GB je nach Quantisierung. Die GPU-Wahl ist 10-mal wichtiger als CPU für Inferenzgeschwindigkeit.

Um lokale LLMs auszuführen, müssen Sie drei Komponenten verstehen: GPU (optional, aber empfohlen), CPU und RAM. Im Mai 2026 benötigt ein 7B-Parameter-Modell mindestens 8 GB RAM, während ein 70B-Modell 40+ GB benötigt. Dieser Leitfaden behandelt echte Hardware-Empfehlungen für RTX 5090, 4090, Apple Silicon und Budget-Builds sowie VRAM-Mathematik zur Berechnung der Anforderungen für jede Modellgröße.

Präsentation: 70B LLM Hardware-Anforderungen 2026: VRAM, GPU & Build Guide

Die Präsentation behandelt: GPU-VRAM-Tiers für 12/16/24 GB, beste Modelle pro Tier mit VRAM-Bedarf und Geschwindigkeit, CPU-Inferenz mit 16 GB RAM sowie llama.cpp-Flags für die RTX 4070 Ti. PDF als Hardware-Referenzkarte herunterladen.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • VRAM-Mathematik: (Modellgröße in GB) ÷ Quantisierung = erforderlicher VRAM. Beispiel: 70B-Modell bei 4-Bit = 70 ÷ 8 = 8,75 GB.
  • 12 GB VRAM (RTX 4070 Ti): Beste Modelle: Llama 4 Scout 17B Q4_K_M (~10 GB, MoE, beste Gesamtqualität). Auch: Llama 3.1 8B Q8 (~9 GB, 80 tok/s).
  • 16 GB VRAM (RTX 4080 / RTX 5080): Beste Modelle: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s). Für agentic coding: Devstral Small 24B Q4_K_M.
  • 24 GB VRAM (RTX 4090): 70B-Modelle passen nicht bei Q4. Beste Option: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, beste Dense-Coding) oder DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s).
  • Apple M5 Max (128 GB unified): Erstes Mac das 70B-Modelle bei Q4_K_M ausführt – vergleichbar mit 2× RTX 4090 Desktop in Laptop oder Mac Studio.
  • Budget: RTX 4070 Ti ist das beste Preis-Leistungs-Verhältnis (ca. 600-700 €, verarbeitet 7-14B Modelle). RTX 4090 für jedes Single-GPU-Modell (ca. 1.800-2.100 €).

Beste GPUs zum Kaufen — 2026 Empfehlungen

Die Wahl einer GPU hängt von Ihrem Budget und der Modellgröße ab. Die NVIDIA RTX 40er und 50er-Serie dominieren 2026 für lokale LLMs:

  • RTX 4060 (8 GB) — 7B Modelle: ~180–220€. 40–60 tok/s.
  • RTX 4070 Ti (12 GB) — 14B Modelle: ~500–600€. 85–120 tok/s. Mainstream.
  • RTX 4080/5080 (16 GB) — 33B Modelle: ~1000–1200€. 110–140 tok/s.
  • RTX 4090 (24 GB) — 70B Modelle: ~1700–2000€. 150–180 tok/s.
  • Mac M5 Max 128GB — 70B Modelle: ~6000€. Bestes Preis-Leistung für Laptops.

Wie berechnen Sie VRAM-Anforderungen?

VRAM-Anforderungen hängen von drei Faktoren ab: Modellgröße (Parameter), Quantisierung (Bits pro Gewicht) und Inferenzmodus.

Formel:

``` VRAM (GB) = (Modellgröße × Quantisierungsbits) ÷ 8 ```

Quantisierungswerte: FP16 = 16 bits, Q8 = 8 bits, Q5 = 5 bits, Q4 = 4 bits.

ModellFP16 (beste Qualität)Q8 (hervorragend)Q5 (gut)Q4 (gut, kleinste Größe)
Llama 4 Scout 17B (aktiv)
Llama 3.1 8B
Qwen 3.6 27B
Qwen3 8B
Llama 3.3 70B
Qwen2.5 32B
Mistral Small 3.1 24B
VRAM-Rechner mit der Formel (Modellgröße × Bits) ÷ 8, mit Beispielen: 7B Q4 = 3,5 GB, 13B Q5 = 8,1 GB, 70B Q4 = 35 GB. Q4 ist der empfohlene Sweet-Spot für die meiste Hardware.
VRAM-Rechner mit der Formel (Modellgröße × Bits) ÷ 8, mit Beispielen: 7B Q4 = 3,5 GB, 13B Q5 = 8,1 GB, 70B Q4 = 35 GB. Q4 ist der empfohlene Sweet-Spot für die meiste Hardware.

Welche GPU sollten Sie kaufen?

Ab Mai 2026 dominiert NVIDIA die Local LLM-Performance. Hier sind Tier-Empfehlungen:

Hardware bestimmt, welche Modelle Sie ausführen können; Prompt Engineering bestimmt, wie gut sie performen. Ein gut strukturierter Prompt bei einem 7B-Modell übertrifft oft einen schlecht konzipierten Prompt bei einem 70B-Modell. Im vollständigen Prompt-Engineering-Guide finden Sie Techniken, die die Ausgabequalität bei jeder Parameterzahl maximieren.

TierGPUVRAMBest fürLeistung
Budget (600 €)RTX 4070 Ti / RTX 507012 GB7-13B ModelleSchnell (80 tokens/sec)
Mittelklasse (1200 €)RTX 4080 / RTX 508016 GB13-30B ModelleSehr schnell (120 tokens/sec)
High-End (2310 €)RTX 4090 / RTX 509024 GBAlle 70B ModelleExtrem schnell (150 tokens/sec)
Server (3000+ €)RTX 6000 Ada / A10048+ GBMulti-Benutzer, 70B+Produktionsqualität
GPU-Tier-Empfehlungen: 600 € RTX 4070 Ti (12GB, 7-13B Modelle), 1200 € RTX 4080 (16GB, 13-30B), 2310 € RTX 4090 (24GB, jedes 70B Modell), 3000+ € Server-GPUs für Produktion. GPU-Wahl ist 10× wichtiger als CPU.
GPU-Tier-Empfehlungen: 600 € RTX 4070 Ti (12GB, 7-13B Modelle), 1200 € RTX 4080 (16GB, 13-30B), 2310 € RTX 4090 (24GB, jedes 70B Modell), 3000+ € Server-GPUs für Produktion. GPU-Wahl ist 10× wichtiger als CPU.

Welche CPU und RAM benötigen Sie?

Mit einer GPU sind CPU und RAM sekundär. Die GPU führt die schwere Arbeit durch; CPU/RAM verarbeiten Kontextvorbereitung.

Mindest-CPU: 8-Core-Prozessor (Intel i7 12. Gen, AMD Ryzen 7 7700X oder neuer). Ältere CPUs addieren 20%+ Latenz.

RAM: Mindestens 16 GB (mit GPU). Ohne GPU sollten 32+ GB empfohlen werden. RAM begrenzt nicht direkt die Modellgröße, wenn GPU vorhanden ist.

Speicher: 500 GB SSD für Modelldateien und Betriebssystem. M.2 NVMe wird bevorzugt (schnelleres Laden von Modellen).

Wie viel Speicher benötigen Sie?

Modelldateien sind groß. Ein 7B-Modell bei 4-Bit-Quantisierung ist 4-5 GB. Planen Sie entsprechend:

  • 500 GB SSD: Betriebssystem + 1-2 kleine Modelle (3B, 7B)
  • 1 TB SSD: Betriebssystem + 3-5 Modelle (Mischung aus 7B und 13B)
  • 2 TB SSD: Betriebssystem + 10+ Modelle (verschiedene Größen)
  • 4 TB NVMe RAID: Produktionsaufbau, schnelles Laden von Modellen

Empfohlene Budget-Builds

Einen lokalen LLM-Rechner von Grund auf aufbauen:

BudgetGPUCPURAMModelleKosten
1500 € (Einstieg)RTX 4070 Tii7 1370016 GB7-13BRealistisch
2500 € (solide)RTX 4080i7 14700K32 GB13-30BEmpfohlen
4000 € (High-End)2× RTX 4090Ryzen 9 7950X128 GBAlle (70B+)Overkill für Privat
Drei Baukonfigurationen: 1500 € Einstiegsniveau (RTX 4070 Ti, i7 13700, 16GB) für 7-13B Modelle, 2500 € solider Build (RTX 4080, i7 14700K, 32GB) für 13-30B, 4000 € High-End (2× RTX 4090, Ryzen 9, 128GB) für alle Modelle. Mittleres Niveau bietet das beste Preis-Leistungs-Verhältnis.
Drei Baukonfigurationen: 1500 € Einstiegsniveau (RTX 4070 Ti, i7 13700, 16GB) für 7-13B Modelle, 2500 € solider Build (RTX 4080, i7 14700K, 32GB) für 13-30B, 4000 € High-End (2× RTX 4090, Ryzen 9, 128GB) für alle Modelle. Mittleres Niveau bietet das beste Preis-Leistungs-Verhältnis.

Was tun, wenn Sie sich die Hardware nicht leisten können?

Wenn eine 250–400 € GPU außerhalb Ihres Budgets liegt oder Ihr Laptop zu alt ist, um moderne Inference Engines zu unterstützen, lokale LLMs könnten für Sie 2026 nicht kosteneffektiv sein.

Berechnen Sie die wahren Kosten:

- Lokal: 800–2.000 € Anfangshardware + Strom + Wartung über 2–3 Jahre

- Cloud: 5–50 €/Monat für typische Entwicklernutzung (Llama API oder GPT-4o mini)

Für leichte Benutzer (< 100.000 Tokens/Monat) kostet Cloud-API 5–10 €/Monat und erfordert keine Hardware. Für schwere Benutzer (> 10 Mio. Tokens/Monat) rentiert sich lokal in 6–12 Monaten.

Vergleichen Sie den vollständigen Kosten- und Leistungs-Trade-off zwischen lokal und Cloud**, um Ihren Break-Even-Punkt zu finden. Viele Entwickler stellen fest, dass Cloud für ihr tatsächliches Nutzungsmuster billiger ist.

Schon unterhalb der empfohlenen VRAM-Stufen unterwegs? Welche Modell- und App-Kombinationen tatsächlich auf 8 GB oder weniger laufen, zeigt Beste lokale KI-App für einen schwachen PC.

Mac-Hardware für lokale LLMs

Apple Silicon (M-Serie) läuft lokale LLMs effizient mit einheitlichem Speicher zwischen CPU und GPU. M5, eingeführt seit Oktober 2025, ist ein bedeutender Durchbruch für lokale Inferenz. Apple behauptet 4× schnellere LLM-Prompt-Verarbeitung vs M4.

Das M5 Max mit 128 GB einheitlichem Speicher ist der erste Apple-Silicon-Chip, der bequem 70B-Modelle bei Q4_K_M ausführt – vergleichbar mit 2× RTX 4090 Desktops aber in einem Laptop oder Mac Studio Formfaktor. Das M5 Pro mit 64 GB einheitlichem Speicher handhabet 32B-Modelle mit großzügiger Kopfraum für KV-Cache und Multitasking.

MacGPU-SpeicherBest fürBeschränkung
M3 MacBook Pro 16"18 GB unified7B Modelle (schnell)Kann 13B langsam ausführen
M4 Max48-96 GB unified13-30B ModelleNicht optimiert für 70B
M5 Pro (MacBook Pro)64 GB unified, 307 GB/s30B-Modelle bequemLlama 4 Scout läuft gut
M5 Max (MacBook Pro / Studio)128 GB unified, 460-614 GB/s70B-Modelle bei Q4_K_MErstes Mac für 70B
Mac-Hardware-Vergleich: M3 MacBook Pro 16" (18GB, 7B), M4 Max (48-96GB, 13-30B), M5 Pro (64GB, 30B), M5 Max (128GB, 70B bei Q4_K_M). M5 Max ist erstes Mac um 70B-Modelle vergleichbar mit 2× RTX 4090 Desktops zu handhaben.
Mac-Hardware-Vergleich: M3 MacBook Pro 16" (18GB, 7B), M4 Max (48-96GB, 13-30B), M5 Pro (64GB, 30B), M5 Max (128GB, 70B bei Q4_K_M). M5 Max ist erstes Mac um 70B-Modelle vergleichbar mit 2× RTX 4090 Desktops zu handhaben.

Server-Hardware vs. Consumer-Hardware

Für die Produktionsbereitstellung wird Server-Hardware empfohlen:

  • Consumer (RTX 4090): ~2310 €, 24 GB VRAM, Einzelbenutzer, anfällig für Drosselung bei anhaltender Last.
  • Server (RTX 6000 Ada): ~5000 €, 48 GB VRAM, für 24/7-Nutzung ausgelegt, bessere Kühlung, Fehlerkorrektur.
  • Empfehlung: Beginnen Sie mit RTX 4090. Bei 24/7-Betrieb von 70B-Modellen für mehrere Benutzer auf Dual-A100 oder RTX 6000 aufrüsten.
Consumer vs. Server-Hardware: RTX 4090 (2310 €, 24GB, Einzelbenutzer, Teilzeit) vs. RTX 6000 Ada (5000+ €, 48GB, Mehrbenutzer, 24/7 Betrieb). Beginnen Sie mit Consumer-Hardware; rüsten Sie auf Server-Hardware auf, nur wenn Sie Produktionsdienste betreiben.
Consumer vs. Server-Hardware: RTX 4090 (2310 €, 24GB, Einzelbenutzer, Teilzeit) vs. RTX 6000 Ada (5000+ €, 48GB, Mehrbenutzer, 24/7 Betrieb). Beginnen Sie mit Consumer-Hardware; rüsten Sie auf Server-Hardware auf, nur wenn Sie Produktionsdienste betreiben.

Häufige Fehler bei der Hardware-Planung

  • Nur CPU kaufen, wenn GPU verfügbar ist. Eine 600 €-RTX 4070 Ti wird eine 2000 €-CPU überflügeln. GPU dominiert die LLM-Geschwindigkeit.
  • Nicht mit VRAM-Overhead rechnen. Modell-Dateigröße + Systemoverhead + Kontext = Gesamt-VRAM verwendet. Immer 25% mehr als Modellgröße kaufen.
  • Annahmen, dass alle 70B-Modelle in 40GB VRAM passen. Das tun sie, knapp, nur bei Q4 (4-Bit) Quantisierung. Q5 benötigt 45+ GB.
  • Stromversorgung und Kühlung ignorieren. RTX 4090 verbraucht 575W. Benötigen 1200W Stromversorgung und gute Gehäusebelüftung.
  • Denken, dass eine alte GPU funktioniert. RTX 2080 ist 10× langsamer als RTX 4070 Ti. Moderne GPU-Architektur ist bedeutsam.

Häufig gestellte Fragen zur Hardware für lokale LLMs

Kann ich ein 70B-Modell auf einem Laptop ausführen?

Nur mit schwerer Quantisierung (Q2, 2-Bit) und CPU-Fallback. Unpraktisch. Laptops eignen sich für 7B-Modelle. Für 70B verwenden Sie einen Desktop mit RTX 4090+.

Ist RTX 4090 übertrieben für Privatanwender?

Nein, wenn Sie 70B-Modelle ausführen oder mehrere Modelle gleichzeitig. Für nur 7B-Chat reicht RTX 4070 Ti. RTX 4090 ist zukunftssicher, wenn Sie Flexibilität wünschen.

Sollte ich RTX 5090 kaufen oder auf RTX 6090 warten?

RTX 5090 ist verfügbar (Anfang 2026). RTX 6000 Ada Server-GPUs sind auch solide. Falls Sie kein unbegrenztes Budget haben, sind RTX 5090 oder 4090 ausgezeichnet.

Wie beeinflusst Quantisierung die Qualität?

FP16 = 100% Qualität (Basis), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Für die meisten Aufgaben ist Q4 nicht zu unterscheiden von FP16.

Kann ich GPU später aufrüsten?

Ja. Beginnen Sie jetzt mit RTX 4070 Ti, rüsten Sie in 2 Jahren auf RTX 5090 auf, falls nötig. GPU ist die am meisten austauschbare Komponente.

Kann ich Apple Silicon (M1/M2/M3/M5) lokale LLMs ausführen?

Ja. Apple Silicon nutzt einen einheitlichen Speicher zwischen CPU und GPU. M5 Pro (64GB Unified Memory, 307GB/s) lädt 32B-Modelle mit 25-35 Tokens/Sekunde. M5 Max (128GB Unified Memory, 460-614GB/s) führt alle 70B-Modelle aus. M2 Pro (16 GB) führt 7B-Modelle mit 30-50 Tokens/Sekunde aus.

Welche 27B oder 32B Modelle passen auf 24GB VRAM (RTX 4090)?

Ja, die besten verfügbar. Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) ist das beste Dense-Coding-Modell. DeepSeek-R1 32B Q4_K_M (~19 GB) ist beste Reasoning. Beide passen mit 5-8 GB Headroom übrig für KV-Cache und Multitasking.

Verwandte Themen

Quellen

  • NVIDIA GPU-Spezifikationen -- nvidia.com/de-de/geforce/graphics-cards/
  • Apple M5 Hardware-Spezifikationen -- apple.com/de/mac/m5 (offizielle Spezifikationen, 64GB und 128GB Unified Memory, 307-614GB/s Bandbreite)
  • Llama 4 Scout Modell -- meta.com/research (MoE-Architektur, 17B aktive Parameter, 109B gesamt)
  • Qwen3 und Qwen 3.6 Modelle -- huggingface.co/qwen (Leistungs-Benchmarks, 77,2% SWE-bench Coding)
  • LLM VRAM-Rechner -- vram.asult.com (Referenz)
  • Modell-Quantisierungs-Benchmarks -- huggingface.co/docs/transformers

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

LLM-Hardware nach Modell: 70B, 13B, 7B VRAM-Anleitung 2026