PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Local LLM PC bauen: Beste Workstation (GPU, VRAM, 7B–70B Modelle)
Hardware Setups

Local LLM PC bauen: Beste Workstation (GPU, VRAM, 7B–70B Modelle)

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Eine professionelle Workstation kostet €4.000–6.000 mit 2× RTX 4090 (48 GB VRAM), Threadripper 7970X (32 Kerne), 128 GB DDR5, custom Kühlung und 2.000 W Netzteil. Ab April 2026: 2–3 gleichzeitige 70B-Benutzer à 14 Token/s.

Eine professionelle Workstation für lokale LLM-Inferenz in Produktionsqualität kostet €4.000–6.000 und verfügt über zwei RTX 4090 GPUs (insgesamt 48 GB VRAM), Threadripper 7970X CPU (32 Kerne), 128 GB DDR5 RAM, benutzerdefinierte Kühlung und ein 2.000 W Netzteil. Ab April 2026 können 2–3 gleichzeitige 70B-Benutzer bei 14 Token/s bedient werden, Llama 3.3 70B Feinabstimmung lässt sich parallel zu Inferenz betreiben, und On-Premises-Bereitstellung ohne Cloud-API-Kosten ist möglich.

Präsentation: Local LLM PC bauen: Beste Workstation (GPU, VRAM, 7B–70B Modelle)

Das Foliendeck unten deckt ab: Workstation-Architektur (Dual RTX 4090, Threadripper, 128 GB RAM), GPU-Konfigurationsoptionen (nebeneinander, NVLink, Tensor Parallelism), Kühlungslösungen (Flüssigkeit vs. AIO), Stromversorgungsanforderungen (2000 W PSU, 20 A Stromkreis) und Multi-User-Performance-Benchmarks (2–3 gleichzeitige 70B-Benutzer bei 14 Token/s). Laden Sie das PDF als Workstation-Build-Referenzkarte herunter.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • CPU: Threadripper 7970X (32-Kern, €2.400–2.500) oder Intel Xeon W9-3495X (€5.000+). Ermöglicht parallele Feinabstimmung während Inferenz läuft.
  • GPU: 2× RTX 4090 24GB (gebrauchtes Paar ~€1.900–2.200). 48 GB VRAM insgesamt für Multi-User 70B oder single 70B + Vorbereitungsaufgaben.
  • RAM: 128GB DDR5 (€600–800). Unterstützt 8+ gleichzeitige Nutzer auf 70B oder single-User 70B + Quantisierung parallel.
  • Speicher: 4–8TB NVMe SSD + 12–24TB HDD (€800–1.500). Multi-Model-Bibliothek + Backups + Trainings-Datensätze.
  • Netzteil: 2× 1200W oder 1× 2000W (€800–1.200). Dual 4090er ziehen 900W kontinuierlich; Headroom für Spitzen essentiell.
  • Kühlung: Custom Liquid Loop oder Dual AIO (€1.000–2.000). Single großer GPU + CPU = 1.200W Wärmeleistung.
  • Netzwerk: 10Gbps Ethernet optional (€200–400). LAN Multi-User-Zugang ohne Engpässe.
  • Gesamt: €4.000–6.000. Unterstützt 8+ gleichzeitige 70B-Nutzer oder 1 Nutzer Fine-Tuning + parallel serving.

Wer benötigt eine €4K-6K Workstation?

Dieser Tier ist für:

  • KMUs/Unternehmen: LLM API intern für 5+ Mitarbeiter gleichzeitig betreiben. On-Prem-Daten-Kontrolle erforderlich.
  • AI-Forscher: Große Modelle fine-tunen (70B LoRA) während Inferenz für Team serving. Einzelnes €2K Rig kann nicht parallelisieren.
  • MLOps-Ingenieure: Interne Inference-Cluster bauen. Mit einer Workstation als Server-Node starten.
  • Content-Studios (professionell): 24/7 Video-Captioning, Code-Generierung, Zusammenfassung ohne API-Kosten betreiben.

Wie ist die Teile-Liste für die Workstation?

Eine professionelle Workstation beginnt mit Dual RTX 4090s (€1.900–2.200 für gebrauchtes Paar) und einer Threadripper CPU (€2.400–2.500), gepaart mit 128GB DDR5 RAM und custom Liquid-Kühlung. Hier ist die vollständige Teile-Liste und Kostenaufschlüsselung:

KomponenteModellPreis (April 2026)Notizen
GPU2× RTX 4090 24GB (gebraucht)€1.900–2.200NVLink-Brücken optional. Beide Karten vor dem Pairing testen.
CPUThreadripper 7970X (32-Kern)€2.400–2.500Ermöglicht 32 parallele Kerne für Fine-Tuning während Inferenz auf beiden GPUs läuft.
MotherboardTRX850 oder Xeon W90€400–800Dual-GPU-Unterstützung, PCIe 5.0, Enterprise-Grade Power Delivery.
RAM128GB DDR5 6000 MHz€600–800Corsair Dominator Platinum. Ermöglicht 8+ gleichzeitige Nutzer.
Speicher4TB NVMe + 12TB HDD€800–1.200NVMe für Hot-Models, HDD für Backup & Datensätze.
Netzteil2000W 80+ Platinum oder 2× 1200W€1.000–1.500Dual 4090s = 900W kontinuierlich, benötigen 2000W+ Headroom.
KühlungCustom Loop oder 2× 360mm AIO€1.500–2.500CPU + 2 GPUs = 1.200W Wärme. Luftkühlung unzureichend.
GehäuseLian Li O11 Dynamic oder Corsair Crystal€200–300Unterstützt Dual-GPU + großer AIO oder Loop.
Gesamt--€4.000–6.000Skaliert mit GPU-Marktpreisen & Kühlungsoptionen.
Workstation-Komponenten: Dual RTX 4090 GPUs (48GB gesamte VRAM), Threadripper 7970X CPU (32 Kerne), 128GB DDR5 RAM, 2000W Netzteil und Flüssigkeitskühlung für 1.200W Wärmeleistung.
Workstation-Komponenten: Dual RTX 4090 GPUs (48GB gesamte VRAM), Threadripper 7970X CPU (32 Kerne), 128GB DDR5 RAM, 2000W Netzteil und Flüssigkeitskühlung für 1.200W Wärmeleistung.

Wie konfigurieren Sie Dual GPUs für maximale Leistung?

Zwei RTX 4090s geben Ihnen 48GB VRAM und ~2× Durchsatz für Inferenz. Sie haben drei Konfigurationsoptionen: nebeneinander unabhängige Operation, NVLink-Fusion für unified VRAM, oder Tensor Parallelism für Single-Model-Beschleunigung.

📍 In einem Satz

Dual GPUs laufen entweder unabhängige Modelle pro Karte (einfachste) oder pooled VRAM via NVLink (komplex aber ermöglicht größere Modelle).

💬 In einfachen Worten

Denken Sie daran wie zwei separate Computer (nebeneinander) vs. ein geteilter Super-Computer (NVLink). Nebeneinander ist einfacher aufzubauen; geteilt gibt mehr Power für riesige Modelle.

  1. 1
    Nebeneinander (kein NVLink): Jede GPU läuft unabhängig. Modell A auf GPU 0, Modell B auf GPU 1. Best für heterogene Workloads (Fine-Tuning 7B + serving 70B).
  2. 2
    NVLink-Brücke: VRAM fusionieren (48GB erscheint als single 48GB Pool). Ermöglicht größere Batch-Größen oder massive Context-Fenster. Kosten: €200–300 für Brücke + Setup-Komplexität.
  3. 3
    Dual-GPU-Inferenz: Einen single 70B-Modell über 2 GPUs shardn für 2× Durchsatz (28 tok/s statt 14). Benötigt vLLM oder llama.cpp Tensor-Parallel-Support.
Drei Dual-GPU-Konfigurationsoptionen: Nebeneinander unabhängig (heterogene Workloads, kein NVLink), NVLink-Brücke (vereinigte 48GB VRAM, große Kontextfenster) und Tensor-Parallelität (einzelnes 70B-Modell über GPUs für 28 tok/s-Durchsatz).
Drei Dual-GPU-Konfigurationsoptionen: Nebeneinander unabhängig (heterogene Workloads, kein NVLink), NVLink-Brücke (vereinigte 48GB VRAM, große Kontextfenster) und Tensor-Parallelität (einzelnes 70B-Modell über GPUs für 28 tok/s-Durchsatz).

💡 Pro Tip: NVLink für heterogene Workloads skippen. Unabhängige Operation ist einfacher, kostengünstiger (€200 gespart), und eliminiert Brücken-Firmware-Bugs.

⚠️ Warning: NVLink-Brücke benötigt NVIDIA proprietären Treiber-Support. Open-Source ROCm oder AMD Äquivalente unterstützen keine Bridging über verschiedene GPUs.

Dual RTX 5090 vs Dual RTX 4090: Leistung & Wert (April 2026)

Dual RTX 4090 gebraucht (€1.900–2.200) bleibt die Wert-Wahl für Q4 70B at 100 tok/s. Dual RTX 5090 neu (€4.000) gewinnt für höheres VRAM (64 GB) und Qualität (Q8-Format) aber kostet €1.400–1.800 mehr. Single RTX 5090 (€2.000 neu) passt 70B Q4 at 40–50 tok/s ohne Komplexität.

KonfigurationVRAM70B GeschwindigkeitKosten
Dual RTX 4090 (gebraucht)48 GB100 tok/s (Q4)€1.900–2.200
Single RTX 5090 (neu)32 GB40–50 tok/s (Q4)€2.000
Dual RTX 5090 (neu)64 GB120 tok/s (Q4)€4.000

💡 Pro Tip: Für Q4 70B Inferenz bei maximaler Durchsatzleistung: Dual 4090 gebraucht (€1.900–2.200) liefert April 2026 bester Wert. Neue 5090s kosten 50%+ mehr.

📌 Key Point: Dual 5090 gewinnt für Q8 70B (höhere Ausgabe-Qualität) oder Future-Proofing. Single 5090 eliminiert Dual-GPU-Komplexität für Solo-Nutzer.

Wie kühlen Sie 1.200 W Abwärmeleistung?

RTX 4090 (450W) + RTX 4090 (450W) + CPU (200W) = 1.100W kontinuierlich, Spitzen zu 1.300W.

  • Custom Liquid Loop: €1.500–2.500. CPU Water Block + GPU Water Blocks + 360mm Radiator. Hält GPUs <75°C, CPU <80°C.
  • Dual 360mm AIO: €600–900. Ein AIO pro GPU + separate CPU-Kühler. Modularer, einfachere Wartung als Custom Loop.
  • Luftkühlung: Nicht möglich. Thermal Throttling garantiert bei sustained 70B Inferenz.
Wärmeleistung: 1.200W insgesamt von Dual RTX 4090s (450W jeweils) und Threadripper CPU (200W). Kühlungslösungen: Benutzerdefinierte Flüssigkeitsschleife (€1.350–2.200), Dual 360mm AIO (€540–810) oder Luftkühlung (nicht empfohlen, verursacht thermische Drosselung).
Wärmeleistung: 1.200W insgesamt von Dual RTX 4090s (450W jeweils) und Threadripper CPU (200W). Kühlungslösungen: Benutzerdefinierte Flüssigkeitsschleife (€1.350–2.200), Dual 360mm AIO (€540–810) oder Luftkühlung (nicht empfohlen, verursacht thermische Drosselung).

🛠️ Best Practice: Thermal Paste mit 5+ W/mK Leitfähigkeit nutzen (Noctua NT-H2, Corsair TM30). Billige Paste kann 10–15°C zu Temps hinzufügen und GPU-Garantie voidieren.

Wie wählen Sie das richtige Netzteil und Stromversorgungssetup?

Dual 4090s (900W kontinuierlich, Spitzen zu 1.300W) benötigen ein 2000W Netzteil minimum — alles weniger verursacht Spannungssag und Crashes unter Last. Sie können ein single 2000W Netzteil oder dual 1200W Netzteile für Redundanz wählen, aber müssen überprüfen, dass Ihr Heim-/Büro-Stromkreis 2000W bei Spitzenlast handhaben kann.

  • Option 1: Single 2000W Netzteil: Seasonic, Corsair, oder EVGA 80+ Platinum. Sauberes Kabel-Routing, single Point-of-Failure.
  • Option 2: Dual 1200W Netzteil: Ein Netzteil pro GPU + shared Motherboard. Redundanz (ein Ausfallfall, Inferenz läuft weiter bei 50% Geschwindigkeit). Komplexes Setup.
  • Kapazitäts-Regel: 2000W für Dual 4090 ist Minimum. Alles weniger verursacht Spannungssag unter Last.
  • Stromkreis-Planung: Ein Dual-GPU Rig zieht 2000W bei Spitzenlast. Sicherstellen 20A Stromkreis (typisches Heim-/Büro-Outlet ist 15A, unzureichend). Nutzen Sie dedizierte 240V Linie falls möglich.
Stromversorgungsanforderungen: ~1.100W konstant (450W + 450W GPUs, 200W CPU) mit Spitzen bis 1.300W. Netzteiloptionen: einzelnes 2000W (einfacher, saubere Kabel) oder Dual 1200W (redundant, komplexes Setup). Beide erfordern dedizierten 20A 240V Stromkreis.
Stromversorgungsanforderungen: ~1.100W konstant (450W + 450W GPUs, 200W CPU) mit Spitzen bis 1.300W. Netzteiloptionen: einzelnes 2000W (einfacher, saubere Kabel) oder Dual 1200W (redundant, komplexes Setup). Beide erfordern dedizierten 20A 240V Stromkreis.

⚠️ Warning: Heim-Outlets sind typisch 15A at 120V (1.800W max). Ein Dual-4090 Rig wird den Breaker auslösen. Installieren Sie einen dedizierten 240V 20A Stromkreis (€200–400 Elektriker-Gebühr).

📌 Key Point: Immer modulare Netzteile nutzen. Dual-GPUs haben Dutzende Power-Pins; non-modulare Kabel schaffen Feuer-Gefahren durch Kontakt-Widerstand auf Multi-Pin-Steckern.

Welche Multi-User-Inferenz-Leistung erwarten Sie?

Mit 128GB RAM und Dual 4090s können Sie 2–3 gleichzeitige 70B-Nutzer at 14 tok/s each serving, oder 8+ gleichzeitige 7B-Nutzer at 30+ tok/s each. Die folgenden Benchmarks nehmen Q4-Quantisierung und vLLM für Multi-User-Scheduling an:

  • Single User, 70B Modell: 28 Tokens/Sek (2× 14 tok/s pro GPU via Tensor Parallelism).
  • Zwei gleichzeitige Nutzer, 70B each: 14 Tokens/Sek pro Nutzer (Zeit-Multiplexing Anfragen).
  • Vier gleichzeitige Nutzer, 7B each: 120 Tokens/Sek Gesamt (jeder Nutzer bekommt 30 tok/s).
  • Fine-Tuning 7B LoRA + serving 70B: Fine-Tuning auf GPU 0 (100W), Inferenz auf GPU 1 (450W). Keine Interferenz.

Welche häufigen Fehler beim Workstation-Build sollten Sie vermeiden?

  • Zwei verschiedene GPU-Modelle kaufen (5090 + 4090). Asymmetrie verursacht Load-Balancing Probleme. Halten Sie sich an identical Karten.
  • Beim Netzteil sparen um €300 zu sparen. Ein 1500W Netzteil + Dual 4090s wird drosseln oder crashen unter Last.
  • Luftkühlung statt Liquid nutzen. Thermal Throttling cut Durchsatz 30–50% auf sustained Inferenz.
  • Stromkosten in TCO-Berechnungen vergessen. Dual RTX 4090s bei sustained Inferenz ziehen 900 W. Bei deutschem Durchschnitt (~€0,32/kWh) laufend 24/7: ~€2.500/Jahr Elektrizität. Über 3 Jahre: €7.500–7.500 allein in Stromkosten. Faktor dies in ROI vs Cloud API Entscheidungen.
  • Networking für Multi-User-Setups unterschätzen. Standard-Gigabit Ethernet (1 Gbps = 125 MB/s) ist der Engpass beim Serving 5+ gleichzeitiger Nutzer mit langen Context-Antworten. Upgrade zu 2,5 Gbps oder 10 Gbps Ethernet für Produktions-Workstationen serving Teams. Kosten: €200–400 für NIC + Switch.

⚠️ Warning: Nicht matching GPUs (verschiedene Modelle oder VRAM Größen) brechen Tensor Parallelism. vLLM wird fallback zu Single-GPU Inferenz, halving Durchsatz.

💡 Pro Tip: Gebrauchte RTX 4090 Paare kaufen (verifiziert working zusammen by previous Owner) statt neue single Karten. €500–800 sparen und Hardware-Lotterie vermeiden.

Häufig gestellte Fragen

🔍 Did You Know?: Dual RTX 4090s unter vollem Inferenz-Load verbrauchen 900W kontinuierlich. Ihre Stromrechnung: ~€2.500/Jahr bei deutschem Durchschnitt (€0,32/kWh), 24/7 Betrieb.

Ist eine Threadripper CPU notwendig, oder kann ich Ryzen 9 nutzen?

Für nur Inferenz: Ryzen 9 funktioniert gut. Für Inferenz + parallel Fine-Tuning: Threadrippers extra Kerne (32 vs. 16) sind essentiell.

Sollte ich NVLink nutzen um die beiden 4090s zu fusionieren?

Optional. Skippe es wenn unterschiedliche Modelle auf jeder GPU laufen (7B + 70B). Nutze es wenn sharding eines single 70B über beide GPUs für höhere Batch-Größen.

Wie viele gleichzeitige Nutzer kann ein Dual-4090 Rig handhaben?

Für 70B: 2–3 Nutzer (jeder bekommt 14 tok/s). Für 7B: 8+ Nutzer (jeder bekommt 30+ tok/s).

Kann ich zu RTX 5090 statt Dual 4090 upgraden?

Single 5090: Ähnliche Leistung zu Dual 4090, halbes VRAM (24GB vs. 48GB), €2.000. Dual 5090: €4.000 (Overkill, schlechterer Wert).

Was ist das ROI auf einer €4.000 Workstation vs Cloud LLM API?

Cloud: €0,0008 pro 1K Tokens. Workstation: €4.000 amortisiert über 2 Jahre = €2.000/Jahr, ~€0,000001 pro Token. Break-even bei 2,5 Mrd Tokens/Jahr (light Nutzung).

Benötigt eine Workstation Datencenter-Kühlung?

Nein. Consumer-Grade Liquid-Kühlung (2× 360mm AIO oder Custom Loop) ist ausreichend. Datencenter-Kühlung (in-Row, Overhead) ist für Dichte designed; ein single Workstations 1.200W passt within Office HVAC.

Sollte ich auf RTX 6090 warten statt jetzt Dual 4090s zu kaufen?

NVIDIAs RTX 60er wird erwartet Ende 2026 bis 2027 basierend auf historischen 2-Jahr Refresh-Zyklen. Wenn Sie jetzt eine Workstation brauchen: Dual RTX 4090 gebraucht (€1.900–2.200) liefert besten 70B Inferenz-Wert im April 2026. Wenn Sie 12–18 Monate warten können: RTX 6090 wird wahrscheinlich 48 GB VRAM Single-Card haben, eliminierend Bedarf für Dual-GPUs ganz.

Was ist das Noise-Level eines Dual-4090 Workstations?

Under sustained 70B Inferenz: 50–60 dB at 1 Meter mit Custom Liquid-Kühlung. Vergleichbar zu normales Büro-Gespräch. Mit Dual 360mm AIO: 55–65 dB (audibly laut unter Last). Luftkühlung: 65–75 dB (laut, unpraktisch für Büronutzung). Für Desk-Side Placement: Custom Loop oder quiet AIO ist essentiell. Für Server-Room Placement: Noise ist irrelevant.

Muss ich bei der Verwendung von lokalen LLMs die DSGVO beachten?

Ja. Lokale Inference erfüllt DSGVO Artikel 28 (Datenverarbeitung) automatisch da alle Daten on-Premises bleiben. Konfigurieren Sie Zugriffskontrolle (LDAP, Firewall) um BSI-Grundschutz-Kataloge Anforderungen zu erfüllen. Für Unternehmens-Deployments: Dokumentieren Sie Daten-Flow und Lösch-Policies im DPA (Data Processing Agreement) mit Ihrem Arbeitgeber.

Ist eine Workstation für den deutschen Mittelstand geeignet?

Ja. SMBs (50–500 Mitarbeiter) benötigen oft interne LLM APIs für Dokumenten-Analyse, Kundensupport-Automation oder Content-Generierung während DSGVO-compliant bleibt. €4K–6K Workstation mit Dual 4090s bedient 5–8 Mitarbeiter @ 14 tok/s. ROI: €1K Cloud-API-Kosten/Monat break-even nach 4 Monaten. Für größere Mittelstand (200+ Nutzer): Mehrere Workstations parallel nutzen.

Quellen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Lokale LLM-Workstation Build 2026: Dual RTX 4090, €4–6K, 70B-fähig