Skip to main content
PromptQuorumPromptQuorum
Startseite/Power Local LLM/Beste Workstation für lokale KI 2026: Drei Budgetstufen
Overview & Reference

Beste Workstation für lokale KI 2026: Drei Budgetstufen

··Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Die beste lokale KI-Workstation 2026 für die meisten Nutzer kostet ~2500 €: RTX 4090 (24 GB VRAM) + Ryzen 9 9950X + 64 GB DDR5. Sie läuft 7B-Modelle mit 100–120 Tok/s, 14B mit Q8 ohne Offloading und 30B Q4 mit 25–35 Tok/s.

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen.

Wichtigste Erkenntnisse

  • RTX 4090 ist 2026 die beste Einzel-Consumer-GPU für lokale KI: 24 GB VRAM, ~1 TB/s Bandbreite
  • 70B-Q4-Modelle brauchen 40+ GB VRAM — erfordert Dual RTX 3090 oder CPU-Offloading
  • Ryzen 9 9950X (Zen 5, 16 Kerne) ist die beste CPU für schnelles CPU-Offloading großer Layer
  • DDR5-6000 mit 64 GB Minimum; 128 GB ermöglicht 70B CPU-Offloading mit nutzbarer Geschwindigkeit
  • PCIe Gen 4/5 NVMe lädt ein 7B-Modell in unter 2 Sekunden
  • Alle drei Builds nutzen AM5 (Tier 1+2) — GPU/RAM später ohne neues Mainboard aufrüstbar

Stufe 1: ~1200 € Budget-KI-Workstation

Der 1200-€-Budget-Build nutzt eine gebrauchte RTX 3090 (24 GB VRAM) als Kern. Er läuft Llama 3.1 8B Q8 mit 45–60 Tok/s, Qwen2.5 14B Q8 mit 20–28 Tok/s und Qwen2.5 32B Q4 mit 12–18 Tok/s vollständig auf GPU.

  • Vollständig auf GPU unterstützte Modelle: 7B (alle Quants), 13B, 14B Q4/Q8, 30B Q4
  • 70B-Unterstützung: CPU-Offloading nötig — ~5–8 Tok/s
  • Stromaufnahme Peak: ~450 W

Stufe 2: ~2500 € Empfohlene KI-Workstation

Der 2500-€-Build zentriert sich auf die RTX 4090 (24 GB, ~1 TB/s Speicherbandbreite) mit dem AMD Ryzen 9 9950X (Zen 5, 16 Kerne). Die 4090 ist 30–40% schneller als die 3090 pro GB VRAM bei geringerem Stromverbrauch pro Token.

  • 7B Q4 Geschwindigkeit: ~105–125 Tok/s
  • 14B Q8 Geschwindigkeit: ~48–60 Tok/s
  • 30B Q4 Geschwindigkeit: ~28–38 Tok/s
  • 70B Q4 (CPU-Offloading): ~10–15 Tok/s mit 64 GB RAM
  • Stromaufnahme Peak: ~550 W

Stufe 3: ~5000 € Profi-70B-Workstation

Der 5000-€-Profi-Build zielt auf 70B-Modell-Inferenz mit GPU-Geschwindigkeit (25–40 Tok/s) durch dual RTX 3090 GPUs für 48 GB VRAM gesamt. Der Ryzen Threadripper 7960X (24 Kerne) beschleunigt CPU-Offloading. Mit 256 GB DDR5 laden selbst 140B-quantisierte Modelle vollständig in RAM.

  • 70B Q4 Geschwindigkeit: 25–40 Tok/s (beide RTX 3090s via Tensor-Parallelismus)
  • CPU-Offloading mit 256 GB RAM: 140B+ Modelle mit 4–6 Tok/s
  • Stromaufnahme Peak: ~900 W

Sollte ich eine Workstation bauen oder Cloud-GPUs mieten?

Bei regelmäßiger Nutzung (2+ Stunden/Tag): Workstation bauen. Eine A40 48 GB auf RunPod kostet 0,44 $/Stunde — bei 4 Stunden/Tag sind das ~640 €/Jahr. Ein 3000-€-Profi-Build amortisiert sich in 5–6 Jahren. Bei gelegentlicher Nutzung (unter 1 Stunde/Tag) ist Cloud günstiger.

Brauche ich NVLink für Ollama mit zwei GPUs?

Nein. Ollama nutzt CUDA Tensor-Parallelismus über PCIe — kein NVLink nötig. Das Dual-RTX-3090-Setup funktioniert vollständig ohne NVLink.

Warum Dual RTX 3090 statt einer RTX 4090 für den Profi-Build?

VRAM ist entscheidend. Zwei RTX 3090s ergeben 48 GB gesamt — genug für Llama 3.1 70B Q4 (~40 GB). Eine einzelne RTX 4090 hat nur 24 GB. Für 70B-Inferenz auf GPU gewinnen die Dual-3090s beim VRAM/Euro-Verhältnis.

← Zurück zu Power Local LLM

Beste Workstation für lokale KI 2026 (3 Budgetstufen)