Wichtigste Erkenntnisse
- RTX 4090 ist 2026 die beste Einzel-Consumer-GPU für lokale KI: 24 GB VRAM, ~1 TB/s Bandbreite
- 70B-Q4-Modelle brauchen 40+ GB VRAM — erfordert Dual RTX 3090 oder CPU-Offloading
- Ryzen 9 9950X (Zen 5, 16 Kerne) ist die beste CPU für schnelles CPU-Offloading großer Layer
- DDR5-6000 mit 64 GB Minimum; 128 GB ermöglicht 70B CPU-Offloading mit nutzbarer Geschwindigkeit
- PCIe Gen 4/5 NVMe lädt ein 7B-Modell in unter 2 Sekunden
- Alle drei Builds nutzen AM5 (Tier 1+2) — GPU/RAM später ohne neues Mainboard aufrüstbar
Stufe 1: ~1200 € Budget-KI-Workstation
Der 1200-€-Budget-Build nutzt eine gebrauchte RTX 3090 (24 GB VRAM) als Kern. Er läuft Llama 3.1 8B Q8 mit 45–60 Tok/s, Qwen2.5 14B Q8 mit 20–28 Tok/s und Qwen2.5 32B Q4 mit 12–18 Tok/s vollständig auf GPU.
- Vollständig auf GPU unterstützte Modelle: 7B (alle Quants), 13B, 14B Q4/Q8, 30B Q4
- 70B-Unterstützung: CPU-Offloading nötig — ~5–8 Tok/s
- Stromaufnahme Peak: ~450 W
Stufe 2: ~2500 € Empfohlene KI-Workstation
Der 2500-€-Build zentriert sich auf die RTX 4090 (24 GB, ~1 TB/s Speicherbandbreite) mit dem AMD Ryzen 9 9950X (Zen 5, 16 Kerne). Die 4090 ist 30–40% schneller als die 3090 pro GB VRAM bei geringerem Stromverbrauch pro Token.
- 7B Q4 Geschwindigkeit: ~105–125 Tok/s
- 14B Q8 Geschwindigkeit: ~48–60 Tok/s
- 30B Q4 Geschwindigkeit: ~28–38 Tok/s
- 70B Q4 (CPU-Offloading): ~10–15 Tok/s mit 64 GB RAM
- Stromaufnahme Peak: ~550 W
Stufe 3: ~5000 € Profi-70B-Workstation
Der 5000-€-Profi-Build zielt auf 70B-Modell-Inferenz mit GPU-Geschwindigkeit (25–40 Tok/s) durch dual RTX 3090 GPUs für 48 GB VRAM gesamt. Der Ryzen Threadripper 7960X (24 Kerne) beschleunigt CPU-Offloading. Mit 256 GB DDR5 laden selbst 140B-quantisierte Modelle vollständig in RAM.
- 70B Q4 Geschwindigkeit: 25–40 Tok/s (beide RTX 3090s via Tensor-Parallelismus)
- CPU-Offloading mit 256 GB RAM: 140B+ Modelle mit 4–6 Tok/s
- Stromaufnahme Peak: ~900 W
Sollte ich eine Workstation bauen oder Cloud-GPUs mieten?
Bei regelmäßiger Nutzung (2+ Stunden/Tag): Workstation bauen. Eine A40 48 GB auf RunPod kostet 0,44 $/Stunde — bei 4 Stunden/Tag sind das ~640 €/Jahr. Ein 3000-€-Profi-Build amortisiert sich in 5–6 Jahren. Bei gelegentlicher Nutzung (unter 1 Stunde/Tag) ist Cloud günstiger.
Brauche ich NVLink für Ollama mit zwei GPUs?
Nein. Ollama nutzt CUDA Tensor-Parallelismus über PCIe — kein NVLink nötig. Das Dual-RTX-3090-Setup funktioniert vollständig ohne NVLink.
Warum Dual RTX 3090 statt einer RTX 4090 für den Profi-Build?
VRAM ist entscheidend. Zwei RTX 3090s ergeben 48 GB gesamt — genug für Llama 3.1 70B Q4 (~40 GB). Eine einzelne RTX 4090 hat nur 24 GB. Für 70B-Inferenz auf GPU gewinnen die Dual-3090s beim VRAM/Euro-Verhältnis.