PromptQuorumPromptQuorum
Startseite/Lokale LLMs/RTX 5090 vs RTX 4090 für lokale LLM-Inferenz
GPU Buying Guides

RTX 5090 vs RTX 4090 für lokale LLM-Inferenz

·6 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Für lokale LLMs ist RTX 5090 20–25% schneller als RTX 4090, kostet aber 1.000€ mehr. Im April 2026 hängt die Wahl davon ab, ob Sie 70B-Modelle (5090 gewinnt) oder 7B-13B-Modelle (4090 ist ohnehin Overkill) ausführen.

Für lokale LLMs ist RTX 5090 20–25% schneller als RTX 4090, kostet aber 1.000€ mehr. Im April 2026 hängt die Wahl davon ab, ob Sie 70B-Modelle (5090 gewinnt) oder 7B-13B-Modelle (4090 ist ohnehin Overkill) ausführen. Falls Sie bereits eine 4090 besitzen, lohnt sich ein Upgrade nicht. Wenn Sie neu kaufen, bietet die RTX 5080 eine bessere Performance-pro-Euro.

Wichtigste Erkenntnisse

  • RTX 5090 ist ~20–25% schneller als RTX 4090 bei lokaler LLM-Inferenz (gemessen in Token/s).
  • Beide Karten haben 24GB VRAM―identisch für LLM-Arbeit. Der Geschwindigkeitsvorteil der 5090 ergibt sich aus besserer Speicherbandbreite und Shader-Effizienz.
  • RTX 5090 kostet 1.000€ mehr (€2.500 neu vs. €1.500 für gebrauchte 4090). Der Preis-zu-Leistungs-Gewinn rechtfertigt kein Upgrade, falls Sie bereits eine 4090 haben.
  • Für 7B–13B-Modelle: 4090 ist Overkill. Sie treffen CPU/Kühlungs-Limits bevor Sie GPU-Auslastung maximieren.
  • Für 70B-Modelle: 5090 glänzt. Kann 2–3 kleinere 70B-Modelle parallel ausführen oder einzelne 70B bei höheren Batch-Größen.
  • RTX 5080 (€999) bietet oft besseren Wert als 5090 für lokale LLMs, außer Sie benötigen Dual-GPU-Setups.

Was sind die Geschwindigkeitsunterschiede?

RTX 5090: 14.080 CUDA-Kerne, 568 TFLOPS, ~1.500 GB/s Speicherbandbreite.

RTX 4090: 16.384 CUDA-Kerne, 410 TFLOPS, ~936 GB/s Speicherbandbreite.

Real-World LLM-Inferenz (Llama 3 70B, Q4, Batch=1): RTX 5090 erreicht ~45 Token/s, RTX 4090 erreicht ~36 Token/s. 25% schneller.

Für 7B-Modelle (speichergebunden, nicht rechengebunden): RTX 5090 erreicht ~80 Token/s, RTX 4090 erreicht ~75 Token/s. Nur 6,5% schneller. Der Vorteil verschwindet fast völlig.

Spielt VRAM zwischen 4090 und 5090 eine Rolle?

Beide haben 24GB GDDR7 (5090) / GDDR6X (4090). Identische VRAM-Kapazität. Kein Vorteil.

GDDR7 auf 5090 ist schneller pro Byte. Dies ist Teil des Grundes, warum 5090 20–25% schneller ist. Aber für die LLM-Workloads, die wir ausführen, ist GDDR6X (4090) ausreichend.

Kosten pro Token: Welche ist tatsächlich günstiger?

  • Gebrauchte RTX 4090: ~€1.500–1.800. Erreicht 36 Token/s auf Llama 70B. Kosten pro Token: €42–50 pro M Token.
  • RTX 5090 neu: €2.500. Erreicht 45 Token/s auf Llama 70B. Kosten pro Token: €55 pro M Token.
  • Fazit: 4090 ist günstiger pro erzeugten Token, nicht weil sie schneller ist, sondern weil sie billiger ist im Ankauf.

Wann sollten Sie tatsächlich von 4090 auf 5090 upgraden?

Niemals upgraden für 7B–13B-Inferenz. 4090 ist für diese Overkill. Sie werden CPU-gebunden oder Kühlungs-limitiert sein.

Upgraden wenn: Sie Dual-GPU 70B-Inferenz ausführen (2× 4090 = €3.500 vs. 2× 5090 = €5.600), Sie >45 Token/s auf 70B-Modellen benötigen, oder Sie von Speicherbandbreite bei Multi-Batch-Workloads begrenzt sind.

Bessere Alternative: Fügen Sie eine zweite RTX 4090 für €1.700 hinzu statt auf 5090 zu wechseln. Zwei 4090er parallel geben Ihnen ~72 Token/s (nicht 90, aber nahe genug zu halben Kosten).

Häufige Annahmen über die 5090

  • Denken, 5090 ist 2× schneller als 4090―sie ist nur 20–25% schneller, und sogar weniger für 7B-Modelle.
  • Annehmen, VRAM-Unterschied existiert―beide sind 24GB. Gleiche Kapazität, ähnliche Performance für LLMs.
  • Glauben, Sie benötigen 5090 um 70B-Modelle auszuführen―4090 führt sie gut aus mit 36 Token/s. Das ist „ausreichend" für die meisten Nutzer.

Häufig gestellte Fragen

Lohnt sich RTX 5090 zum Ausführen von Llama 3 70B?

Nur wenn Sie >45 Token/s benötigen. 4090 gibt Ihnen 36, was „ausreichend" für die meisten ist. Die zusätzlichen 9 Token/s kosten €1.000.

Sollte ich RTX 5090 oder zwei RTX 4090er kaufen?

Zwei 4090er (~€3.500 gebraucht) schlagen 5090 (€2.500) bei Geschwindigkeit und Flexibilität. Sie können mehrere Modelle parallel ausführen. 5090 hat einfacheres Setup, aber teurer.

Hat RTX 5090 besseres VRAM als 4090?

Nein. Beide 24GB. GDDR7 ist schneller pro Byte, aber für LLMs ist GDDR6X (4090) ausreichend.

Werden 5090-Preise wie 4090 fallen?

Ja, irgendwann. 4090 war €1.499 beim Launch (2022), jetzt €1.500 gebraucht (2026). Erwarten Sie 5090 bei €1.700–2.000 gebraucht in 2–3 Jahren.

Kann ich RTX 5090 mit 750W Stromversorgung nutzen?

Kaum. RTX 5090 verbraucht allein 575W. Kombinieren Sie mit 850W oder 1000W PSU, um Spannungsabfälle unter Last zu vermeiden.

Ist RTX 5080 besser als 5090?

Ja, für die meisten. 5080 (€999) ist 80% der 5090-Geschwindigkeit zu halben Kosten. Für lokale LLMs ist 5080 der Sweet Spot.

Wie viel schneller ist 5090 auf Multimodal-Modellen wie Qwen-VL 70B?

Ähnliche 20–25% Steigerung. Multimodal-Compute ist noch speichergebunden, daher hilft der Bandbreiten-Vorteil der 5090, aber nicht dramatisch.

Quellen

  • NVIDIA RTX 5090 und 4090 offizielle Spezifikationen: CUDA-Kerne, TFLOPS, Speicherbandbreite
  • MLCommons MLPerf Inference Benchmark: Token-Generierungsgeschwindigkeit auf LLaMA 70B und Mistral-Modellen
  • TechPowerUp GPU-Datenbank: RTX 5090 vs. 4090 Stromverbrauch und Speicherbandbreiten-Vergleich

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

RTX 5090 vs RTX 4090: Welche GPU für lokale LLMs 2026?