PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Stromverbrauch lokaler LLMs 2026: RTX 4090, RTX 5090 und M5 Max im Vergleich
Hardware & Performance

Stromverbrauch lokaler LLMs 2026: RTX 4090, RTX 5090 und M5 Max im Vergleich

·9 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lokale LLMs benötigen erhebliche Stromversorgung. RTX 4090 zieht 575W unter Last (1200W PSU erforderlich, €150/Monat bei €0,35/kWh). RTX 5090 zieht 575W mit 32 GB GDDR7 VRAM. Apple M5 Max Mac führt 7B-Modelle mit nur 30W aus — 10× effizienter pro Token als NVIDIA. Ab April 2026 ist das Verständnis von Stromversorgungsanforderungen entscheidend für die Vermeidung von Hardware-Schäden und hilft bei der Planung der Stromkosten.

Lokale LLMs benötigen erhebliche Stromversorgung. RTX 4090 zieht 575W unter Last (1200W PSU erforderlich, €150/Monat bei €0,35/kWh). RTX 5090 zieht 575W mit 32 GB GDDR7 VRAM. Apple M5 Max Mac führt 7B-Modelle mit nur 30W Gesamtverbrauch aus — 10× energieeffizienter pro Token als NVIDIA. Ab April 2026 ist das Verständnis von Stromversorgungsanforderungen entscheidend für die Vermeidung von Hardware-Schäden und hilft bei der Planung von Stromkosten in den USA, der EU, Japan und China.

Präsentation: Stromverbrauch lokaler LLMs 2026: RTX 4090, RTX 5090 und M5 Max im Vergleich

Interaktives 14-Folien-Deck: GPU-Stromverbrauch nach Klasse (RTX 5090 575W bis M5 Max 25–35W), Stromkostentabellen (€150/Monat vs €8/Monat), PSU-Anforderungen, Kühlungseinrichtung für 83°C-Limit, Strombegrenzung für 40% Einsparung, Kosten nach Region. PDF als Referenzkarte herunterladen.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • RTX 4090: 575W. Benötigt 1200W PSU, hervorragende Gehäusebelüftung.
  • RTX 4080: 320W. Benötigt 850W PSU, gute Belüftung.
  • RTX 4070 Ti: 290W. Benötigt 750W PSU, angemessene Belüftung.
  • M5 Max Mac: 25–35W für Inferenz (extrem effizient).
  • Betriebskosten 24/7: RTX 4090 = €150/Monat, RTX 4070 Ti = €76/Monat (bei €0,35/kWh).
  • Ab April 2026 ist Kühlung entscheidend. Schlechte Belüftung reduziert die Lebensdauer und drosselt die Leistung.

Wie viel Stromverbrauch hat jede GPU bei LLM-Inferenz?

Die RTX 4090 und RTX 5090 ziehen beide 575W bei Volllast — die höchsten Stufen für lokale LLMs. GPU-Stromverbrauch ist der dominierende Faktor bei der PSU-Wahl und der Stromrechnung.

Hinweis: NVIDIA RTX 4090 hat 450W Basis-TDP, aber echte Inferenz kann unter kontinuierlicher Last 575W erreichen. RTX 5090 wird mit 575W natives TDP geliefert. AMD RX 7900 XTX ist die stärkste diskrete Non-NVIDIA-GPU für lokale LLMs bei 355W mit 24 GB VRAM. Apple M5 Max zieht 10× weniger Stromverbrauch pro Token als RTX 4090 — die effizienteste Wahl für kontinuierliche 24/7-Inferenz.

GPUStromverbrauchLeerlaufPSU
RTX 5090575W20W1200W+
RTX 4090450W (575W max)10W1200W+
RTX 5080360W15W1000W
RTX 4080320W8W850W+
RTX 5070250W12W800W
RTX 4070 Ti285W7W750W+
RTX 4070200W6W650W
AMD RX 7900 XTX355W25W850W
Apple M5 Max (GPU)25–35W1WEingebaut
Apple M5 Pro (GPU)20–28W1WEingebaut

⚠️Warning: RTX 5090 TDP: NVIDIA bewertet es mit 575W, aber echte Spitzen können je nach Strombegren-zungseinstellungen 600W+ erreichen.

Wie viel Stromverbrauch hat ein komplettes lokales LLM-PC-System?

Die GPU ist nicht der einzige Stromverbraucher. Rechnen Sie CPU, RAM, Speicher und Motherboard ein:

KomponenteStromverbrauchNotizen
GPU (RTX 4090)575WSpitzen bei 100% Auslastung
CPU (Ryzen 9 7950X)170WUnter Last
Motherboard + RAM + SSD100WTypisch
Kühlventilatoren, PSU-Overhead50–100WSicherheitsmarge
Gesamtsystemlast~895–945WBenötigt mindestens 1200W PSU

Keypoint: GPU macht 60–65% des Gesamtstromverbrauchs aus. CPU, Kühlung und Overhead machen die restlichen 35–40% aus.

Was kostet der Betrieb eines lokalen LLM 24/7?

Angenommen €0,35/kWh (aktueller deutscher Durchschnitt für Haushalte):

💬 In einfachen Worten

kWh (Kilowattstunde): Tausend Watt Leistung, die eine Stunde lang verwendet werden. Bei €0,35/kWh verbraucht eine RTX 4090 mit 600W 24 Stunden lang 14,4 kWh und kostet €5,04 pro Tag.

GPUTägliche KostenMonatlichJährlich
RTX 4090 (600W Durchschnitt)€5,04€150€1.800
RTX 4080 (350W Durchschnitt)€2,94€88€1.050
RTX 4070 Ti (300W Durchschnitt)€2,52€76€910
M5 Max Mac (30W Durchschnitt)€0,25€8€91

💡Tip: Die Strombegrenzung der RTX 4090 auf 350W spart 40% Strom mit nur ~10% Geschwindigkeitsverlust — der optimale Punkt für effiziente Inferenz im großen Maßstab.

Welche Kühlung benötigt die lokale LLM-Inferenz?

Ordnungsgemäße Kühlung ist entscheidend für die GPU-Lebensdauer (5+ Jahre) und die Vermeidung von thermischer Drosselung.

Angemessene Gehäusebelüftung: Vorderlüfter saugen kühle Luft an, Hinter-/Oberlüfter blasen heiße Luft aus. RTX 4090 benötigt großes Gehäuse mit 3+ Lüftern.

Umgebungstemperatur: Idealerweise 18–24°C. In heißen Klimazonen (30°C+) wird Kühlung kritisch.

Wärmeleitpaste: Alle 2–3 Jahre austauschen für optimale Wärmeleitung (falls zutreffend).

Überwachung: GPU-Z oder nvidia-smi zur Temperaturüberwachung verwenden. Unter 80°C bei kontinuierlichem Betrieb halten.

📍 In einem Satz

Thermische Drosselung: Automatische Taktverlangsamung, wenn die GPU unsichere Temperaturen erkennt, schützt den Chip vor Wärmeschäden auf Kosten der Inferenz-Geschwindigkeit.

⚠️Warning: GPU drosselt über 83°C — Leistung fällt um 10–20%. Schlechte Belüftung verursacht kontinuierliche Drosselung auch bei 75°C in heißen Räumen.

🛠️Practice: Verwende `nvidia-smi -q -d TEMPERATURE` zur kontinuierlichen GPU-Temperaturüberwachung. Richte Warnungen bei 75°C ein, um Drosselung zu vermeiden.

Schnelle Fakten

  • RTX 4090 Spitzenlast: 575W (nur GPU)
  • Erforderliche PSU: 1200W für RTX 4090-System
  • Kosten 24/7 bei €0,35/kWh: ~€150/Monat (RTX 4090)
  • Apple M5 Max Gesamtlast: 25–35W
  • Effizienzquote: M5 Max verbraucht ~10× weniger Strom pro Token als RTX 4090
  • Sichere GPU-Temperatur: Unter 83°C für kontinuierliche Inferenz halten

💡Tip: Apple Silicon vs NVIDIA: Effizienzsieger. M5 Max erreicht 65–85 Tokens/Sekunde — 4× schneller als M4-Generation bei gleicher Leistung, nur 25–35W, während RTX 4090 600W für 150 Tokens/Sekunde beim gleichen Modell benötigt.

Häufige Fehler bei Stromversorgung und Kühlung

  • PSU unterdimensioniert. RTX 4090 mit 750W PSU führt zu Abschaltungen unter Last. Immer das 2-fache der GPU-Stromaufnahme einplanen.
  • Gehäusebelüftung ignoriert. Schlechte Belüftung verursacht thermische Drosselung (~10% Leistungsverlust) und verkürzt die GPU-Lebensdauer.
  • Ständiger 24/7-Betrieb ohne Kostenberücksichtigung. RTX 4090 kostet €150/Monat Stromkosten. Für Privatanwender nicht praktisch, wenn Sie nicht ständig Inferenz durchführen.
  • GPU-Temperatur nicht überwachen. Karten können aufgrund von Wärmestress still drosseln. Überwache mit nvidia-smi.
  • Kühlungsoverhead in TCO-Berechnungen vergessen. Kühlung ist die zweithöchste Kostengruppe nach der GPU selbst. Der Betrieb einer Dual-GPU-Konfiguration in einem heißen Klima (30°C+ Umgebung) erfordert ~€200–400/Jahr zusätzliche Klimaanlagekosten zur Aufrechterhaltung einer 22°C Raumtemperatur. Apple Silicon eliminiert dies: M5 Max zieht 30W und produziert minimale Wärme, keine zusätzliche Kühlung erforderlich.

⚠️Warning: 750W PSU + RTX 4090 = zufällige Abschaltungen unter kontinuierlicher Inferenz. Echte Stromspitzen überschreiten die PSU-Kapazität und führen zu automatischer Abschaltung zum Schutz von Komponenten.

Stromkosten nach Region

EU (Deutschland/Frankreich): €0,30–0,40/kWh — 3× des US-Durchschnitts. Der Betrieb einer RTX 4090 24/7 kostet €120–160/Monat in Deutschland. DSGVO ermutigt zu lokalen Deployments, aber Stromkosten machen Apple Silicon oder strombegrenzte GPU-Inferenz für EU-Nutzer unverzichtbar.

**Deutschland (DSGVO + BSI-Grundschutz): Unternehmen und Mittelstand müssen DSGVO Artikel 28 einhalten — lokale Datenverarbeitung erfüllt diese Anforderungen. BSI-Grundschutz-Kataloge empfehlen On-Premise-Inferenz für sensible Daten (Finanzen, Gesundheit, Jura). Stromeffizienz ist ein Business Case: Apple M5 Max spart €140+/Monat gegenüber RTX 4090. Lokale LLM-Inferenz mit PromptQuorum ist ideal für den Mittelstand: Keine Cloud-Abhängigkeit (Compliance), volle Kontrolle über sensible Daten, niedrigere Betriebskosten.

Japan: ¥27–30/kWh (~€0,18–0,20/kWh). Energiekosten sind 50–70% höher als der US-Durchschnitt. MEITs AI-Governance-Richtlinien von 2024 bevorzugen energieeffiziente Hardware für Unternehmenseinsätze.

Fragen & Antworten zu Stromversorgung und Kühlung

🔍Insight: Strombegrenzte Inferenz bei 60% TDP ist eine gängige Praxis in Rechenzentren. RTX 4090 bei 350W (60% von 575W) liefert 90% der Spitzenleistung mit 40% niedrigeren Stromkosten und weniger Kühlbelastung.

Wie viel Stromverbrauch benötigt ein lokales LLM?

Der Stromverbrauch hängt von der GPU-Klasse ab. RTX 4090: 575W Spitzenwert (600W Durchschnitt mit System). RTX 4080: 320W GPU (450W System). RTX 4070 Ti: 290W GPU (400W System). Apple M5 Max Mac: 25–35W Gesamtbetrieb — die energieeffizienteste Option bei weitem. Inferenzlasten nutzen die GPU zu 90–100% Auslastung kontinuierlich.

Wie viel kostet der Betrieb eines lokalen LLM 24/7?

Bei €0,35/kWh (deutscher Durchschnitt): RTX 4090-System kostet ~€150/Monat. RTX 4080-System: ~€88/Monat. RTX 4070 Ti-System: ~€76/Monat. Apple M5 Max Mac: ~€8/Monat. Stromtarife variieren — in den USA (~$0,12/kWh) sind die Kosten deutlich niedriger. Der Betrieb von Inferenz nur während der Arbeitszeiten (8h/Tag) reduziert die Kosten um ~67%.

Welche PSU-Wattage benötige ich für eine RTX 4090?

Minimum 1000W PSU; 1200W empfohlen. Die RTX 4090 zieht 575W Spitzenwert. Addiere CPU (150–170W), Motherboard/RAM/Speicher (100W) und eine 20% Sicherheitsmarge — die Gesamtsystemlast erreicht ~900W. Eine 750W PSU führt zu Abschaltungen unter kontinuierlicher LLM-Inferenzlast. Kaufe immer von seriösen PSU-Herstellern (Seasonic, Corsair, EVGA).

Ist Apple Silicon effizienter als NVIDIA für lokale LLMs?

Ja — um ein großes Maß. M5 Max (128 GB vereinheitlicht, März 2026) führt 7B-Modelle mit 65–85 Tokens/Sekunde bei 25–35W Gesamtsystemleistung aus. Eine RTX 4090 führt das gleiche Modell mit 150 Tokens/Sekunde bei 600W aus. M5 Max verbraucht ~10× weniger Strom pro Token als RTX 4090 und bietet außerdem 4× größerer Speicherbasisspeicher (128 GB vs 32 GB) für 70B-Modelle.

Welche GPU-Temperatur ist für kontinuierliche LLM-Inferenz sicher?

Halte die GPU-Temperatur unter 83°C für kontinuierliche Inferenz. Thermische Drosselung der RTX 4090 wird ab 83°C ausgelöst und reduziert Taktraten und Inferenzgeschwindigkeit um 10–20%. Idealer Betriebsbereich: 65–75°C. Verwende `nvidia-smi -q -d TEMPERATURE` zur Überwachung. Wenn die Temperaturen 80°C überschreiten, verbessere die Gehäusebelüftung oder ersetze die Wärmeleitpaste.

Wie reduziere ich Stromverbrauch ohne Leistungsverlust?

Strombegrenzte GPU (NVIDIA) ohne Taktverlangsamung. RTX 4090: Stromlimit auf 350W setzen (von 575W) reduziert Stromverbrauch um 40% mit nur ~10% Geschwindigkeitsverlust — der optimale Punkt für effiziente Inferenz. Verwende `nvidia-smi -pl 350` zum Einstellen des Stromlimits. Apple Silicon-Nutzer: Keine Anpassung erforderlich, die Hardware ist bereits optimiert.

Was ist TDP und warum ist es für lokale LLMs wichtig?

TDP (Thermal Design Power) ist die maximale Wärme, die eine GPU bei Spitzenlast erzeugt, gemessen in Watt. NVIDIA bewertet RTX 4090 TDP mit 575W, aber echte Inferenz kann je nach Strombegren-zung und Taktraten 600W+ erreichen. TDP ist wichtig, da es die Mindestgröße der PSU und die Kühlungsanforderungen bestimmt. Höheres TDP = größere PSU, höhere Stromkosten, mehr Kühlung erforderlich.

Beschädigt der Betrieb eines lokalen LLM meine GPU?

Nein — kontinuierliche Inferenz beschädigt eine gesunde GPU nicht, wenn die Kühlung angemessen ist. GPUs sind für 100% Auslastung 24/7 ausgelegt (Rechenzentren tun dies). Die echten Risiken sind: (1) schlechte Kühlung verursacht Drosselung und verkürzt die Lebensdauer, (2) Stromspitzen von unterdimensionierter PSU können Abschaltungen auslösen, (3) Staub/schlechte Belüftung verschlechtert die Leistung im Laufe der Jahre. Überwache Temperaturen und halte gute Belüftung, und deine GPU hält 5+ Jahre.

Muss ich bei der Verwendung von PromptQuorum die DSGVO beachten?

Ja, wenn Nutzerdaten involviert sind. DSGVO Artikel 28 verlangt Datenverarbeitungsverträge, wenn ein Dienstleister (z.B. Cloud-Inferenz) Daten verarbeitet. Lokale Inferenz auf On-Premise-Hardware erfüllt diese Anforderungen von Haus aus und eliminiert Cloud-Abhängigkeiten. Lokale Inferenz mit PromptQuorum ist DSGVO-konform und erfüllt BSI-Grundschutz-Standards für Unternehmensumgebungen in Deutschland.

Ist PromptQuorum für den deutschen Mittelstand geeignet?

Ja. Deutsches KMU (Mittelstand) profitiert von lokaler Inferenz: Keine Cloud-Abhängigkeit (Compliance), volle Kontrolle über sensible Daten (Finanzen, Kundendaten), niedrigere Betriebskosten im Zeitverlauf. PromptQuorum Multi-Model-Konsens ist ideal für Mittelstand: Fallback zwischen Ollama + lokalen Open-Source-Modellen bei Cloud-Ausfällen. Erfüllt BSI-Grundschutz-Kataloge und DSGVO-Anforderungen für Datenverarbeitung vor Ort.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Stromverbrauch lokaler LLMs 2026: RTX 4090 575W = €150/Monat