Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Stromverbrauch lokaler LLMs 2026: RTX 4090, RTX 5090 und M5 Max im Vergleich
Hardware & Performance

Stromverbrauch lokaler LLMs 2026: RTX 4090, RTX 5090 und M5 Max im Vergleich

·9 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lokale LLMs benötigen erhebliche Stromversorgung. RTX 4090 zieht 575W unter Last (1200W PSU erforderlich, €150/Monat bei €0,35/kWh). RTX 5090 zieht 575W mit 32 GB GDDR7 VRAM. Apple M5 Max Mac führt 7B-Modelle mit nur 30W aus — 10× effizienter pro Token als NVIDIA. Ab April 2026 ist das Verständnis von Stromversorgungsanforderungen entscheidend für die Vermeidung von Hardware-Schäden und hilft bei der Planung der Stromkosten.

Lokale LLMs benötigen erhebliche Stromversorgung. RTX 4090 zieht 575W unter Last (1200W PSU erforderlich, €150/Monat bei €0,35/kWh). RTX 5090 zieht 575W mit 32 GB GDDR7 VRAM. Apple M5 Max Mac führt 7B-Modelle mit nur 30W Gesamtverbrauch aus — 10× energieeffizienter pro Token als NVIDIA. Ab April 2026 ist das Verständnis von Stromversorgungsanforderungen entscheidend für die Vermeidung von Hardware-Schäden und hilft bei der Planung von Stromkosten in den USA, der EU, Japan und China.

Präsentation: Stromverbrauch lokaler LLMs 2026: RTX 4090, RTX 5090 und M5 Max im Vergleich

Interaktives 14-Folien-Deck: GPU-Stromverbrauch nach Klasse (RTX 5090 575W bis M5 Max 25–35W), Stromkostentabellen (€150/Monat vs €8/Monat), PSU-Anforderungen, Kühlungseinrichtung für 83°C-Limit, Strombegrenzung für 40% Einsparung, Kosten nach Region. PDF als Referenzkarte herunterladen.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • RTX 4090: 575W. Benötigt 1200W PSU, hervorragende Gehäusebelüftung.
  • RTX 4080: 320W. Benötigt 850W PSU, gute Belüftung.
  • RTX 4070 Ti: 290W. Benötigt 750W PSU, angemessene Belüftung.
  • M5 Max Mac: 25–35W für Inferenz (extrem effizient).
  • Betriebskosten 24/7: RTX 4090 = €150/Monat, RTX 4070 Ti = €76/Monat (bei €0,35/kWh).
  • Ab April 2026 ist Kühlung entscheidend. Schlechte Belüftung reduziert die Lebensdauer und drosselt die Leistung.

Wie viel Stromverbrauch hat jede GPU bei LLM-Inferenz?

Die RTX 4090 und RTX 5090 ziehen beide 575W bei Volllast — die höchsten Stufen für lokale LLMs. GPU-Stromverbrauch ist der dominierende Faktor bei der PSU-Wahl und der Stromrechnung.

Hinweis: NVIDIA RTX 4090 hat 450W Basis-TDP, aber echte Inferenz kann unter kontinuierlicher Last 575W erreichen. RTX 5090 wird mit 575W natives TDP geliefert. AMD RX 7900 XTX ist die stärkste diskrete Non-NVIDIA-GPU für lokale LLMs bei 355W mit 24 GB VRAM. Apple M5 Max zieht 10× weniger Stromverbrauch pro Token als RTX 4090 — die effizienteste Wahl für kontinuierliche 24/7-Inferenz.

GPUStromverbrauchLeerlaufPSU
RTX 5090575W20W1200W+
RTX 4090450W (575W max)10W1200W+
RTX 5080360W15W1000W
RTX 4080320W8W850W+
RTX 5070250W12W800W
RTX 4070 Ti285W7W750W+
RTX 4070200W6W650W
AMD RX 7900 XTX355W25W850W
Apple M5 Max (GPU)25–35W1WEingebaut
Apple M5 Pro (GPU)20–28W1WEingebaut

⚠️Warning: RTX 5090 TDP: NVIDIA bewertet es mit 575W, aber echte Spitzen können je nach Strombegren-zungseinstellungen 600W+ erreichen.

Wie viel Stromverbrauch hat ein komplettes lokales LLM-PC-System?

Die GPU ist nicht der einzige Stromverbraucher. Rechnen Sie CPU, RAM, Speicher und Motherboard ein:

KomponenteStromverbrauchNotizen
GPU (RTX 4090)575WSpitzen bei 100% Auslastung
CPU (Ryzen 9 7950X)170WUnter Last
Motherboard + RAM + SSD100WTypisch
Kühlventilatoren, PSU-Overhead50–100WSicherheitsmarge
Gesamtsystemlast~895–945WBenötigt mindestens 1200W PSU

Keypoint: GPU macht 60–65% des Gesamtstromverbrauchs aus. CPU, Kühlung und Overhead machen die restlichen 35–40% aus.

Was kostet der Betrieb eines lokalen LLM 24/7?

Angenommen €0,35/kWh (aktueller deutscher Durchschnitt für Haushalte):

💬 In einfachen Worten

kWh (Kilowattstunde): Tausend Watt Leistung, die eine Stunde lang verwendet werden. Bei €0,35/kWh verbraucht eine RTX 4090 mit 600W 24 Stunden lang 14,4 kWh und kostet €5,04 pro Tag.

GPUTägliche KostenMonatlichJährlich
RTX 4090 (600W Durchschnitt)€5,04€150€1.800
RTX 4080 (350W Durchschnitt)€2,94€88€1.050
RTX 4070 Ti (300W Durchschnitt)€2,52€76€910
M5 Max Mac (30W Durchschnitt)€0,25€8€91

💡Tip: Die Strombegrenzung der RTX 4090 auf 350W spart 40% Strom mit nur ~10% Geschwindigkeitsverlust — der optimale Punkt für effiziente Inferenz im großen Maßstab.

Welche Kühlung benötigt die lokale LLM-Inferenz?

Ordnungsgemäße Kühlung ist entscheidend für die GPU-Lebensdauer (5+ Jahre) und die Vermeidung von thermischer Drosselung.

Angemessene Gehäusebelüftung: Vorderlüfter saugen kühle Luft an, Hinter-/Oberlüfter blasen heiße Luft aus. RTX 4090 benötigt großes Gehäuse mit 3+ Lüftern.

Umgebungstemperatur: Idealerweise 18–24°C. In heißen Klimazonen (30°C+) wird Kühlung kritisch.

Wärmeleitpaste: Alle 2–3 Jahre austauschen für optimale Wärmeleitung (falls zutreffend).

Überwachung: GPU-Z oder nvidia-smi zur Temperaturüberwachung verwenden. Unter 80°C bei kontinuierlichem Betrieb halten.

📍 In einem Satz

Thermische Drosselung: Automatische Taktverlangsamung, wenn die GPU unsichere Temperaturen erkennt, schützt den Chip vor Wärmeschäden auf Kosten der Inferenz-Geschwindigkeit.

⚠️Warning: GPU drosselt über 83°C — Leistung fällt um 10–20%. Schlechte Belüftung verursacht kontinuierliche Drosselung auch bei 75°C in heißen Räumen.

🛠️Practice: Verwende `nvidia-smi -q -d TEMPERATURE` zur kontinuierlichen GPU-Temperaturüberwachung. Richte Warnungen bei 75°C ein, um Drosselung zu vermeiden.

Schnelle Fakten

  • RTX 4090 Spitzenlast: 575W (nur GPU)
  • Erforderliche PSU: 1200W für RTX 4090-System
  • Kosten 24/7 bei €0,35/kWh: ~€150/Monat (RTX 4090)
  • Apple M5 Max Gesamtlast: 25–35W
  • Effizienzquote: M5 Max verbraucht ~10× weniger Strom pro Token als RTX 4090
  • Sichere GPU-Temperatur: Unter 83°C für kontinuierliche Inferenz halten

💡Tip: Apple Silicon vs NVIDIA: Effizienzsieger. M5 Max erreicht 65–85 Tokens/Sekunde — 4× schneller als M4-Generation bei gleicher Leistung, nur 25–35W, während RTX 4090 600W für 150 Tokens/Sekunde beim gleichen Modell benötigt.

Häufige Fehler bei Stromversorgung und Kühlung

  • PSU unterdimensioniert. RTX 4090 mit 750W PSU führt zu Abschaltungen unter Last. Immer das 2-fache der GPU-Stromaufnahme einplanen.
  • Gehäusebelüftung ignoriert. Schlechte Belüftung verursacht thermische Drosselung (~10% Leistungsverlust) und verkürzt die GPU-Lebensdauer.
  • Ständiger 24/7-Betrieb ohne Kostenberücksichtigung. RTX 4090 kostet €150/Monat Stromkosten. Für Privatanwender nicht praktisch, wenn Sie nicht ständig Inferenz durchführen.
  • GPU-Temperatur nicht überwachen. Karten können aufgrund von Wärmestress still drosseln. Überwache mit nvidia-smi.
  • Kühlungsoverhead in TCO-Berechnungen vergessen. Kühlung ist die zweithöchste Kostengruppe nach der GPU selbst. Der Betrieb einer Dual-GPU-Konfiguration in einem heißen Klima (30°C+ Umgebung) erfordert ~€200–400/Jahr zusätzliche Klimaanlagekosten zur Aufrechterhaltung einer 22°C Raumtemperatur. Apple Silicon eliminiert dies: M5 Max zieht 30W und produziert minimale Wärme, keine zusätzliche Kühlung erforderlich.

⚠️Warning: 750W PSU + RTX 4090 = zufällige Abschaltungen unter kontinuierlicher Inferenz. Echte Stromspitzen überschreiten die PSU-Kapazität und führen zu automatischer Abschaltung zum Schutz von Komponenten.

Stromkosten nach Region

EU (Deutschland/Frankreich): €0,30–0,40/kWh — 3× des US-Durchschnitts. Der Betrieb einer RTX 4090 24/7 kostet €120–160/Monat in Deutschland. DSGVO ermutigt zu lokalen Deployments, aber Stromkosten machen Apple Silicon oder strombegrenzte GPU-Inferenz für EU-Nutzer unverzichtbar.

**Deutschland (DSGVO + BSI IT-Grundschutz): Lokale Inferenz hält alle Inferenzdaten auf Ihrer eigenen Hardware — keine Daten gelangen an externe KI-Anbieter. Das beseitigt das Art.-44-DSGVO-Transferrisiko auf technischer Ebene. Vollständige DSGVO-Konformität hängt von Ihren organisatorischen Maßnahmen, Ihrer Rechtsgrundlage und ggf. einer DSFA ab. BSI-IT-Grundschutz-Kataloge empfehlen lokale Verarbeitung für sensible Daten (vgl. OPS.2.2). Stromeffizienz ist ein weiterer Business Case: Apple M5 Max spart €140+/Monat gegenüber RTX 4090.

Japan: ¥27–30/kWh (~€0,18–0,20/kWh). Energiekosten sind 50–70% höher als der US-Durchschnitt. MEITs AI-Governance-Richtlinien von 2024 bevorzugen energieeffiziente Hardware für Unternehmenseinsätze.

Fragen & Antworten zu Stromversorgung und Kühlung

🔍Insight: Strombegrenzte Inferenz bei 60% TDP ist eine gängige Praxis in Rechenzentren. RTX 4090 bei 350W (60% von 575W) liefert 90% der Spitzenleistung mit 40% niedrigeren Stromkosten und weniger Kühlbelastung.

Wie viel Stromverbrauch benötigt ein lokales LLM?

Der Stromverbrauch hängt von der GPU-Klasse ab. RTX 4090: 575W Spitzenwert (600W Durchschnitt mit System). RTX 4080: 320W GPU (450W System). RTX 4070 Ti: 290W GPU (400W System). Apple M5 Max Mac: 25–35W Gesamtbetrieb — die energieeffizienteste Option bei weitem. Inferenzlasten nutzen die GPU zu 90–100% Auslastung kontinuierlich.

Wie viel kostet der Betrieb eines lokalen LLM 24/7?

Bei €0,35/kWh (deutscher Durchschnitt): RTX 4090-System kostet ~€150/Monat. RTX 4080-System: ~€88/Monat. RTX 4070 Ti-System: ~€76/Monat. Apple M5 Max Mac: ~€8/Monat. Stromtarife variieren — in den USA (~$0,12/kWh) sind die Kosten deutlich niedriger. Der Betrieb von Inferenz nur während der Arbeitszeiten (8h/Tag) reduziert die Kosten um ~67%.

Welche PSU-Wattage benötige ich für eine RTX 4090?

Minimum 1000W PSU; 1200W empfohlen. Die RTX 4090 zieht 575W Spitzenwert. Addiere CPU (150–170W), Motherboard/RAM/Speicher (100W) und eine 20% Sicherheitsmarge — die Gesamtsystemlast erreicht ~900W. Eine 750W PSU führt zu Abschaltungen unter kontinuierlicher LLM-Inferenzlast. Kaufe immer von seriösen PSU-Herstellern (Seasonic, Corsair, EVGA).

Ist Apple Silicon effizienter als NVIDIA für lokale LLMs?

Ja — um ein großes Maß. M5 Max (128 GB vereinheitlicht, März 2026) führt 7B-Modelle mit 65–85 Tokens/Sekunde bei 25–35W Gesamtsystemleistung aus. Eine RTX 4090 führt das gleiche Modell mit 150 Tokens/Sekunde bei 600W aus. M5 Max verbraucht ~10× weniger Strom pro Token als RTX 4090 und bietet außerdem 4× größerer Speicherbasisspeicher (128 GB vs 32 GB) für 70B-Modelle.

Welche GPU-Temperatur ist für kontinuierliche LLM-Inferenz sicher?

Halte die GPU-Temperatur unter 83°C für kontinuierliche Inferenz. Thermische Drosselung der RTX 4090 wird ab 83°C ausgelöst und reduziert Taktraten und Inferenzgeschwindigkeit um 10–20%. Idealer Betriebsbereich: 65–75°C. Verwende `nvidia-smi -q -d TEMPERATURE` zur Überwachung. Wenn die Temperaturen 80°C überschreiten, verbessere die Gehäusebelüftung oder ersetze die Wärmeleitpaste.

Wie reduziere ich Stromverbrauch ohne Leistungsverlust?

Strombegrenzte GPU (NVIDIA) ohne Taktverlangsamung. RTX 4090: Stromlimit auf 350W setzen (von 575W) reduziert Stromverbrauch um 40% mit nur ~10% Geschwindigkeitsverlust — der optimale Punkt für effiziente Inferenz. Verwende `nvidia-smi -pl 350` zum Einstellen des Stromlimits. Apple Silicon-Nutzer: Keine Anpassung erforderlich, die Hardware ist bereits optimiert.

Was ist TDP und warum ist es für lokale LLMs wichtig?

TDP (Thermal Design Power) ist die maximale Wärme, die eine GPU bei Spitzenlast erzeugt, gemessen in Watt. NVIDIA bewertet RTX 4090 TDP mit 575W, aber echte Inferenz kann je nach Strombegren-zung und Taktraten 600W+ erreichen. TDP ist wichtig, da es die Mindestgröße der PSU und die Kühlungsanforderungen bestimmt. Höheres TDP = größere PSU, höhere Stromkosten, mehr Kühlung erforderlich.

Beschädigt der Betrieb eines lokalen LLM meine GPU?

Nein — kontinuierliche Inferenz beschädigt eine gesunde GPU nicht, wenn die Kühlung angemessen ist. GPUs sind für 100% Auslastung 24/7 ausgelegt (Rechenzentren tun dies). Die echten Risiken sind: (1) schlechte Kühlung verursacht Drosselung und verkürzt die Lebensdauer, (2) Stromspitzen von unterdimensionierter PSU können Abschaltungen auslösen, (3) Staub/schlechte Belüftung verschlechtert die Leistung im Laufe der Jahre. Überwache Temperaturen und halte gute Belüftung, und deine GPU hält 5+ Jahre.

Welche Datenschutzvorteile bietet lokale LLM-Inferenz?

Lokale Inferenz hält alle Inferenzdaten auf Ihrer eigenen Hardware — keine Daten gelangen an externe KI-Anbieter. Das beseitigt das Art.-44-DSGVO-Transferrisiko auf technischer Ebene. Vollständige DSGVO-Konformität hängt von Ihren organisatorischen Maßnahmen, Ihrer Rechtsgrundlage und ggf. einer DSFA ab. BSI-IT-Grundschutz-Kataloge empfehlen lokale Verarbeitung für sensible Daten (vgl. OPS.2.2).

Ist lokale LLM-Inferenz für den deutschen Mittelstand geeignet?

Ja. Deutsches KMU (Mittelstand) profitiert von lokaler Inferenz: Keine Cloud-Abhängigkeit, volle Kontrolle über sensible Daten (Finanzen, Kundendaten), niedrigere Betriebskosten im Zeitverlauf. Alle Inferenzdaten verbleiben auf der eigenen Hardware — kein Datentransfer zu externen KI-Anbietern. BSI-IT-Grundschutz-Kataloge empfehlen lokale Verarbeitung für sensible Daten (OPS.2.2); vollständige DSGVO-Konformität erfordert zusätzlich organisatorische Maßnahmen und ggf. eine DSFA.

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs