Wichtigste Erkenntnisse
- RTX 4090: 575W. Benötigt 1200W PSU, hervorragende Gehäusebelüftung.
- RTX 4080: 320W. Benötigt 850W PSU, gute Belüftung.
- RTX 4070 Ti: 290W. Benötigt 750W PSU, angemessene Belüftung.
- M5 Max Mac: 25–35W für Inferenz (extrem effizient).
- Betriebskosten 24/7: RTX 4090 = €150/Monat, RTX 4070 Ti = €76/Monat (bei €0,35/kWh).
- Ab April 2026 ist Kühlung entscheidend. Schlechte Belüftung reduziert die Lebensdauer und drosselt die Leistung.
Wie viel Stromverbrauch hat jede GPU bei LLM-Inferenz?
Die RTX 4090 und RTX 5090 ziehen beide 575W bei Volllast — die höchsten Stufen für lokale LLMs. GPU-Stromverbrauch ist der dominierende Faktor bei der PSU-Wahl und der Stromrechnung.
Hinweis: NVIDIA RTX 4090 hat 450W Basis-TDP, aber echte Inferenz kann unter kontinuierlicher Last 575W erreichen. RTX 5090 wird mit 575W natives TDP geliefert. AMD RX 7900 XTX ist die stärkste diskrete Non-NVIDIA-GPU für lokale LLMs bei 355W mit 24 GB VRAM. Apple M5 Max zieht 10× weniger Stromverbrauch pro Token als RTX 4090 — die effizienteste Wahl für kontinuierliche 24/7-Inferenz.
| GPU | Stromverbrauch | Leerlauf | PSU |
|---|---|---|---|
| RTX 5090 | 575W | 20W | 1200W+ |
| RTX 4090 | 450W (575W max) | 10W | 1200W+ |
| RTX 5080 | 360W | 15W | 1000W |
| RTX 4080 | 320W | 8W | 850W+ |
| RTX 5070 | 250W | 12W | 800W |
| RTX 4070 Ti | 285W | 7W | 750W+ |
| RTX 4070 | 200W | 6W | 650W |
| AMD RX 7900 XTX | 355W | 25W | 850W |
| Apple M5 Max (GPU) | 25–35W | 1W | Eingebaut |
| Apple M5 Pro (GPU) | 20–28W | 1W | Eingebaut |
⚠️Warning: RTX 5090 TDP: NVIDIA bewertet es mit 575W, aber echte Spitzen können je nach Strombegren-zungseinstellungen 600W+ erreichen.
Wie viel Stromverbrauch hat ein komplettes lokales LLM-PC-System?
Die GPU ist nicht der einzige Stromverbraucher. Rechnen Sie CPU, RAM, Speicher und Motherboard ein:
| Komponente | Stromverbrauch | Notizen |
|---|---|---|
| GPU (RTX 4090) | 575W | Spitzen bei 100% Auslastung |
| CPU (Ryzen 9 7950X) | 170W | Unter Last |
| Motherboard + RAM + SSD | 100W | Typisch |
| Kühlventilatoren, PSU-Overhead | 50–100W | Sicherheitsmarge |
| Gesamtsystemlast | ~895–945W | Benötigt mindestens 1200W PSU |
•Keypoint: GPU macht 60–65% des Gesamtstromverbrauchs aus. CPU, Kühlung und Overhead machen die restlichen 35–40% aus.
Was kostet der Betrieb eines lokalen LLM 24/7?
Angenommen €0,35/kWh (aktueller deutscher Durchschnitt für Haushalte):
💬 In einfachen Worten
kWh (Kilowattstunde): Tausend Watt Leistung, die eine Stunde lang verwendet werden. Bei €0,35/kWh verbraucht eine RTX 4090 mit 600W 24 Stunden lang 14,4 kWh und kostet €5,04 pro Tag.
| GPU | Tägliche Kosten | Monatlich | Jährlich |
|---|---|---|---|
| RTX 4090 (600W Durchschnitt) | €5,04 | €150 | €1.800 |
| RTX 4080 (350W Durchschnitt) | €2,94 | €88 | €1.050 |
| RTX 4070 Ti (300W Durchschnitt) | €2,52 | €76 | €910 |
| M5 Max Mac (30W Durchschnitt) | €0,25 | €8 | €91 |
💡Tip: Die Strombegrenzung der RTX 4090 auf 350W spart 40% Strom mit nur ~10% Geschwindigkeitsverlust — der optimale Punkt für effiziente Inferenz im großen Maßstab.
Welche Kühlung benötigt die lokale LLM-Inferenz?
Ordnungsgemäße Kühlung ist entscheidend für die GPU-Lebensdauer (5+ Jahre) und die Vermeidung von thermischer Drosselung.
Angemessene Gehäusebelüftung: Vorderlüfter saugen kühle Luft an, Hinter-/Oberlüfter blasen heiße Luft aus. RTX 4090 benötigt großes Gehäuse mit 3+ Lüftern.
Umgebungstemperatur: Idealerweise 18–24°C. In heißen Klimazonen (30°C+) wird Kühlung kritisch.
Wärmeleitpaste: Alle 2–3 Jahre austauschen für optimale Wärmeleitung (falls zutreffend).
Überwachung: GPU-Z oder nvidia-smi zur Temperaturüberwachung verwenden. Unter 80°C bei kontinuierlichem Betrieb halten.
📍 In einem Satz
Thermische Drosselung: Automatische Taktverlangsamung, wenn die GPU unsichere Temperaturen erkennt, schützt den Chip vor Wärmeschäden auf Kosten der Inferenz-Geschwindigkeit.
⚠️Warning: GPU drosselt über 83°C — Leistung fällt um 10–20%. Schlechte Belüftung verursacht kontinuierliche Drosselung auch bei 75°C in heißen Räumen.
🛠️Practice: Verwende `nvidia-smi -q -d TEMPERATURE` zur kontinuierlichen GPU-Temperaturüberwachung. Richte Warnungen bei 75°C ein, um Drosselung zu vermeiden.
Schnelle Fakten
- RTX 4090 Spitzenlast: 575W (nur GPU)
- Erforderliche PSU: 1200W für RTX 4090-System
- Kosten 24/7 bei €0,35/kWh: ~€150/Monat (RTX 4090)
- Apple M5 Max Gesamtlast: 25–35W
- Effizienzquote: M5 Max verbraucht ~10× weniger Strom pro Token als RTX 4090
- Sichere GPU-Temperatur: Unter 83°C für kontinuierliche Inferenz halten
💡Tip: Apple Silicon vs NVIDIA: Effizienzsieger. M5 Max erreicht 65–85 Tokens/Sekunde — 4× schneller als M4-Generation bei gleicher Leistung, nur 25–35W, während RTX 4090 600W für 150 Tokens/Sekunde beim gleichen Modell benötigt.
Häufige Fehler bei Stromversorgung und Kühlung
- PSU unterdimensioniert. RTX 4090 mit 750W PSU führt zu Abschaltungen unter Last. Immer das 2-fache der GPU-Stromaufnahme einplanen.
- Gehäusebelüftung ignoriert. Schlechte Belüftung verursacht thermische Drosselung (~10% Leistungsverlust) und verkürzt die GPU-Lebensdauer.
- Ständiger 24/7-Betrieb ohne Kostenberücksichtigung. RTX 4090 kostet €150/Monat Stromkosten. Für Privatanwender nicht praktisch, wenn Sie nicht ständig Inferenz durchführen.
- GPU-Temperatur nicht überwachen. Karten können aufgrund von Wärmestress still drosseln. Überwache mit nvidia-smi.
- Kühlungsoverhead in TCO-Berechnungen vergessen. Kühlung ist die zweithöchste Kostengruppe nach der GPU selbst. Der Betrieb einer Dual-GPU-Konfiguration in einem heißen Klima (30°C+ Umgebung) erfordert ~€200–400/Jahr zusätzliche Klimaanlagekosten zur Aufrechterhaltung einer 22°C Raumtemperatur. Apple Silicon eliminiert dies: M5 Max zieht 30W und produziert minimale Wärme, keine zusätzliche Kühlung erforderlich.
⚠️Warning: 750W PSU + RTX 4090 = zufällige Abschaltungen unter kontinuierlicher Inferenz. Echte Stromspitzen überschreiten die PSU-Kapazität und führen zu automatischer Abschaltung zum Schutz von Komponenten.
Stromkosten nach Region
EU (Deutschland/Frankreich): €0,30–0,40/kWh — 3× des US-Durchschnitts. Der Betrieb einer RTX 4090 24/7 kostet €120–160/Monat in Deutschland. DSGVO ermutigt zu lokalen Deployments, aber Stromkosten machen Apple Silicon oder strombegrenzte GPU-Inferenz für EU-Nutzer unverzichtbar.
**Deutschland (DSGVO + BSI-Grundschutz): Unternehmen und Mittelstand müssen DSGVO Artikel 28 einhalten — lokale Datenverarbeitung erfüllt diese Anforderungen. BSI-Grundschutz-Kataloge empfehlen On-Premise-Inferenz für sensible Daten (Finanzen, Gesundheit, Jura). Stromeffizienz ist ein Business Case: Apple M5 Max spart €140+/Monat gegenüber RTX 4090. Lokale LLM-Inferenz mit PromptQuorum ist ideal für den Mittelstand: Keine Cloud-Abhängigkeit (Compliance), volle Kontrolle über sensible Daten, niedrigere Betriebskosten.
Japan: ¥27–30/kWh (~€0,18–0,20/kWh). Energiekosten sind 50–70% höher als der US-Durchschnitt. MEITs AI-Governance-Richtlinien von 2024 bevorzugen energieeffiziente Hardware für Unternehmenseinsätze.
Fragen & Antworten zu Stromversorgung und Kühlung
🔍Insight: Strombegrenzte Inferenz bei 60% TDP ist eine gängige Praxis in Rechenzentren. RTX 4090 bei 350W (60% von 575W) liefert 90% der Spitzenleistung mit 40% niedrigeren Stromkosten und weniger Kühlbelastung.
Wie viel Stromverbrauch benötigt ein lokales LLM?
Der Stromverbrauch hängt von der GPU-Klasse ab. RTX 4090: 575W Spitzenwert (600W Durchschnitt mit System). RTX 4080: 320W GPU (450W System). RTX 4070 Ti: 290W GPU (400W System). Apple M5 Max Mac: 25–35W Gesamtbetrieb — die energieeffizienteste Option bei weitem. Inferenzlasten nutzen die GPU zu 90–100% Auslastung kontinuierlich.
Wie viel kostet der Betrieb eines lokalen LLM 24/7?
Bei €0,35/kWh (deutscher Durchschnitt): RTX 4090-System kostet ~€150/Monat. RTX 4080-System: ~€88/Monat. RTX 4070 Ti-System: ~€76/Monat. Apple M5 Max Mac: ~€8/Monat. Stromtarife variieren — in den USA (~$0,12/kWh) sind die Kosten deutlich niedriger. Der Betrieb von Inferenz nur während der Arbeitszeiten (8h/Tag) reduziert die Kosten um ~67%.
Welche PSU-Wattage benötige ich für eine RTX 4090?
Minimum 1000W PSU; 1200W empfohlen. Die RTX 4090 zieht 575W Spitzenwert. Addiere CPU (150–170W), Motherboard/RAM/Speicher (100W) und eine 20% Sicherheitsmarge — die Gesamtsystemlast erreicht ~900W. Eine 750W PSU führt zu Abschaltungen unter kontinuierlicher LLM-Inferenzlast. Kaufe immer von seriösen PSU-Herstellern (Seasonic, Corsair, EVGA).
Ist Apple Silicon effizienter als NVIDIA für lokale LLMs?
Ja — um ein großes Maß. M5 Max (128 GB vereinheitlicht, März 2026) führt 7B-Modelle mit 65–85 Tokens/Sekunde bei 25–35W Gesamtsystemleistung aus. Eine RTX 4090 führt das gleiche Modell mit 150 Tokens/Sekunde bei 600W aus. M5 Max verbraucht ~10× weniger Strom pro Token als RTX 4090 und bietet außerdem 4× größerer Speicherbasisspeicher (128 GB vs 32 GB) für 70B-Modelle.
Welche GPU-Temperatur ist für kontinuierliche LLM-Inferenz sicher?
Halte die GPU-Temperatur unter 83°C für kontinuierliche Inferenz. Thermische Drosselung der RTX 4090 wird ab 83°C ausgelöst und reduziert Taktraten und Inferenzgeschwindigkeit um 10–20%. Idealer Betriebsbereich: 65–75°C. Verwende `nvidia-smi -q -d TEMPERATURE` zur Überwachung. Wenn die Temperaturen 80°C überschreiten, verbessere die Gehäusebelüftung oder ersetze die Wärmeleitpaste.
Wie reduziere ich Stromverbrauch ohne Leistungsverlust?
Strombegrenzte GPU (NVIDIA) ohne Taktverlangsamung. RTX 4090: Stromlimit auf 350W setzen (von 575W) reduziert Stromverbrauch um 40% mit nur ~10% Geschwindigkeitsverlust — der optimale Punkt für effiziente Inferenz. Verwende `nvidia-smi -pl 350` zum Einstellen des Stromlimits. Apple Silicon-Nutzer: Keine Anpassung erforderlich, die Hardware ist bereits optimiert.
Was ist TDP und warum ist es für lokale LLMs wichtig?
TDP (Thermal Design Power) ist die maximale Wärme, die eine GPU bei Spitzenlast erzeugt, gemessen in Watt. NVIDIA bewertet RTX 4090 TDP mit 575W, aber echte Inferenz kann je nach Strombegren-zung und Taktraten 600W+ erreichen. TDP ist wichtig, da es die Mindestgröße der PSU und die Kühlungsanforderungen bestimmt. Höheres TDP = größere PSU, höhere Stromkosten, mehr Kühlung erforderlich.
Beschädigt der Betrieb eines lokalen LLM meine GPU?
Nein — kontinuierliche Inferenz beschädigt eine gesunde GPU nicht, wenn die Kühlung angemessen ist. GPUs sind für 100% Auslastung 24/7 ausgelegt (Rechenzentren tun dies). Die echten Risiken sind: (1) schlechte Kühlung verursacht Drosselung und verkürzt die Lebensdauer, (2) Stromspitzen von unterdimensionierter PSU können Abschaltungen auslösen, (3) Staub/schlechte Belüftung verschlechtert die Leistung im Laufe der Jahre. Überwache Temperaturen und halte gute Belüftung, und deine GPU hält 5+ Jahre.
Muss ich bei der Verwendung von PromptQuorum die DSGVO beachten?
Ja, wenn Nutzerdaten involviert sind. DSGVO Artikel 28 verlangt Datenverarbeitungsverträge, wenn ein Dienstleister (z.B. Cloud-Inferenz) Daten verarbeitet. Lokale Inferenz auf On-Premise-Hardware erfüllt diese Anforderungen von Haus aus und eliminiert Cloud-Abhängigkeiten. Lokale Inferenz mit PromptQuorum ist DSGVO-konform und erfüllt BSI-Grundschutz-Standards für Unternehmensumgebungen in Deutschland.
Ist PromptQuorum für den deutschen Mittelstand geeignet?
Ja. Deutsches KMU (Mittelstand) profitiert von lokaler Inferenz: Keine Cloud-Abhängigkeit (Compliance), volle Kontrolle über sensible Daten (Finanzen, Kundendaten), niedrigere Betriebskosten im Zeitverlauf. PromptQuorum Multi-Model-Konsens ist ideal für Mittelstand: Fallback zwischen Ollama + lokalen Open-Source-Modellen bei Cloud-Ausfällen. Erfüllt BSI-Grundschutz-Kataloge und DSGVO-Anforderungen für Datenverarbeitung vor Ort.