PromptQuorumPromptQuorum
Startseite/Power Local LLM/Beste GPUs für lokale LLMs: Kaufberatung 2026
Overview & Reference

Beste GPUs für lokale LLMs: Kaufberatung 2026

·14 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Die beste GPU für lokale LLMs ist die, deren VRAM zu Ihrem Modell passt — nicht die schnellste Karte. Eine RTX 3060 12 GB führt jedes 7B-Modell aus, eine RTX 4090 24 GB bewältigt 33B-Modelle, und eine RTX 5090 32 GB ist die einzige einzelne Consumer-Karte für 70B-Arbeit.

Die meisten GPU-Empfehlungen für lokale LLMs optimieren die falsche Kennzahl. Das Tempo in Token pro Sekunde entscheidet, wie schnell ein Modell antwortet — der VRAM entscheidet jedoch, ob das Modell überhaupt läuft. Ein Modell, das nicht in den Speicher passt, ist unendlich langsamer als eines, das passt. Dieser Leitfaden vergleicht acht Consumer-GPUs über vier Preisklassen anhand der Kennzahlen, die einen Kauf wirklich bestimmen: VRAM-Kapazität, gemessenes Inferenztempo, Leistungsaufnahme und Preis. Ein Hinweis zum Preis: Die GPU-Preise sind 2026 wegen einer Speicherknappheit stark gestiegen und liegen 1,5- bis 2-fach über der ursprünglichen UVP — alle Preise hier sind eine Momentaufnahme von Mai 2026, prüfen Sie also den aktuellen Preis vor dem Kauf.

Diese Seite enthält Produktlinks. Wir erhalten möglicherweise eine Provision, wenn Sie über diese Links kaufen — ohne Mehrkosten für Sie.

Wichtigste Erkenntnisse

  • VRAM ist die entscheidende Beschränkung. Ein Modell, das nicht in den VRAM passt, lädt entweder nicht oder weicht in den System-RAM aus und wird zu langsam für den interaktiven Einsatz. Wählen Sie die Klasse, deren VRAM zu Ihrem Zielmodell passt, und optimieren Sie dann innerhalb dieser Klasse auf Tempo.
  • Die Preise sind 2026 stark gestiegen. Eine Speicherknappheit hat die GPU-Preise in allen Märkten 1,5- bis 2-fach über die UVP getrieben — eine RTX 5090 kostet ~3.700 €, nicht ihren UVP-Wert. Behandeln Sie jeden Preis hier als Momentaufnahme von Mai 2026 und setzen Sie auf den Gebrauchtmarkt.
  • Budget-Wahl: NVIDIA RTX 3060 12 GB (gebraucht günstiger, neu 545–575 €) — führt jedes 7B-Modell mit 15–20 Token/s aus und die meisten 13B-Modelle bei Q4. Der beste Einstiegspunkt für lokale LLMs 2026.
  • Mittelklasse-Wahl: NVIDIA RTX 4060 Ti 16 GB (~450–500 €) — 16 GB VRAM bewältigen 14B-Modelle mit Kontextreserve, und es ist die GPU, die der UVP am nächsten blieb, also vom Preisanstieg am wenigsten betroffen.
  • Oberklasse-Wahl: NVIDIA RTX 4070 Ti Super 16 GB (ab 1.390 €) — schnell genug, dass sich 7B–14B-Modelle sofort anfühlen; 16 GB entsprechen der RTX 4080 Super bei der Kapazität für mehrere Hundert Euro weniger.
  • Enthusiast-Wahl: NVIDIA RTX 4090 24 GB / RTX 5090 32 GB — die RTX 4090 bewältigt 33B-Modelle; die RTX 5090 (3.659–3.889 €) ist die einzige einzelne Consumer-Karte, die ein 70B-Modell bei Q4 ohne Dual-GPU-Aufbau fasst.
  • AMD ist nutzbar, aber aufwendiger. Die RX 6700 XT (12 GB) und RX 7800 XT (16 GB) bieten konkurrenzfähigen VRAM pro Euro, aber die ROCm-Einrichtung kostet Stunden Arbeit gegenüber NVIDIA CUDA.
  • Die Leistungsaufnahme skaliert mit der Klasse. Eine RTX 3060 zieht 170 W; eine RTX 5090 zieht 575 W und benötigt ein 850–1000-W-Netzteil. Kalkulieren Sie das Netzteil zusammen mit der Karte ein.

Kurzfakten

  • Budget-Klasse: RTX 3060 12 GB oder RX 6700 XT 12 GB — führt 7B- und die meisten 13B-Modelle aus.
  • Mittelklasse: RTX 4060 Ti 16 GB oder RX 7800 XT 16 GB — führt 14B-Modelle bequem aus.
  • Oberklasse: RTX 4070 Ti Super 16 GB oder RTX 4080 Super 16 GB — schnelle 14B-Inferenz, leichte 22B-Arbeit.
  • Enthusiast-Klasse: RTX 4090 24 GB oder RTX 5090 32 GB — 33B-Modelle, und 70B bei Q4 auf der 5090.
  • VRAM-Faustregel bei Q4_K_M: rund 0,6 GB pro Milliarde Parameter, plus 2–4 GB für Kontext und Werkzeuge.
  • Leistungsaufnahme & Stromkosten: RTX 3060 170 W bis RTX 5090 575 W. Bei deutschem Strompreis (~0,35 €/kWh) und 4 Stunden Betrieb täglich kostet das von ~7 €/Monat (RTX 3060) bis ~24 €/Monat (RTX 5090).
  • Preisrealität 2026: Eine Speicherknappheit trieb die Preise 1,5- bis 2-fach über die UVP; der Gebrauchtmarkt ist oft das bessere Preis-Leistungs-Verhältnis.

Wie die acht GPUs für lokale LLMs 2026 abschneiden

VRAM- und Leistungsangaben sind Herstellerspezifikationen. Inferenztempo für RTX 3060, RTX 4080 Super, RTX 4090 und RTX 5090 sind gemessene 7B-Q4-Werte aus PromptQuorum-Hardwaretests; Werte für RTX 4060 Ti 16 GB, RX 7800 XT und RTX 4070 Ti Super sind Schätzungen auf Modellreihen-Ebene. Preise sind eine Momentaufnahme aus Deutschland von Mai 2026 (inkl. MwSt.) — die Speicherknappheit 2026 trieb sie 1,5- bis 2-fach über die UVP, daher vor dem Kauf prüfen.

📍 In einem Satz

Bei lokalen LLMs entscheidet der VRAM einer GPU, welche Modelle Sie ausführen können, und ihre Token-pro-Sekunde, wie schnell sie antworten — kaufen Sie nach dem Ersten, optimieren Sie dann das Zweite.

💬 In einfachen Worten

Stellen Sie sich VRAM als die Größe eines Schreibtisches vor und das Modell als das, was Sie darauf legen. Eine schnellere GPU räumt den Tisch zügiger ab, aber wenn das Modell gar nicht auf den Tisch passt, spielt Tempo keine Rolle. Wählen Sie zuerst die Klasse, deren Tisch groß genug ist.

GPUVRAMTempo (7B Q4)LeistungsaufnahmePreis (Mai 2026)Am besten für
RTX 3060 12 GB12 GB15–20 Token/s170 W545–575 € neu / gebraucht günstigerBudget-Einstieg — jedes 7B-Modell
RX 6700 XT12 GB10–14 Token/s230 Wgebraucht — Preis prüfenGünstigster VRAM, AMD-Einrichtung nötig
RTX 4060 Ti 16 GB16 GB~20–25 Token/s165 Wca. 450–500 €Mittelklasse — 14B-Modelle, sparsam
RX 7800 XT16 GB~18–24 Token/s (geschätzt)263 Wca. 500–560 €16 GB bei AMD, ROCm-Einrichtung nötig
RTX 4070 Ti Super16 GB~80–90 Token/s (geschätzt)285 Wab 1.390 €Redaktionsempfehlung — schnelle 14B
RTX 4080 Super16 GB~120 Token/s320 WPreis prüfenSchnellste 16-GB-Karte
RTX 409024 GB~150 Token/s450 Wknapp verfügbar — Preis prüfen33B-Modelle, Dual-GPU für 70B
RTX 509032 GB~160 Token/s575 W3.659–3.889 €70B bei Q4 auf einer GPU
Acht Consumer-GPUs für lokale LLMs im Vergleich nach VRAM, 7B-Q4-Inferenztempo, Leistungsaufnahme und Preis (Mai 2026) über vier Preisklassen. Der VRAM steigt von 12 GB (RTX 3060) auf 32 GB (RTX 5090); kaufen Sie nach der benötigten Modellgröße, bevor Sie auf Tempo optimieren.
Acht Consumer-GPUs für lokale LLMs im Vergleich nach VRAM, 7B-Q4-Inferenztempo, Leistungsaufnahme und Preis (Mai 2026) über vier Preisklassen. Der VRAM steigt von 12 GB (RTX 3060) auf 32 GB (RTX 5090); kaufen Sie nach der benötigten Modellgröße, bevor Sie auf Tempo optimieren.

Welche GPU sollten Sie kaufen?

Ihr größtes Zielmodell bestimmt Ihre Klasse; Ihr Budget entscheidet innerhalb dieser Klasse zwischen NVIDIA und AMD. Suchen Sie die Zeile, die zu Ihrer Situation passt.

Ihre SituationDas kaufen
Ich habe ein knappes Budget und will 7B-Modelle ausführenRTX 3060 12 GB (gebraucht)
Ich will die günstigste Karte, die LLMs überhaupt ausführt, und nehme Einrichtungsaufwand in KaufRX 6700 XT (gebraucht)
Ich will 14B-Modelle bei knappem Strombudget ausführenRTX 4060 Ti 16 GB
Ich will eine Karte, die 14B schnell ausführt und mehrere Jahre hältRTX 4070 Ti Super 16 GB
Ich will die schnellste 16-GB-Karte und der Preis ist zweitrangigRTX 4080 Super 16 GB
Ich brauche 33B-Modelle oder plane einen späteren Dual-GPU-70B-AufbauRTX 4090 24 GB
Ich brauche eine einzelne Karte, die 70B-Modelle bei Q4 ausführtRTX 5090 32 GB
Ich bin unsicher und will die sicherste erste GPURTX 3060 12 GB — später aufrüsten, falls Sie sie überwachsen

Budget-Klasse: RTX 3060 12 GB und RX 6700 XT

Die Budget-Klasse führt jedes 7B-Modell und die meisten 13B-Modelle aus — und für die meisten Erstnutzer lokaler LLMs ist genau das die gesamte benötigte Leistung. Die RTX 3060 12 GB ist die empfohlene Wahl; die RX 6700 XT ist die günstigere Alternative, wenn Sie den AMD-Einrichtungsaufwand in Kauf nehmen. In dieser Klasse zählt der Gebrauchtmarkt am meisten — die Neupreise sind mit dem Anstieg 2026 stark gestiegen, der Gebrauchtmarkt läuft in Deutschland vor allem über eBay Kleinanzeigen.

  • RTX 3060 12 GB (neu 545–575 €, gebraucht deutlich günstiger): 12 GB VRAM, 170 W, 15–20 Token/s bei 7B-Modellen mit Q4. Führt Mistral 7B, Qwen3 8B, DeepSeek-R1 7B und die meisten 13B-Modelle aus. Kaufen Sie ausdrücklich die 12-GB-Variante — meiden Sie die 6-GB-Variante, die auf 3B-Modelle beschränkt ist. Kaufen Sie gebraucht, wo möglich; der Neupreis hat sich im Preisanstieg ungefähr verdoppelt.
  • RX 6700 XT (gebraucht — Preis prüfen): 12 GB VRAM, 230 W, 10–14 Token/s bei 7B-Modellen. Der günstigste Einstieg in lokale LLMs, aber langsamer als die RTX 3060 und auf AMD ROCm angewiesen, was Einrichtungszeit kostet.
  • Warum diese Klasse kaufen: niedrigste Einstiegskosten, geringe Leistungsaufnahme bei der RTX 3060 und genug VRAM für die 7B–13B-Modelle, die allgemeinen Chat, Programmierhilfe und Zusammenfassungen abdecken.
  • Warum diese Klasse überspringen: Wenn Sie bereits wissen, dass Sie 14B-Modelle oder größer wollen, wird die Budget-Klasse Sie binnen Wochen frustrieren — beginnen Sie stattdessen in der Mittelklasse.

💡Tip: Kaufen Sie die RTX 3060 ausdrücklich in der 12-GB-Version. Die 6-GB-RTX-3060 sieht in Angeboten ähnlich aus, fasst aber nur 3B-Modelle — die halbe Parameterzahl ist der Unterschied zwischen einem brauchbaren Assistenten und einem Spielzeug.

⚠️Warning: Die RX 6700 XT ist die günstigste Karte hier, planen Sie aber 3–5 Stunden für die ROCm-Einrichtung unter Linux ein. Wenn Ihre Zeit mehr wert ist als die ersparten 100–200 €, kaufen Sie die NVIDIA-Karte.

Mittelklasse: RTX 4060 Ti 16 GB und RX 7800 XT

Die Mittelklasse existiert aus einem Grund: 16 GB VRAM bewältigen 14B-Modelle, die 12-GB-Karten nicht mit brauchbarem Kontext fassen. Wenn 14B-Modelle Ihr Ziel sind, ist dies die günstigste Klasse, die sie richtig ausführt — und die RTX 4060 Ti 16 GB ist bemerkenswert nah an ihrer UVP durch den Preisanstieg 2026 geblieben.

  • RTX 4060 Ti 16 GB (ca. 450–500 €): 16 GB VRAM, 165 W, rund 20–25 Token/s bei 7B-Modellen. Sie nutzt denselben GPU-Chip wie die 8-GB-RTX-4060-Ti, das Tempo pro Token ist also ähnlich — die 16-GB-Version kauft Kapazität, nicht reines Tempo. Ihre 165 W sind die niedrigste Aufnahme in diesem Leitfaden im Verhältnis zur Leistung, und sie ist die vom Anstieg am wenigsten betroffene GPU.
  • RX 7800 XT (ca. 500–560 €): 16 GB VRAM, 263 W. Sie wurde für diesen Leitfaden nicht einzeln gemessen; erwarten Sie ein Tempo im Bereich der RTX 4060 Ti, mit der AMD-ROCm-Einrichtung als Kompromiss.
  • Warum diese Klasse kaufen: Sie wollen 14B-Modelle, Sie wollen geringe Leistungsaufnahme (RTX 4060 Ti) oder Sie wollen 16 GB zum niedrigstmöglichen Preis.
  • Warum diese Klasse überspringen: Wenn 7B-Modelle genügen, spart die Budget-Klasse Geld; wenn Sie schnelle 14B-Inferenz wollen, ist die Oberklasse spürbar zügiger.

📌Note: Die RTX 4060 Ti 16 GB ist ein Kapazitäts-Upgrade, kein Tempo-Upgrade gegenüber der 8-GB-Version. Kaufen Sie sie, weil Sie 14B-Modelle fassen müssen, nicht weil Sie mehr Token pro Sekunde erwarten.

Oberklasse: RTX 4070 Ti Super und RTX 4080 Super

Die Oberklasse behält 16 GB VRAM, ergänzt aber das Tempo, das 7B–14B-Modelle sofort wirken lässt und 22B-Modelle brauchbar macht. Beide Karten fassen dieselben Modelle wie die Mittelklasse — Sie zahlen für Token pro Sekunde, nicht für Kapazität. Der Preisanstieg 2026 hat den Abstand zwischen dieser Klasse und der Mittelklasse stark vergrößert.

  • RTX 4070 Ti Super 16 GB (ab 1.390 €): 16 GB VRAM, 285 W. Die Redaktionsempfehlung — schnell genug, dass Antwortverzögerung bei 14B-Modellen nicht mehr auffällt, für rund mehrere Hundert Euro weniger als die RTX 4080 Super.
  • RTX 4080 Super 16 GB (Preis prüfen): 16 GB VRAM, 320 W, rund 120 Token/s bei 7B-Modellen. Die schnellste verfügbare 16-GB-Karte; der Aufpreis gegenüber der 4070 Ti Super lohnt nur, wenn Sie Batch-Inferenz betreiben oder das zusätzliche Tempo hoch gewichten.
  • Warum diese Klasse kaufen: Sie führen ständig 14B-Modelle aus und wollen sie sofort, oder Sie machen leichte 22B-Arbeit und wollen Reserve.
  • Warum diese Klasse überspringen: Wenn Sie 33B- oder 70B-Modelle brauchen, fasst keine 16-GB-Karte sie — wechseln Sie in die Enthusiast-Klasse, statt hier zu viel auszugeben.

💡Tip: Wählen Sie innerhalb dieser Klasse standardmäßig die RTX 4070 Ti Super. Die RTX 4080 Super ist schneller, aber beide fassen identische Modelle — der Tempovorsprung zählt bei Batch-Lasten und fällt im interaktiven Chat kaum auf.

Enthusiast-Klasse: RTX 4090 und RTX 5090

Die Enthusiast-Klasse ist die einzige Klasse, die Modelle über 22B ausführt — und die RTX 5090 32 GB ist die einzige einzelne Consumer-Karte, die ein 70B-Modell bei Q4 fasst. Kaufen Sie hier wegen der VRAM-Kapazität, nicht wegen des Tempos; das Tempo ist ein Nebeneffekt. Der Preisanstieg 2026 hat diese Klasse am härtesten getroffen, daher bewegen sich die Preise wöchentlich.

  • RTX 4090 24 GB (knapp verfügbar — Preis prüfen): 24 GB VRAM, 450 W, rund 150 Token/s bei 7B-Modellen und 36 Token/s bei einem 70B-Q4-Modell. Führt 33B-Modelle bequem aus. Beachten Sie: Der Anstieg hat die Gebrauchtpreise der RTX 4090 nahe an eine neue RTX 5090 gedrückt.
  • RTX 5090 32 GB (3.659–3.889 €): 32 GB GDDR7-VRAM, 575 W, rund 160 Token/s bei 7B und 45 Token/s bei 70B Q4. Die 32 GB Kapazität sind das Hauptargument — es ist die einzige Consumer-Karte, die ein 70B-Modell bei Q4 ohne zweite GPU ausführt.
  • Warum diese Klasse kaufen: Sie brauchen 33B- oder 70B-Modelle, Sie betreiben Batch-Inferenz oder Sie wollen eine Karte, die jahrelang nicht ersetzt werden muss.
  • Warum diese Klasse überspringen: Für 7B–14B-Modelle ist sie überdimensioniert — die Oberklasse liefert sofortige Antworten bei diesen Größen für weniger als die Hälfte des Preises und der Leistungsaufnahme.

⚠️Warning: Die RTX 5090 zieht allein 575 W. Kombinieren Sie sie mit einem 850–1000-W-Netzteil — ein 750-W-Gerät bricht unter Last ein. Kalkulieren Sie das Netzteil-Upgrade in den Kauf ein, nicht als Nachgedanken.

📌Note: Vor dem Preisanstieg 2026 waren zwei gebrauchte RTX 4090 günstiger als eine RTX 5090. Das hat sich umgekehrt: Ein Paar RTX 4090 kostet jetzt deutlich mehr als eine einzelne RTX 5090. Für einen neuen 70B-Aufbau ist die einzelne RTX 5090 jetzt sowohl einfacher als auch günstiger.

Wie viel VRAM brauchen Sie?

Bei Q4_K_M-Quantisierung benötigt ein Modell rund 0,6 GB VRAM pro Milliarde Parameter, plus 2–4 GB für Kontext und Werkzeug-Overhead. Diese Formel bildet sich direkt auf die vier Klassen ab.

  • 7B-Modelle — 8–9 GB: passen in jede Klasse. Eine 12-GB-Karte lässt bequeme Reserve.
  • 13–14B-Modelle — 11–13 GB: brauchen in der Praxis 16 GB, sobald Kontext und Werkzeuge mitgezählt sind. Mittelklasse und höher.
  • 22B-Modelle — 14–16 GB: knapp auf einer 16-GB-Karte; bequem ab der Oberklasse.
  • 33B-Modelle — 19–22 GB: brauchen eine 24-GB-Karte. RTX-4090-Bereich.
  • 70B-Modelle — 39–42 GB bei Q4: brauchen eine RTX 5090 32 GB am Limit oder einen Dual-GPU-Aufbau. Eine einzelne 24-GB-Karte fasst ein 70B-Modell bei Q4 nicht.

💡Tip: Die Kontextlänge ist ein versteckter VRAM-Kostenpunkt — lange Prompts und große Kontextfenster verbrauchen VRAM zusätzlich zu den Modellgewichten. Lassen Sie immer 2–4 GB Reserve. Die vollständige Methode finden Sie im VRAM-Leitfaden unter „Weiterführende Artikel“.

Warum die GPU-Preise 2026 stiegen

Die GPU-Preise stiegen 2026 stark wegen einer Speicherknappheit und drückten Consumer-Karten 1,5- bis 2-fach über ihre ursprüngliche UVP. Das verändert die Kaufrechnung, also planen Sie damit statt mit den Einführungspreisen.

📍 In einem Satz

GPU-Preise liegen 2026 wegen einer Speicherchip-Knappheit 1,5- bis 2-fach über der UVP, daher sollte ein Käufer für lokale LLMs den Gebrauchtmarkt und die kleinste zum Zielmodell passende Karte bevorzugen.

💬 In einfachen Worten

Die Karten sind nicht besser geworden — der Speicher in ihnen wurde knapp und teuer. Bis sich das löst, behandeln Sie die UVP als historische Zahl, kaufen Sie wo möglich gebraucht und zahlen Sie nicht für mehr VRAM, als Ihr Modell tatsächlich braucht.

  • Die Ursache ist der Speicher, nicht die GPUs. Eine GDDR- und HBM-Lieferknappheit verteuerte jede Karte mit schnellem Speicher — und LLM-fähige GPUs sind genau die Karten mit viel VRAM, die am stärksten betroffen sind.
  • Die RTX 5090 ist das deutlichste Beispiel: ein UVP von 1.999 $, aber rund 3.659–3.889 € im Handel bis Mai 2026 — nahezu das Doppelte.
  • Karten der unteren Klassen hielten sich besser. Die RTX 4060 Ti 16 GB liegt nahe ihrer UVP; der Anstieg skaliert damit, wie viel schnellen Speicher eine Karte trägt.
  • Der Gebrauchtmarkt ist jetzt das Preis-Leistungs-Argument. Eine gebrauchte RTX 3060 12 GB oder RX 6700 XT entgeht dem Großteil des Anstiegs — Gebrauchtpreise stiegen weit weniger als Neupreise.
  • Entscheidung: Wenn Sie warten können, beobachten Sie, ob sich die Knappheit löst; wenn nicht, kaufen Sie wo möglich gebraucht und die kleinste Karte, die zu Ihrem Zielmodell passt.

Entscheidungsbaum: Wählen Sie Ihre GPU in vier Fragen

Vier Fragen, der Reihe nach, führen die meisten Käufer zu einer Karte.

📍 In einem Satz

Wählen Sie eine GPU für lokale LLMs, indem Sie zuerst die größte Modellgröße beantworten, dann die Budgetgrenze, dann NVIDIA gegen AMD und zuletzt die Netzteilreserve.

💬 In einfachen Worten

Beginnen Sie mit dem größten Modell, das Sie wirklich ausführen wollen, und lassen Sie das Ihre Klasse bestimmen. Erst danach schauen Sie auf Preis, Marke und ob Ihr Netzteil die Karte versorgen kann. Die umgekehrte Reihenfolge ist der Weg, zu viel auszugeben oder eine Karte zu kaufen, die Ihr Modell nicht ausführen kann.

  • 1. Was ist das größte Modell, das Sie ausführen wollen? 7B: Budget-Klasse. 14B: Mittelklasse. 22B: Oberklasse. 33B: RTX 4090. 70B: RTX 5090 oder Dual-GPU.
  • 2. Was ist Ihre harte Budgetgrenze? Knappes Budget: RTX 3060 12 GB. Bis ~600 €: RTX 4060 Ti 16 GB. ~1.390–1.900 €: RTX 4070 Ti Super oder 4080 Super. Ab ~3.000 €: RTX 4090 oder RTX 5090.
  • 3. NVIDIA oder AMD? Wählen Sie NVIDIA, außer Sie besitzen bereits AMD-Hardware oder finden einen starken Rabatt auf die RX 7800 XT — CUDA erspart Stunden ROCm-Einrichtung.
  • 4. Hat Ihr Netzteil Reserve? Karten über der Mittelklasse brauchen 285–575 W; prüfen Sie Netzteil und Gehäusekühlung, bevor Sie Enthusiast-Hardware kaufen.
Vier-Fragen-Entscheidungsfluss zur Wahl einer GPU für lokale LLMs: Die größte Zielmodellgröße legt die Klasse fest, die Budgetgrenze grenzt die Wahl ein, NVIDIA gegen AMD entscheidet die Marke, und die Netzteilreserve bestätigt die Enthusiast-Wahl.
Vier-Fragen-Entscheidungsfluss zur Wahl einer GPU für lokale LLMs: Die größte Zielmodellgröße legt die Klasse fest, die Budgetgrenze grenzt die Wahl ein, NVIDIA gegen AMD entscheidet die Marke, und die Netzteilreserve bestätigt die Enthusiast-Wahl.

Regionale Preise & Bezugsquellen

GPU-Preise schwanken je Region — die Preise hier sind eine Momentaufnahme aus Deutschland (inkl. 19 % MwSt.), und der Anstieg 2026 hat jeden Markt getroffen. Die folgenden Links sind reine Produkt-Suchlinks; sie tragen keine Affiliate-Kennungen.

  • Deutschland: Mindfactory.de und alternate.de führen GPUs oft günstiger als Amazon.de und sind die erste Anlaufstelle für Grafikkarten.
  • Gebrauchtmarkt: eBay Kleinanzeigen ist der größte deutsche Gebrauchtmarkt für GPUs — vor allem für ältere Karten wie die RTX 3060 oft die deutlich günstigere Wahl.
  • Österreich & Schweiz: Geizhals.at und digitec.ch decken den DACH-Raum ab; Preise und Verfügbarkeit weichen leicht von Deutschland ab.
  • Preisvergleich: Geizhals.de ist der Standard für den Preisvergleich neuer Karten in Deutschland — prüfen Sie dort die aktuell günstigste Bezugsquelle.
  • Verfügbarkeit: High-End-Karten (RTX 4090, RTX 5090) sind 2026 zeitweise knapp; rechnen Sie mit schwankenden Preisen und prüfen Sie mehrere Händler.

⚠️Warning: Wegen des Anstiegs 2026 ist jede Preisangabe in diesem Leitfaden eine schnelllebige Momentaufnahme von Mai 2026. Öffnen Sie immer das aktuelle Händlerangebot vor dem Kauf — die Preise haben sich von Woche zu Woche bewegt.

Häufige Fehler beim GPU-Kauf für lokale LLMs

  • Nach Token pro Sekunde statt nach VRAM kaufen. Eine schnellere Karte, die Ihr Modell nicht fasst, ist nutzlos. Prüfen Sie zuerst, dass das Modell mit 2–4 GB Reserve in den VRAM passt, und vergleichen Sie dann das Tempo innerhalb dieser Klasse.
  • Die 6-GB-RTX-3060 statt der 12-GB-Version kaufen. Sie teilen einen Namen, aber keinen Einsatzzweck — die 6-GB-Karte endet bei 3B-Modellen. Bestätigen Sie immer die 12-GB-Variante im Angebot.
  • Annehmen, die RTX 4060 Ti 16 GB sei schneller als die 8-GB-Version. Ist sie nicht — es ist derselbe GPU-Chip mit mehr Speicher. Kaufen Sie sie für Kapazität (14B-Modelle), nicht für Tempo.
  • Sich an der UVP statt am aktuellen Preis orientieren. Der Anstieg 2026 bedeutet, dass Einführungspreise die Realität nicht mehr abbilden. Kalkulieren Sie mit dem aktuellen Händlerpreis und bevorzugen Sie den Gebrauchtmarkt, wo er dem Anstieg entgeht.
  • Die Netzteilanforderungen ignorieren. Eine RTX 5090 zieht 575 W und braucht ein 850–1000-W-Netzteil. Eine Karte, die unter Last einbricht, ist schlechter als eine langsamere Karte, die stabil läuft.
  • AMD wählen, ohne Einrichtungszeit einzuplanen. Die RX 6700 XT und RX 7800 XT bieten gutes Preis-Leistungs-Verhältnis, aber die ROCm-Einrichtung kostet Stunden. Rechnen Sie diese Zeit gegen das ersparte Geld gegenüber einer NVIDIA-Karte.
  • Für 7B-Modelle überdimensionieren. Wenn 7B-Modelle Ihren Einsatzzweck abdecken, ist eine RTX 4090 verschwendetes Geld und verschwendeter Strom. Passen Sie die Klasse an das Modell an, nicht an das zufällig vorhandene Budget.
Sieben häufige Fehler beim GPU-Kauf für lokale LLMs: nach Tempo statt VRAM kaufen, 6-GB- und 12-GB-RTX-3060 verwechseln, von der 16-GB-RTX-4060-Ti mehr Tempo erwarten, sich an der UVP orientieren, Netzteilbedarf ignorieren, AMD-Einrichtungszeit unterschätzen und für 7B-Modelle überdimensionieren.
Sieben häufige Fehler beim GPU-Kauf für lokale LLMs: nach Tempo statt VRAM kaufen, 6-GB- und 12-GB-RTX-3060 verwechseln, von der 16-GB-RTX-4060-Ti mehr Tempo erwarten, sich an der UVP orientieren, Netzteilbedarf ignorieren, AMD-Einrichtungszeit unterschätzen und für 7B-Modelle überdimensionieren.

Quellen

FAQ

Was ist die günstigste GPU, die lokale LLMs gut ausführt?

Eine gebrauchte NVIDIA RTX 3060 12 GB ist die günstigste GPU, die lokale LLMs gut ausführt. Ihre 12 GB VRAM fassen jedes 7B-Modell und die meisten 13B-Modelle bei Q4-Quantisierung, mit 15–20 Token pro Sekunde. Die günstigere RX 6700 XT funktioniert ebenfalls, ist aber langsamer und braucht AMD-ROCm-Einrichtung. Kaufen Sie gebraucht — die Neupreise haben sich im Anstieg 2026 ungefähr verdoppelt.

Warum sind die GPU-Preise 2026 so hoch?

Eine Speicherchip-Knappheit trieb den GPU-Preisanstieg 2026. Das GDDR- und HBM-Angebot wurde knapp, was die Kosten jeder Grafikkarte mit schnellem Speicher erhöhte, und LLM-fähige Karten mit viel VRAM traf es am härtesten. Bis Mai 2026 verkaufen sich die meisten Karten 1,5- bis 2-fach über ihrer ursprünglichen UVP — eine RTX 5090 startete bei 1.999 $, kostet aber im Handel um 3.700 €. Der Gebrauchtmarkt entging dem Großteil des Anstiegs.

Wie viel VRAM brauche ich für lokale LLMs?

Bei Q4_K_M-Quantisierung rechnen Sie mit rund 0,6 GB VRAM pro Milliarde Parameter plus 2–4 GB Overhead. Das bedeutet 8–9 GB für 7B-Modelle, 11–13 GB für 14B, 19–22 GB für 33B und 39–42 GB für 70B. Eine 12-GB-Karte deckt 7B bequem ab; 70B braucht eine RTX 5090 32 GB oder einen Dual-GPU-Aufbau.

Ist die RTX 4060 Ti 16 GB schneller als die 8-GB-Version?

Nein. Die RTX 4060 Ti 16 GB und die 8-GB-Version nutzen denselben GPU-Chip, das Inferenztempo pro Token ist also ähnlich — rund 20–25 Token pro Sekunde bei 7B-Modellen. Die 16-GB-Version kauft Kapazität und lässt Sie 14B-Modelle ausführen, die nicht in 8 GB passen. Kaufen Sie sie für VRAM, nicht für Tempo.

Sollte ich für lokale LLMs NVIDIA oder AMD kaufen?

Kaufen Sie NVIDIA, außer Sie besitzen bereits AMD-Hardware oder finden einen starken Rabatt. NVIDIA CUDA funktioniert sofort mit Ollama, LM Studio und llama.cpp. AMD-Karten wie die RX 6700 XT und RX 7800 XT bieten konkurrenzfähigen VRAM pro Euro, aber die ROCm-Einrichtung kostet typischerweise mehrere Stunden unter Linux.

Kann eine einzelne GPU ein 70B-Modell ausführen?

Nur die RTX 5090 32 GB, und nur bei Q4-Quantisierung, wo ein 70B-Modell rund 39–42 GB braucht — also aggressive Quantisierung oder teilweises Auslagern. Eine 24-GB-RTX-4090 fasst ein 70B-Modell bei Q4 nicht allein; die übliche Lösung sind zwei RTX 4090 für kombinierten VRAM, doch der Preisanstieg 2026 hat dieses Paar teurer gemacht als eine einzelne RTX 5090.

Lohnt sich die RTX 5090 gegenüber der RTX 4090 für lokale LLMs?

Nur, wenn Sie gezielt 70B-Modelle auf einer einzelnen Karte ausführen müssen. Die RTX 5090 hat 32 GB VRAM gegenüber den 24 GB der RTX 4090, was der entscheidende Faktor ist. Für 7B–33B-Modelle fasst die RTX 4090 dieselben Modelle; nach dem Anstieg 2026 liegen beide preislich nah beieinander, daher machen die zusätzlichen 8 GB und das etwas höhere Tempo der 5090 sie zum besseren Neukauf, sofern es das Budget erlaubt.

Welches Netzteil brauche ich für diese GPUs?

Passen Sie das Netzteil an die Klasse an: Ein 550-W-Gerät genügt für die RTX 3060, 650–750 W für RTX 4060 Ti und 4070 Ti Super, 850 W für die RTX 4090, und 850–1000 W sind für die RTX 5090 nötig, die allein 575 W zieht. Unterdimensionierte Netzteile verursachen Instabilität unter Last.

← Zurück zu Power Local LLM

Beste GPU für lokale LLMs 2026: Kaufberatung & Vergleich