Wichtigste Erkenntnisse
- Bestes Preis-Leistungs-Verhältnis (2026): RTX 4070 Ti (€580, verarbeitet 7–13B Modelle).
- Bestes unbegrenztes Budget: RTX 5090 oder RTX 4090 (€1.700–1.900, jedes Single-GPU-Modell).
- Beste ausgewogene Lösung: RTX 4080 (€1.150, verarbeitet jedes Modell mit Q5-Quantisierung).
- Best für 70B Modelle: 2× RTX 4090 (€3.400) oder RTX 6000 Ada (€4.800).
- Im April 2026 dominiert NVIDIA. AMD und Intel hinken erheblich hinterher.
GPU-Stufen nach Preis und Leistung
| Stufe | GPU | VRAM | Geschwindigkeit (7B) | Preis |
|---|---|---|---|---|
| Budget | RTX 4070 Ti | 12 GB | 80 Token/Sek. | €580–680 |
| Budget-Mittel | RTX 5070 | 12 GB | 85 Token/Sek. | €520 |
| Mittel | RTX 4080 | 16 GB | 120 Token/Sek. | €1.150 |
| Premium | RTX 4090 | 24 GB | 150 Token/Sek. | €1.700 |
| Premium | RTX 5090 | 32 GB | 160 Token/Sek. | €1.899 |
Budget-Segment (€380–680)
RTX 4070 Ti (empfohlen): €580, 12 GB VRAM, 80 Token/Sek. Bestes Preis-Leistungs-Verhältnis für den persönlichen Gebrauch.
RTX 5070 (neu, Anfang 2026): €520, 12 GB. Leichte Geschwindigkeitsverbesserung gegenüber 4070 Ti.
RTX 4070 (älter): €380, 12 GB. Etwas langsamer, nicht für neue Systeme empfohlen.
Mittleres Segment (€760–1.440)
RTX 4080 (€1.150): 16 GB VRAM, 120 Token/Sek. Gut geeignet für alle 7–13B Modelle.
RTX 5080 (neu, Anfang 2026): €1.150, 16 GB. Etwa 15% schneller als 4080.
RTX 4080 Super: Praktisch identisch mit 4080, gleicher Preis.
High-End (€1.500+)
RTX 4090 (€1.700): 24 GB VRAM, 150 Token/Sek. Schnellste Consumer-GPU. Kann jedes Modell auf einer einzelnen GPU ausführen.
RTX 5090 (€1.899): 32 GB VRAM, 160 Token/Sek. Neuestes Flaggschiff. Marginale Geschwindigkeitssteigerung gegenüber 4090.
RTX 6000 Ada (€4.800): Server-GPU, 48 GB. Für Produktionsbereitstellungen.
AMD und Intel GPUs: Status im April 2026
AMD (ROCm): Verbessert sich, bleibt aber hinter NVIDIA zurück. Die RX 7900 XTX konkurriert preislich mit der RTX 4080, aber die ROCm-Treiberunterstützung ist unzuverlässiger. Nicht empfohlen, es sei denn, Sie bevorzugen das AMD-Ökosystem.
Intel Arc A770: Zu langsam für praktische LLM-Nutzung. Nicht empfohlen.
Empfehlung: Bleiben Sie bei NVIDIA für Stabilität und Ökosystem-Reife.
Historischer Vergleich: Wie GPU-Leistung gewachsen ist
Kontext: Wie schnell sich die GPU-Leistung entwickelt hat:
| GPU | VRAM | Geschwindigkeit (7B) | Preis |
|---|---|---|---|
| RTX 2080 (2019) | 8 GB | 10 Token/Sek. | €680 |
| RTX 3090 (2020) | 24 GB | 25 Token/Sek. | €1.450 |
| RTX 4070 (2022) | 12 GB | 60 Token/Sek. | €580 |
| RTX 4090 (2022) | 24 GB | 150 Token/Sek. | €1.700 |
| RTX 5090 (2026) | 32 GB | 160 Token/Sek. | €1.899 |
Häufige GPU-Auswahlfehlr
- RTX 3090 im Jahr 2026 kaufen. Alt und langsamer. Nicht zu empfehlen. Kaufen Sie nur aktuelle Generationen (40/50 Serie).
- Davon ausgehen, dass mehr VRAM = schneller. Die VRAM-Größe beinflusst nicht die Geschwindigkeit. RTX 4080 (16 GB) ist schneller als RTX 3090 (24 GB).
- Denken, dass Sie RTX 6000 für den persönlichen Gebrauch benötigen. Massive Überdimensionierung. RTX 4090 verarbeitet mühelos jedes persönliche Modell.
- Zum Zwecke der zukünftigen Sicherung über 2 Jahre hinaus kaufen. GPU-Technologie entwickelt sich schnell. Kaufen Sie für heutige Anforderungen, rüsten Sie in 2 Jahren auf.
Häufig gestellte Fragen
Wie viel VRAM benötige ich für lokale LLMs?
12 GB VRAM verarbeitet 7B- und 13B-Modelle komfortabel (Q5-Quantisierung). 16 GB verarbeitet bis zu 20B Modelle. 24 GB (RTX 4090) führt jedes Single-GPU-Modell aus, einschließlich 34B bei Q5. Für 70B Modelle benötigen Sie 2× 24 GB GPUs oder aggressive Quantisierung auf Q2–Q3 mit erheblichem Qualitätsverlust.
Lohnt sich die RTX 4090 für lokale LLMs?
Ja, wenn Sie regelmäßig 13B–34B Modelle ausführen oder maximale Inferenzgeschwindigkeit benötigen. Bei €1.700 bietet die RTX 4090 24 GB VRAM und 150 Token/Sek. bei 7B Modellen. Wenn Sie nur 7B Modelle ausführen, bietet die RTX 4070 Ti bei €580 80 Token/Sek. — 80% der Leistung zu 33% der Kosten.
Sollte ich eine AMD-GPU für lokale LLMs kaufen?
Nicht im Jahr 2026, es sei denn, Sie bevorzugen das AMD-Ökosystem. Die NVIDIA-Integration ist ausgereifter, und die meisten LLM-Frameworks (vLLM, llama.cpp, Ollama) sind zunächst für CUDA optimiert. Die RX 7900 XTX von AMD konkurriert preislich, hat aber häufigere Treiberprobleme und inkonsistente Framework-Unterstützung.
Welche GPU eignet sich am besten für die lokale Ausführung von 70B Modellen?
Zwei RTX 4090 GPUs (€3.400 Gesamtpreis, 48 GB kombinierter VRAM) sind die beste Consumer-Option. Dies führt Llama 3.1 70B bei Q5-Quantisierung bei etwa 100 Token/Sek. aus. Eine einzelne RTX 6000 Ada (€4.800, 48 GB) ist die professionelle Alternative. Vermeiden Sie den Versuch von 70B auf einer einzelnen Consumer-GPU — erforderliche Q2-Quantisierung verschlechtert die Qualität erheblich.
Wie beeinflusst die VRAM-Größe die Leistung lokaler LLMs?
Die VRAM-Größe bestimmt, welche Modellgrößen Sie ausführen können — mehr VRAM = größere Modelle. Die VRAM-Größe beeinflußt nicht direkt die Inferenzgeschwindigkeit für Modelle, die passen. Eine RTX 4080 (16 GB, 120 Token/Sek.) ist schneller als eine RTX 3090 (24 GB, 25 Token/Sek.), obwohl sie weniger VRAM hat, da Speicherbandbreite und Compute-Architektur wichtiger sind.
Benötige ich eine neue GPU-Generation für lokale LLMs?
Ja — kaufen Sie RTX 40er oder neuer (50er Serie im Jahr 2026). RTX 30er Serie (3090, 3080) sind deutlich langsamer: eine 3090 erreicht 25 Token/Sek. gegenüber 150 Token/Sek. bei einer 4090 zum gleichen Preis heute. RTX 2080 (8 GB) ist unpraktisch für alles außer 3B Modellen. Nur Hardware der aktuellen Generation wird für neue Systeme empfohlen.
Quellen
- NVIDIA GPU-Spezifikationen -- nvidia.com/en-us/geforce
- TechPowerUp GPU-Datenbank -- techpowerup.com/gpu-specs
- LLM-Leistungs-Benchmarks -- github.com/vllm-project/vllm/tree/main/benchmarks