Wichtigste Erkenntnisse
- RTX 4060 Ti 16GB gewinnt für die meisten Nutzer: 16 GB für 14B Q8, 420 €, 165 W
- Gebrauchte RTX 3090 (24 GB) ermöglicht 30B-Modelle unter 500 €
- RX 7800 XT 16GB ist die AMD-Alternative bei ~370 € mit Ollama-ROCm-Unterstützung
- Intel Arc B580 12GB ist die 270-€-Budget-Option — nur 7B-Modelle
- RTX 4070 12GB ist am schnellsten, aber VRAM begrenzt auf 13B Q4
- Alle fünf GPUs laufen mit Ollama, LM Studio und llama.cpp
Beste GPUs für LLM-Inferenz unter 500 € — Rangfolge
📍 In einem Satz
Die RTX 4060 Ti 16GB ist die beste GPU unter 500 € für lokale LLM-Inferenz, da 16 GB VRAM 14B-Modelle mit Q8-Qualität ohne Engpass aufnimmt.
💬 In einfachen Worten
VRAM bestimmt, welche KI-Modelle du lokal ausführen kannst. 16 GB reichen für 14B-Modelle. 24 GB (gebrauchte RTX 3090) ermöglichen 30B-Modelle. Unter 12 GB bist du auf 7B-Modelle beschränkt.
Reichen 8 GB VRAM für lokale KI-Modelle?
8 GB VRAM beschränken auf 7B-Modelle bei Q4-Quantisierung. 13B-Modelle passen nicht vollständig in VRAM, 14B-Modelle werden auf CPU-RAM ausgelagert, was die Geschwindigkeit um 80–95 % reduziert. Für sinnvolle lokale LLM-Nutzung 2026 sind 12 GB das praktische Minimum, 16 GB empfohlen.
Kann ich AMD GPUs für lokale KI verwenden?
Ja, mit Einschränkungen. Ollama mit ROCm funktioniert gut unter Linux für die RX 7800 XT. Windows-ROCm-Support hat sich verbessert, erfordert aber manuelle Schritte. Fine-Tuning (LoRA) auf AMD-Hardware wird von den meisten Tools nicht unterstützt. Für reine Inferenz unter Linux ist die RX 7800 XT 16GB eine echte NVIDIA-Alternative.
Lohnt sich eine gebrauchte RTX 3090 gegenüber einer neuen RTX 4060 Ti 16GB?
Die RTX 3090 (24 GB gebraucht) läuft 30B+-Modelle, die die 4060 Ti nicht schafft. Die RTX 4060 Ti 16GB (neu) ist deutlich energieeffizienter (165 W vs. 350 W), hat bessere Treiberunterstützung und Garantie. Wenn 14B die maximale Modellgröße ist: 4060 Ti kaufen. Für 30B-Fähigkeit: gebrauchte 3090 von seriösen Verkäufern kaufen.