PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Beste Budget-GPUs für lokale LLMs
GPU Buying Guides

Beste Budget-GPUs für lokale LLMs

·7 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

RTX 3060 12GB führt Llama 4 Scout 17B (MoE) mit 12–16 Tok/Sek, Qwen3 8B mit 16–20 Tok/Sek, Mistral 7B mit 18 Tok/Sek und DeepSeek-R1 7B mit 10–12 Tok/Sek aus — alles bei Q4-Quantisierung. Die 6-GB-Variante ist auf 3B-Modelle beschränkt. Stand Mai 2026 bleibt die RTX 3060 12GB (150–190 € gebraucht) die beste Budget-GPU für lokale LLMs: 12 GB VRAM passt für jedes 7B-Modell und die meisten 13B-Modelle bei Q4, plus Llama 4 Scout (MoE) die Qualität weit über dichten 7B-8B-Modellen bei ähnlichem VRAM liefert.

Wichtigste Erkenntnisse

  • RTX 3060 12GB (150–190 € gebraucht): Führt jedes 7B-Modell und die meisten 13B bei Q4 aus. Plus Llama 4 Scout (MoE) bei ~10 GB — beste Gesamtqualität.
  • RTX 3060 6GB: Beschränkt auf 3B-Modelle (Phi-4 Mini, Llama 3.2 3B). Zu knapp für 7B.
  • Bestes Gesamtmodell auf 12GB: Llama 4 Scout 17B (MoE) bei ~10 GB VRAM, 12–16 Tok/Sek. Liefert Qualität vergleichbar mit dichten 30B-Modellen.
  • Bestes Coding-Modell auf 12GB: Qwen3 8B mit 16–20 Tok/Sek. Verbesserung gegenüber Qwen3.
  • Bestes Reasoning-Modell auf 12GB: DeepSeek-R1 7B mit 10–12 Tok/Sek.
  • Überspringen wenn: Sie 70B-Modelle oder 13B bei Q8 wollen — dafür brauchen Sie 24GB (RTX 4090).

Was kann man auf RTX 3060 12GB ausführen?

Die RTX 3060 12GB ist die beste Budget-GPU für lokale LLMs 2026. 12 GB VRAM passt für jedes 7B-Modell bei Q4/Q5 und die meisten 13B-Modelle bei Q4. Für detaillierte Anleitung zu VRAM-Anforderungen bei verschiedenen Modellgrößen siehe den VRAM-Anforderungsleitfaden →. Hier sind die genauen Modelle und Geschwindigkeiten, die Sie erwarten können:

ModellGrößeQuantisierungVRAMGeschwindigkeitIdeal für
Llama 4 Scout 17B17B aktiv (109B MoE)Q4_K_M~10 GB12–16 Tok/SekBeste Gesamtqualität (MoE)
Llama 3.2 7B7BQ4_K_M~7 GB15–20 Tok/SekChat, Frage-Antwort (Legacy)
Mistral 7B v0.37BQ4_K_M~7 GB18 Tok/SekInstruktionsfolge
Qwen3 8B8BQ4_K_M~7 GB16–20 Tok/SekCoding (Verbesserung zu Qwen2.5)
DeepSeek-R1 7B7BQ4_K_M~7 GB10–12 Tok/SekReasoning, Mathematik
Gemma 4 9B9BQ4_K_M~8 GB12–15 Tok/SekVision, multimodal
Llama 3.2 13B13BQ4_K_M~11 GB8–10 Tok/SekHöhere Chat-Qualität (Q4 nur, knapp)

Llama 4 Scout ist die größte Verbesserung für RTX 3060 12GB-Besitzer 2026. Seine MoE-Architektur bedeutet, dass nur 17B Parameter pro Token aktiv sind (von 109B insgesamt), was eine Qualität weit über dichten 7B-8B-Modellen bei ähnlichem VRAM-Verbrauch liefert. `ollama pull llama4:scout`. Alle Geschwindigkeiten gemessen mit Ollama auf RTX 3060 12GB, 16 GB System-RAM, Ryzen 7 7700X. Q4_K_M-Quantisierung. Geschwindigkeiten variieren ±15%.

Was kann man auf RTX 3060 6GB ausführen?

Die 6-GB-Variante ist stark eingeschränkt. Nur 3B-Modelle passen komfortabel. 7B-Modelle bei Q4 brauchen ~7 GB — mehr als vorhanden.

  • Phi-4 Mini 3.8B (Q4): ~3 GB VRAM, 20–25 Tok/Sek. Bestes Reasoning in dieser Größe.
  • Llama 3.2 3B (Q4): ~2,5 GB VRAM, 25–35 Tok/Sek. Schnellste Option. Gut für einfachen Chat.
  • Gemma 2 2B (Q4): ~1,7 GB VRAM, 35–45 Tok/Sek. Leichtestes Modell. Gut zum Testen.
  • 7B mit Offloading: Möglich aber langsam. Llama 7B mit CPU-Offload = ~5–8 Tok/Sek.
  • Empfehlung: Wenn Sie eine 6-GB-Karte haben, upgraden Sie auf 12 GB gebraucht (200–250 $).

Welches GPU-Budget sollten Sie einplanen?

Für ein funktionsfähiges lokales LLM-System planen Sie €500-750 Gesamtsystemkosten, mit GPU = 30-40% dieses Budgets (~€150-300).

Eine €150-GPU mit einer €30-CPU erzeugt Engpässe. Eine €1.500-GPU mit €20-Mainboard verschwendet Geld.

Ab April 2026 liegt der Performance-pro-Euro-Spitzenwert im €150-250-Bereich (RTX 3060-4070 Super gebraucht).

RTX 3060 vs andere Budget-GPUs

GPUVRAMPreis (Gebraucht)7B GeschwindigkeitMax. ModellFazit
RTX 3060 12GB ★12 GB180–230 €15–20 Tok/Sek13B (Q4)Beste Budget-Wahl
RTX 4060 Ti 8GB8 GB230–280 €20–25 Tok/Sek7B (Q5 max)Schneller, weniger VRAM
RTX A400016 GB160–210 €12–15 Tok/Sek13B (Q5)Bestes VRAM pro Euro
RTX 4070 Super12 GB370–420 €25–30 Tok/Sek13B (Q5)Schneller, 2× Preis
RX 6700 XT12 GB130–180 €10–14 Tok/Sek13B (Q4)Billigste, AMD-Aufwand

RTX 3060 12GB gewinnt beim Preis-Leistungs-Verhältnis: 12 GB VRAM für 180–230 € führt jedes 7B-Modell und die meisten 13B aus.

Welches Modell ist für jeden Anwendungsfall am besten?

Codierung (Qwen 2.5 7B): Qwen 2.5 7B ist exzellent bei Code-Generierung und Reasoning. Benötigt RTX 3060 12GB oder RTX 4060 Ti 8GB. Ideal auf RTX A6000 Enterprise-Karten, falls verfügbar für 32B+-Modelle.

Englisch-Reasoning (Llama 3.3): Llama 3.3 ist das beste Universalmodell für faktengestütztes Reasoning. Llama 3.3 70B benötigt 48GB VRAM (RTX 6000 oder A100). 7B-Version passt auf jede 8GB+ GPU.

Leichte lokale Nutzung (Mistral 7B): Mistral 7B ist das leichteste hochwertige Modell. Lässt sich bequem auf RTX 3060 12GB oder RTX 4060 Ti 8GB ausführen. Perfekt für Notebook-Inferenz.

Welche Modelle gewinnen nach Anwendungsfall?

Bestes insgesamt: Llama 3.3 (offen, fähig, weit optimiert)

Bestes für Codierung: Qwen 2.5 (spezialisiert auf Code-Verständnis)

Bestes leichtgewichtig: Mistral 7B (minimales VRAM, schnelle Inferenz)

Beste Budget-GPU: RTX 3060 12GB (€150-190 gebraucht)

Modellvergleich: Welches Modell gewinnt?

ModellAm besten fürStärkeSchwächeMin VRAM (Q4)
Qwen 2.5 7BCodierungAusgezeichnete Code-Genauigkeit, mehrsprachiges ReasoningSchwächer bei reinem englischen Reasoning vs. Llama6-8 GB
Llama 3.3 8BReasoningStarkes Universalmodell, faktengestütztes ReasoningSchwerer als Mistral, mehr VRAM erforderlich8-10 GB
Mistral 7BEffizienzSchnellste Inferenz, minimales VRAM, leichtgewichtigWeniger fähig als Llama/Qwen bei komplexen Aufgaben6-8 GB

Wie viel VRAM benötigen Sie für 7B-Modelle?

7B-Modelle, quantisiert bei Q4 (4-bit), benötigen 6-8GB VRAM; Q5 (5-bit) benötigt 8-10GB; Q8 (8-bit) benötigt 14-16GB.

In der Praxis: 8GB ist das Minimum für komfortable Inferenz auf 7B-Modellen bei Q4 mit Platz für Batch-Verarbeitung.

6GB-Karten (RTX 2060) funktionieren technisch, erfordern aber aggressive Optimierung und lassen keinen Spielraum für höhere Batches.

GPU-Kosten sind eine Seite der Wirtschaftlichkeit; Token-Kosten die andere. Lokale Inferenz eliminiert API-Kosten pro Token, aber die Prompt-Länge beeinflusst weiterhin Latenz und Durchsatz. Das vollständige Kostenbild — Tokens, Preisstufen und Optimierungsstrategien — finden Sie unter Tokens, Kosten und Grenzen: die Wirtschaftlichkeit von KI-Prompting.

Beste Modelle nach Anwendungsfall auf RTX 3060

Wählen Sie Ihr Modell basierend auf Ihrem Bedarf, nicht nach Parameterzahl:

Budget-Hardware läuft kleinere Modelle — aber gezieltes Prompting schließt die Qualitätslücke. Der Prompt-Engineering-Guide deckt Techniken wie Chain-of-Thought und strukturierte Ausgaben ab, die kleineren Modellen helfen, über ihrem Gewicht zu boxen. Ein konkreter Workload, der genau auf die RTX 3060 12 GB passt, ist automatisierter Pull-Request-Review — siehe Lokales LLM-Code-Review in CI/CD für das GitHub-Actions-Muster, das Qwen3 8B auf genau dieser Hardware gegen PRs laufen lässt.

  • Chat / Frage-Antwort: `ollama run llama4:scout` — MoE, ~10 GB VRAM, beste Qualität auf 12 GB. Für leichtere Option: `ollama run llama3.2:3b` bei 2,5 GB.
  • Coding: `ollama run qwen3:8b` — Verbesserte Coding-Leistung gegenüber Qwen3. 5 GB VRAM. 16–20 Tok/Sek.
  • Reasoning / Mathematik: `ollama run deepseek-r1:7b` — Chain-of-Thought. 10–12 Tok/Sek.
  • Schreiben / Kreativ: `ollama run mistral:7b` — Beste Instruktionsfolge. 18 Tok/Sek.
  • Vision / Bilder: `ollama run gemma4:9b` — Multimodal (Bilder). 12–15 Tok/Sek. ~8 GB VRAM.
  • Datenschutz / Offline: Alle oben genannten. 100% lokal. Keine Daten verlassen Ihr Gerät.

Gebraucht vs. Neu: Wo sollten Sie kaufen?

  • Gebraucht (€30-60 billiger): eBay, Facebook Marketplace, Craigslist, lokale Computerreparaturwerkstätten. Höheres Risiko defekter Karten oder schlechtem VRAM. Immer vor Festlegung testen.
  • Neu (€220-350): Amazon.de, Cyberport, Mindfactory, lokale Elektronikfachgeschäfte. Garantie inklusive. Keine Überraschungen. Preise stabil. Gut für risikoscheue Käufer.
  • Mined-Karten (Krypto, super günstig): Extremes Risiko. VRAM-Degradation häufig. Nur kaufen, wenn Sie vor Ort vollständig testen können.

Welche Budget-GPU-Fehler sollten Sie vermeiden?

  • Kauf einer 4GB RTX 2060 und Erwartung reibungsloser 7B-Inferenz--Sie erhalten ständig Out-of-Memory-Fehler.
  • Pairing einer €150-GPU mit einem €20-Netzteil--Spannungsabfall tötet Stabilität. Budget 80+ Gold-zertifiziert, 550W Minimum.
  • Annahme, dass DDR5-RAM und i9-CPU die LLM-Inferenz beschleunigen--das tun sie nicht. GPU-VRAM-Bandbreite ist der einzige Engpass, der Inferenzgeschwindigkeit beeinflusst.
  • Nicht versuchen, Llama 4 Scout auf 12 GB VRAM auszuführen. Viele RTX 3060-Besitzer nehmen an, sie sind auf 7B-8B dichte Modelle begrenzt. Llama 4 Scout (MoE, 17B aktiv / 109B insgesamt) passt bei ~10 GB und liefert Qualität vergleichbar mit dichten 30B-Modellen. Wenn Sie 12 GB VRAM haben und Scout noch nicht versucht haben, unternutzen Sie Ihre Hardware erheblich.
  • Kauf einer 16 GB-Karte nur für 13B-Modelle. Mit Llama 4 Scout verfügbar bei ~10 GB ist das 12→16 GB-Upgrade weniger notwendig als noch vor sechs Monaten. Upgraden Sie nur auf 16 GB, wenn Sie spezifisch Llama 3.1 70B, Mistral Small 3.1 oder andere dichte 20B+-Modelle benötigen.

Welche Budget-GPU sollten Sie kaufen?

Für Codierungsaufgaben: Wählen Sie RTX 3060 12GB oder RTX A4000 (16GB) + Qwen 2.5 7B. Sie erhalten starke Code-Generierung ohne Überausgaben.

Für allgemeines Reasoning: Wählen Sie RTX 4060 Ti 8GB oder RTX 3060 12GB + Llama 3.3 7B. Bestes Gleichgewicht aus Kosten und Fähigkeiten.

Für leichte lokale Setups: Wählen Sie RTX 4060 Ti 8GB + Mistral 7B. Schnellste Inferenz, niedrigster Stromverbrauch, minimales VRAM-Fußabdruck.

Gesamtempfehlung: RTX 3060 12GB (gebraucht, €150-190) ist unschlagbarer Wert. Passt zu allen 7B-13B-Modellen, hat 12GB VRAM-Puffer und kostet weniger als neue Entry-Level-Karten.

Häufig gestellte Fragen

Ist RTX 3060 12GB noch 2026 wert?

Ja. Sie ist 4+ Jahre alt, aber 12GB VRAM ist zeitlos. Lädt Llama 4 Scout 17B (MoE), Qwen3 8B und Mistral 7B reibungslos. Die MoE-Architektur von Llama 4 Scout bedeutet, 12 GB VRAM ist jetzt genug für Modellqualität, die früher 16+ GB erforderte.

Sollte ich RTX 4060 oder RTX 4060 Ti für lokale LLMs kaufen?

RTX 4060 Ti. Das Base-4060 (8GB) und 4070 (12GB) sind schlechtes Preis-Leistungs-Verhältnis. Das Ti ist die beste Preis-RTX-40er-Serie für LLM-Arbeiten.

Kann ich stattdessen eine AMD RX 6700 oder 6800 XT verwenden?

Ja, aber Driver-Support für ONNX Runtime auf AMD ist schwächer als NVIDIA + CUDA. Erwarten Sie mehr Setup-Reibung. RTX ist sicherer für Budgets.

Reichen 12GB VRAM für 13B-Modelle?

Kaum, bei Q4-Quantisierung. Q5 oder Q8 verursachen OOM-Fehler. Wenn Sie 13B-Komfort wollen, zielen Sie auf 16GB ab.

Sollte ich eine gebrauchte Enterprise-GPU wie RTX A4000 kaufen?

Ja, falls verfügbar. 16GB VRAM, professionelle Kühlung, normalerweise €130-180 gebraucht. Leicht langsamer als RTX 3060, aber VRAM-Puffer ist es wert.

Welche PSU-Leistung sollte ich mit einer €150-GPU kaufen?

550W, 80+ Gold Minimum. Eine €150-GPU + CPU + Mainboard überschreitet nicht 350W, aber Sie wollen Kopfraum für Spitzen.

Kann ich Ollama mit einer €100-Budget-GPU ausführen?

Ja. Ollama ist leichtgewichtig. Eine 4 Jahre alte RTX 3060 mit Ollama lädt Llama 4 Scout bei 12-16 Tok/Sek oder Qwen3 8B bei 16-20 Tok/Sek — völlig nutzbar für interaktiven Chat und Code-Unterstützung.

Was sind die VRAM-Anforderungen für DSGVO-konforme lokale Inferenz in Unternehmen?

Minimum RTX 3060 12GB oder A4000 16GB für bis zu 50 Benutzer mit Llama 3.3 13B Q4. ECC-GPU empfohlen für Fehlererkennung. Firmware/physische Sicherheit verhindert GPU-Memory-Dumps.

Welche GPU empfiehlt sich für einen Team-Server im deutschen Mittelstand?

RTX 3060 12GB oder A4000 für 1-50 Mitarbeiter. RTX 4070 Super oder A6000 für 50-200 Mitarbeiter. RTX 3060 kann Llama 3.3 13B Q4 + vLLM mit 3-5 gleichzeitigen Anfragen ausführen. Größere Teams benötigen A100 mit Enterprise-Clustering.

Kann ich Llama 4 Scout auf einer RTX 3060 12GB ausführen?

Ja. Llama 4 Scout nutzt MoE-Architektur — 17B Parameter aktiv von 109B insgesamt. Bei Q4_K_M nutzt es ~10 GB VRAM und passt komfortabel in den RTX 3060 12GB-Speicher. Erwarten Sie 12-16 Tok/Sek. Dies ist das einzelne beste Upgrade für RTX 3060-Besitzer 2026: `ollama pull llama4:scout`.

Welche Hardware-Einrichtung funktioniert für jedes Modell?

  • Für Llama 3.3 70B lokal: Siehe 70B-Modelle auf Consumer-Hardware für RTX 4090, Dual-GPU und Enterprise-GPU-Empfehlungen.
  • Für Qwen 2.5 Codierungsmodelle: Siehe Beste GPUs für lokale LLMs für optimierte Qwen-Setups.
  • Für Mistral 7B auf minimaler Hardware: Dieser Leitfaden (RTX 3060 oder 4060 Ti) ist Ihr Startpunkt.
  • Zum Berechnen exakter VRAM-Anforderungen: Verwenden Sie How Much VRAM Do You Need? für Ihre Modellgröße und Quantisierungsstufe.

Weiterführende Literatur

Quellen

  • Meta AI. (2025). "Llama 4 Model Card." — Scout MoE-Architektur, VRAM-Anforderungen
  • Qwen Team. (2026). "Qwen3 Technical Report." — Qwen3 8B Spezifikationen
  • TechPowerUp GPU-Datenbank: RTX 3060 / RTX 4060 Ti / RTX 4070 Super Spezifikationen und Stromverbrauch
  • NVIDIA CUDA Capability Matrix: GPU-Speicherbandbreite und theoretischer Durchsatz für Inferenz-Workloads
  • Ollama Model Requirements: VRAM-Empfehlungen für Llama 4 Scout, Qwen3 und Mistral 7B Quantisierungsstufen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

RTX 3060 bis RX 6800 XT: 5 Budget-GPUs für lokale LLMs 2026