Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Beste Budget-GPU für lokale LLMs 2026: RTX 3060 12GB & Alternativen
GPU Buying Guides

Beste Budget-GPU für lokale LLMs 2026: RTX 3060 12GB & Alternativen

·7 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Die RTX 3060 12GB betreibt Qwen3 14B mit 9–12 Tok/Sek, Qwen3 8B mit 16–20 Tok/Sek, Gemma 4 E12B mit 11–14 Tok/Sek, Mistral Small mit 18 Tok/Sek und DeepSeek-R1 7B mit 10–12 Tok/Sek. Die 6-GB-Variante schafft nur 3B-Modelle. Beste Budget-GPU für lokale LLMs 2026 für 200–250 € gebraucht.

Die RTX 3060 12GB betreibt Qwen3 14B mit 9–12 Tok/Sek, Qwen3 8B mit 16–20 Tok/Sek, Gemma 4 E12B mit 11–14 Tok/Sek, Mistral Small mit 18 Tok/Sek und DeepSeek-R1 7B mit 10–12 Tok/Sek — alles bei Q4-Quantisierung. Die 6-GB-Variante ist auf reine 3B-Modelle beschränkt. Stand Juni 2026 bleibt die RTX 3060 12GB (200–250 € gebraucht) die beste Budget-GPU für lokale LLMs: 12 GB VRAM fassen jedes 7B-8B-Modell bei Q4/Q5 und die meisten dichten 13B-14B-Modelle bei Q4. (Hinweis: Llama 4 Scout ist ein MoE mit 17B aktiven / 109B Gesamt-Parametern, das bei Q4 ca. 55 GB benötigt — es passt normalerweise nicht in 12 GB.) Dieser Leitfaden zeigt genau, welche Modelle auf welcher VRAM-Stufe laufen, mit echten Geschwindigkeiten und praxistauglichen Setups.

Wichtigste Erkenntnisse

  • Beste Wahl nach Budget: Unter 200 € — RX 6700 XT 12GB (200–250 €, am günstigsten, AMD-Setup-Reibung) oder RTX A4000 16GB, falls unter ca. 300 € zu finden (bestes VRAM pro Euro). Ca. 250 € — RTX 3060 12GB (insgesamt am besten). Unter 500 € — RTX 4070 Super 12GB (am schnellsten mit 25–30 Tok/s).
  • RTX 3060 12GB (200–250 € gebraucht): Betreibt jedes 7B-8B-Modell bei Q4/Q5 und die meisten dichten 13B-14B bei Q4. Beste Budget-Wahl.
  • RTX 3060 6GB: Auf 3B-Modelle beschränkt (Phi-4 Mini, Llama 3.2 3B). Zu knapp für 7B.
  • Bestes Gesamtmodell auf 12 GB: Qwen3 14B bei ca. 9 GB VRAM, 9–12 Tok/Sek. Beste dichte Qualität, die komfortabel passt.
  • Bestes Coding-Modell auf 12 GB: Qwen3 8B mit 16–20 Tok/Sek.
  • Bestes Reasoning-Modell auf 12 GB: DeepSeek-R1 7B mit 10–12 Tok/Sek. Chain-of-Thought.
  • Überspringen, wenn: Sie 70B-Modelle, Llama 4 Scout (benötigt ca. 55 GB) oder 13B bei Q8 wollen — dann brauchen Sie 24 GB+ (RTX 4090).

Was läuft auf der RTX 3060 12GB?

Die RTX 3060 12GB ist 2026 die beste Budget-GPU für lokale LLMs. 12 GB VRAM fassen jedes 7B-Modell bei Q4/Q5-Quantisierung und die meisten 13B-Modelle bei Q4. Eine detaillierte Anleitung zu VRAM-Anforderungen über alle Modellgrößen hinweg finden Sie im VRAM-Anforderungs-Leitfaden →. Hier die genauen Modelle und Geschwindigkeiten, die Sie erwarten können:

ModellGrößeQuantisierungVRAM-VerbrauchGeschwindigkeitAm besten für
Qwen3 14B14B (dicht)Q4_K_M~9 GB9–12 Tok/SekBeste Gesamtqualität, die passt
Qwen3 8B8BQ4_K_M~7 GB16–20 Tok/SekCoding, Allrounder
Gemma 4 E12B26B MoEQ4_K_M~9 GB11–14 Tok/SekVision, multimodal
Mistral Small v0.37BQ4_K_M~7 GB18 Tok/SekInstruktionsbefolgung
DeepSeek-R1 7B7BQ4_K_M~7 GB10–12 Tok/SekReasoning, Mathematik
Gemma 4 E4BE4B (multimodal)Q4_K_M~5 GB18–22 Tok/SekLeichte Vision, schneller Chat
Llama 3.2 13B13BQ4_K_M~11 GB8–10 Tok/SekHöhere Chat-Qualität (nur Q4, knappe Passung)

Qwen3 14B (dicht) ist das qualitativ beste Modell, das bei Q4_K_M komfortabel auf eine RTX 3060 12GB passt und ca. 9 GB belegt. `ollama pull qwen3:14b`. Hinweis: Llama 4 Scout (MoE mit 17B aktiven / 109B Gesamt-Parametern, 10M-Token-Kontext, multimodal) benötigt bei Q4 ca. 55 GB und passt normalerweise nicht in 12 GB — es ist eine Wahl für Long-Context / große Multimodalität auf High-VRAM-Rigs, keine Budget-GPU-Empfehlung. gpt-oss:20b (21B gesamt / 3,6B aktiv MoE) benötigt 16 GB und liegt damit auf einer 12-GB-Karte knapp außer Reichweite. Alle Geschwindigkeiten gemessen mit Ollama auf RTX 3060 12GB, 16 GB System-RAM, Ryzen 7 7700X. Q4_K_M-Quantisierung. Geschwindigkeiten variieren um ±15 % je nach Prompt-Länge und Kontextfenster.

Was läuft auf der RTX 3060 6GB?

Die 6-GB-Variante ist stark eingeschränkt. Nur 3B-Modelle passen komfortabel. 7B-Modelle bei Q4 benötigen ca. 7 GB — mehr, als Sie haben. CPU-Offloading funktioniert, kostet aber 50–70 % Geschwindigkeit.

  • Phi-4 Mini 3.8B (Q4): ca. 3 GB VRAM, 20–25 Tok/Sek. Bestes Reasoning in dieser Größe. Stark bei Mathematik und Logik.
  • Llama 3.2 3B (Q4): ca. 2,5 GB VRAM, 25–35 Tok/Sek. Schnellste Option. Gut für einfachen Chat und Q&A.
  • Gemma 2 2B (Q4): ca. 1,7 GB VRAM, 35–45 Tok/Sek. Leichtestes Modell. Gut zum Testen von Setups.
  • 7B mit Offloading: Möglich, aber langsam. Llama 7B mit CPU-Offload = ca. 5–8 Tok/Sek. Nur für nicht-interaktive Batch-Arbeit brauchbar.
  • Empfehlung: Wenn Sie eine 6-GB-Karte haben, steigen Sie auf eine gebrauchte 12-GB-Karte um (200–250 €), bevor Sie Zeit in Workarounds investieren. Die Verbesserung bei Geschwindigkeit und Modellqualität ist es wert.

RTX 3060 vs. andere Budget-GPUs

GPUVRAMPreis (gebraucht)7B-GeschwindigkeitMax. ModellFazit
RTX 3060 12GB ★12 GB200–250 €15–20 Tok/Sek13B (Q4)Insgesamt bestes Budget
RTX 4060 Ti 8GB8 GB250–300 €20–25 Tok/Sek7B (max. Q5)Schneller, aber weniger VRAM
RTX A400016 GBca. 280–330 €12–15 Tok/Sek13B (Q5)Bestes VRAM pro Euro
RTX 4070 Super12 GB450–490 €25–30 Tok/Sek13B (Q5)Schneller, aber doppelter Preis
RX 6700 XT12 GB200–250 €10–14 Tok/Sek13B (Q4)Am günstigsten, AMD-Reibung

Die RTX 3060 12GB gewinnt beim Preis-Leistungs-Verhältnis: 12 GB VRAM für 200–250 € betreiben jedes 7B-Modell und die meisten 13B. Die RTX A4000 ist ein knapper Zweiter, wenn Sie eine unter ca. 300 € finden.

Wie viel VRAM brauchen Sie für 7B-Modelle?

7B-Modelle bei Q4 (4-Bit) quantisiert benötigen 6–8 GB VRAM; Q5 (5-Bit) benötigt 8–10 GB; Q8 (8-Bit) benötigt 14–16 GB.

In der Praxis: 8 GB sind das absolute Minimum für komfortable Inferenz bei 7B-Modellen mit Q4 und etwas Platz für Batch-Verarbeitung.

6-GB-Karten (RTX 2060) funktionieren technisch, erfordern aber aggressive Optimierung und lassen keinen Spielraum für höhere Batches.

Wenn Sie mit weniger als 8 GB VRAM auskommen müssen, können Sie lokale LLMs trotzdem effektiv betreiben — **siehe geschwindigkeitsoptimierte Modelle für 4–8 GB Hardware**.

Die GPU-Kosten sind die eine Seite der Wirtschaftlichkeit; die Token-Kosten die andere. Lokale Inferenz eliminiert API-Gebühren pro Token, aber die Prompt-Länge beeinflusst weiterhin Latenz und Durchsatz. Das vollständige Kostenbild — Tokens, Preisstufen und Optimierungsstrategien — finden Sie unter Tokens, Kosten und Limits: die Wirtschaftlichkeit von KI-Prompting.

Beste Modelle nach Anwendungsfall auf der RTX 3060

Wählen Sie Ihr Modell danach, was Sie tatsächlich brauchen, nicht nach Parameteranzahl. Hier die besten Optionen für jeden Anwendungsfall auf der RTX 3060 12GB:

Budget-Hardware betreibt kleinere Modelle — aber geschicktes Prompting schließt die Qualitätslücke. Der Prompt-Engineering-Leitfaden behandelt Techniken wie Chain-of-Thought und strukturierte Ausgabe, die kleineren Modellen helfen, über ihrer Gewichtsklasse zu spielen. Eine konkrete Arbeitslast, die in die RTX-3060-12-GB-Klasse passt, ist die automatisierte Pull-Request-Prüfung — siehe Lokales LLM-Code-Review in CI/CD für das GitHub-Actions-Muster, das Qwen3 8B genau auf dieser Hardware gegen PRs laufen lässt.

  • Chat / Q&A: `ollama run qwen3:14b` — dichtes 14B, ca. 9 GB VRAM, beste Qualität auf 12 GB. Für eine leichtere Option: `ollama run qwen3:8b` bei ca. 7 GB.
  • Coding: `ollama run qwen3:8b` — starkes Allround-Coding. ca. 7 GB VRAM. 16–20 Tok/Sek.
  • Reasoning / Mathematik: `ollama run deepseek-r1:7b` — Chain-of-Thought-Reasoning. 10–12 Tok/Sek. Langsamer, aber deutlich genauer bei mehrstufigen Problemen.
  • Schreiben / Kreativ: `ollama run mistral:7b` — Beste Instruktionsbefolgung. 18 Tok/Sek. Saubere, strukturierte Ausgabe. Gut für Entwürfe und Umformulierungen.
  • Vision / Bilder: `ollama run gemma4:e12b` — Multimodal (akzeptiert Bilder). 11–14 Tok/Sek. Belegt ca. 9 GB VRAM. Für eine leichtere Wahl `ollama run gemma4:e4b` bei ca. 5 GB. Fotos beschreiben, Screenshots lesen, Diagramme analysieren.
  • Datenschutz / Offline: Jedes der oben genannten. Alle laufen zu 100 % lokal. Keine Daten verlassen Ihren Rechner. Nach dem Modell-Download ist kein Internet erforderlich.
  • Heimautomatisierung / Always-on-KI: `ollama run phi4-mini` — Phi-4 Mini (3,8B, ca. 3 GB VRAM) bewältigt Home-Assistant-Sprachabfragen auf einem Mini-PC ohne dedizierte GPU. Siehe beste Hardware für lokale Smart-Home-KI →.

Gebraucht vs. neu: Wo sollten Sie kaufen?

  • Gebraucht (50–100 € günstiger): eBay, Kleinanzeigen, lokale Computer-Reparaturwerkstätten. Höheres Risiko defekter Karten oder fehlerhaften VRAMs. Vor dem Kauf immer testen.
  • Neu (280–400 €): Mindfactory, Amazon, MediaMarkt, Alternate. Garantie inklusive. Keine Überraschungen. Stabile Preise. Gut für risikoscheue Käufer.
  • Mining-Karten (Krypto, spottbillig): Extremes Risiko. VRAM-Degradation häufig. Nur kaufen, wenn Sie vor Ort vollständig benchen können.

Häufige Budget-GPU-Fehler

  • Eine 4-GB-RTX-2060 kaufen und reibungslose 7B-Inferenz erwarten — Sie werden ständig auf Out-of-Memory-Fehler stoßen.
  • Eine GPU für 250 € mit einem Netzteil für 30 € kombinieren — Spannungseinbrüche killen die Stabilität. Planen Sie 80+ Gold-zertifiziert, mindestens 650 W ein.
  • Annehmen, dass DDR5-RAM und eine i9-CPU die LLM-Inferenz beschleunigen — tun sie nicht. Die VRAM-Bandbreite der GPU ist der einzige Flaschenhals, der für die Inferenzgeschwindigkeit zählt.
  • Annehmen, dass Llama 4 Scout in 12 GB passt. Scout ist ein MoE mit 17B aktiven / 109B Gesamt-Parametern, das bei Q4 ca. 55 GB benötigt (es quetscht sich nur bei 1,78-Bit in 24 GB, ca. 20 Tok/s). Auf einer 12-GB-RTX-3060 betreiben Sie stattdessen dichte Modelle: Qwen3 14B (ca. 9 GB), Qwen3 8B oder Gemma 4 E12B.
  • Eine 16-GB-Karte nur für 13B-Modelle kaufen. Eine 12-GB-RTX-3060 betreibt Qwen3 14B bereits bei Q4. Steigen Sie nur auf 16 GB um, wenn Sie speziell gpt-oss:20b (16 GB), dichte 20B+-Modelle oder mehr Kontext-Spielraum benötigen.

Nächste Schritte

Häufig gestellte Fragen

Lohnt sich die RTX 3060 12GB 2026 noch?

Ja. Sie ist über 4 Jahre alt, aber 12 GB VRAM sind zeitlos. Betreibt Qwen3 14B, Qwen3 8B, Gemma 4 E12B und Mistral Small reibungslos bei Q4. Sie fasst jedes 7B-8B-Modell und die meisten dichten 13B-14B-Modelle.

Soll ich die RTX 5060 Ti oder RTX 4060 Ti für lokale LLMs kaufen?

RTX 5060 Ti. Die neuere Generation (2026) bietet 10–15 % mehr Leistung. Bei knappem Budget ist die RTX 4060 Ti weiterhin solide. Meiden Sie die Basis-4060/5060 (8 GB) und 4070 (12 GB) — schlechtes Preis-Leistungs-Verhältnis.

Kann ich stattdessen eine AMD RX 7900 XT oder RX 7900 XTX verwenden?

Ja, aber die Treiberunterstützung für AMD ist schwächer als NVIDIA + CUDA. Das HIP/ROCm-Setup erfordert mehr Aufwand. RTX ist für Einsteiger sicherer.

Reichen 12 GB VRAM für 13B-Modelle?

Knapp, bei Q4-Quantisierung. Q5 oder Q8 verursachen OOM-Fehler. Wenn Sie 13B komfortabel wollen, peilen Sie 16 GB an.

Soll ich eine gebrauchte Enterprise-GPU wie die RTX A4000 kaufen?

Ja, falls verfügbar. 16 GB VRAM, professionelle Kühlung, üblicherweise ca. 280–330 € gebraucht. Etwas langsamer als die RTX 3060, aber der VRAM-Puffer ist es wert.

Welche Netzteil-Wattzahl sollte ich zu einer GPU für 250 € kaufen?

650 W, mindestens 80+ Gold. Eine GPU für 250 € + CPU + Mainboard überschreitet keine 400 W Aufnahme, aber Sie wollen Spielraum für Spitzen.

Kann ich Ollama mit einer Budget-GPU für 200 € betreiben?

Ja. Ollama ist schlank. Eine 4 Jahre alte RTX 3060 mit Ollama betreibt Qwen3 14B mit 9–12 Tok/Sek oder Qwen3 8B mit 16–20 Tok/Sek — völlig brauchbar für interaktiven Chat und Coding-Unterstützung.

Kann ich Llama 4 Scout auf einer RTX 3060 12GB betreiben?

Normalerweise nicht. Llama 4 Scout ist ein MoE mit 17B aktiven / 109B Gesamt-Parametern, das bei Q4 ca. 55 GB VRAM benötigt — weit jenseits einer 12-GB-Karte. Es quetscht sich nur bei einer extremen 1,78-Bit-Quantisierung in 24 GB (ca. 20 Tok/Sek). Auf einer RTX 3060 12GB betreiben Sie stattdessen dichte Modelle: `ollama pull qwen3:14b` (beste Qualität, die passt), Qwen3 8B oder Gemma 4 E12B. Scout ist eine Wahl für Long-Context (10M-Token) / große Multimodalität für Rigs mit 48 GB+.

Weiterführende Artikel

Quellen

  • Meta AI. (2025). „Llama 4 Model Card." — Scout-MoE-Architektur, VRAM-Anforderungen
  • Qwen Team. (2026). „Qwen3 Technical Report." — Qwen3-8B-Spezifikationen
  • TechPowerUp GPU-Datenbank: RTX 3060 / RTX 4060 Ti / RTX 4070 Super Spezifikationen und Leistungsaufnahme
  • NVIDIA CUDA Capability Matrix: GPU-Speicherbandbreite und theoretischer Durchsatz für Inferenz-Workloads
  • Ollama Model Requirements: VRAM-Empfehlungen für Llama 4 Scout, Qwen3 und Mistral Small Quantisierungsstufen
  • Compliance-Frameworks erfordern auditierbare Workflows. Etablieren Sie Governance-Standards für KI-Prompt-Qualität und -Review: Prompt-Governance in der Produktion behandelt Richtlinien, Versionskontrolle und Freigabeprozesse.

GPU besorgt? Wählen Sie jetzt die passende Software, um Modelle darauf auszuführen.

Beste lokale LLM-Frontends 2026 →

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs