Wichtigste Erkenntnisse
- Beste Wahl nach Budget: Unter 200 € — RX 6700 XT 12GB (200–250 €, am günstigsten, AMD-Setup-Reibung) oder RTX A4000 16GB, falls unter ca. 300 € zu finden (bestes VRAM pro Euro). Ca. 250 € — RTX 3060 12GB (insgesamt am besten). Unter 500 € — RTX 4070 Super 12GB (am schnellsten mit 25–30 Tok/s).
- RTX 3060 12GB (200–250 € gebraucht): Betreibt jedes 7B-8B-Modell bei Q4/Q5 und die meisten dichten 13B-14B bei Q4. Beste Budget-Wahl.
- RTX 3060 6GB: Auf 3B-Modelle beschränkt (Phi-4 Mini, Llama 3.2 3B). Zu knapp für 7B.
- Bestes Gesamtmodell auf 12 GB: Qwen3 14B bei ca. 9 GB VRAM, 9–12 Tok/Sek. Beste dichte Qualität, die komfortabel passt.
- Bestes Coding-Modell auf 12 GB: Qwen3 8B mit 16–20 Tok/Sek.
- Bestes Reasoning-Modell auf 12 GB: DeepSeek-R1 7B mit 10–12 Tok/Sek. Chain-of-Thought.
- Überspringen, wenn: Sie 70B-Modelle, Llama 4 Scout (benötigt ca. 55 GB) oder 13B bei Q8 wollen — dann brauchen Sie 24 GB+ (RTX 4090).
Was läuft auf der RTX 3060 12GB?
Die RTX 3060 12GB ist 2026 die beste Budget-GPU für lokale LLMs. 12 GB VRAM fassen jedes 7B-Modell bei Q4/Q5-Quantisierung und die meisten 13B-Modelle bei Q4. Eine detaillierte Anleitung zu VRAM-Anforderungen über alle Modellgrößen hinweg finden Sie im VRAM-Anforderungs-Leitfaden →. Hier die genauen Modelle und Geschwindigkeiten, die Sie erwarten können:
| Modell | Größe | Quantisierung | VRAM-Verbrauch | Geschwindigkeit | Am besten für |
|---|---|---|---|---|---|
| Qwen3 14B | 14B (dicht) | Q4_K_M | ~9 GB | 9–12 Tok/Sek | Beste Gesamtqualität, die passt |
| Qwen3 8B | 8B | Q4_K_M | ~7 GB | 16–20 Tok/Sek | Coding, Allrounder |
| Gemma 4 E12B | 26B MoE | Q4_K_M | ~9 GB | 11–14 Tok/Sek | Vision, multimodal |
| Mistral Small v0.3 | 7B | Q4_K_M | ~7 GB | 18 Tok/Sek | Instruktionsbefolgung |
| DeepSeek-R1 7B | 7B | Q4_K_M | ~7 GB | 10–12 Tok/Sek | Reasoning, Mathematik |
| Gemma 4 E4B | E4B (multimodal) | Q4_K_M | ~5 GB | 18–22 Tok/Sek | Leichte Vision, schneller Chat |
| Llama 3.2 13B | 13B | Q4_K_M | ~11 GB | 8–10 Tok/Sek | Höhere Chat-Qualität (nur Q4, knappe Passung) |
Qwen3 14B (dicht) ist das qualitativ beste Modell, das bei Q4_K_M komfortabel auf eine RTX 3060 12GB passt und ca. 9 GB belegt. `ollama pull qwen3:14b`. Hinweis: Llama 4 Scout (MoE mit 17B aktiven / 109B Gesamt-Parametern, 10M-Token-Kontext, multimodal) benötigt bei Q4 ca. 55 GB und passt normalerweise nicht in 12 GB — es ist eine Wahl für Long-Context / große Multimodalität auf High-VRAM-Rigs, keine Budget-GPU-Empfehlung. gpt-oss:20b (21B gesamt / 3,6B aktiv MoE) benötigt 16 GB und liegt damit auf einer 12-GB-Karte knapp außer Reichweite. Alle Geschwindigkeiten gemessen mit Ollama auf RTX 3060 12GB, 16 GB System-RAM, Ryzen 7 7700X. Q4_K_M-Quantisierung. Geschwindigkeiten variieren um ±15 % je nach Prompt-Länge und Kontextfenster.
Was läuft auf der RTX 3060 6GB?
Die 6-GB-Variante ist stark eingeschränkt. Nur 3B-Modelle passen komfortabel. 7B-Modelle bei Q4 benötigen ca. 7 GB — mehr, als Sie haben. CPU-Offloading funktioniert, kostet aber 50–70 % Geschwindigkeit.
- Phi-4 Mini 3.8B (Q4): ca. 3 GB VRAM, 20–25 Tok/Sek. Bestes Reasoning in dieser Größe. Stark bei Mathematik und Logik.
- Llama 3.2 3B (Q4): ca. 2,5 GB VRAM, 25–35 Tok/Sek. Schnellste Option. Gut für einfachen Chat und Q&A.
- Gemma 2 2B (Q4): ca. 1,7 GB VRAM, 35–45 Tok/Sek. Leichtestes Modell. Gut zum Testen von Setups.
- 7B mit Offloading: Möglich, aber langsam. Llama 7B mit CPU-Offload = ca. 5–8 Tok/Sek. Nur für nicht-interaktive Batch-Arbeit brauchbar.
- Empfehlung: Wenn Sie eine 6-GB-Karte haben, steigen Sie auf eine gebrauchte 12-GB-Karte um (200–250 €), bevor Sie Zeit in Workarounds investieren. Die Verbesserung bei Geschwindigkeit und Modellqualität ist es wert.
RTX 3060 vs. andere Budget-GPUs
| GPU | VRAM | Preis (gebraucht) | 7B-Geschwindigkeit | Max. Modell | Fazit |
|---|---|---|---|---|---|
| RTX 3060 12GB ★ | 12 GB | 200–250 € | 15–20 Tok/Sek | 13B (Q4) | Insgesamt bestes Budget |
| RTX 4060 Ti 8GB | 8 GB | 250–300 € | 20–25 Tok/Sek | 7B (max. Q5) | Schneller, aber weniger VRAM |
| RTX A4000 | 16 GB | ca. 280–330 € | 12–15 Tok/Sek | 13B (Q5) | Bestes VRAM pro Euro |
| RTX 4070 Super | 12 GB | 450–490 € | 25–30 Tok/Sek | 13B (Q5) | Schneller, aber doppelter Preis |
| RX 6700 XT | 12 GB | 200–250 € | 10–14 Tok/Sek | 13B (Q4) | Am günstigsten, AMD-Reibung |
Die RTX 3060 12GB gewinnt beim Preis-Leistungs-Verhältnis: 12 GB VRAM für 200–250 € betreiben jedes 7B-Modell und die meisten 13B. Die RTX A4000 ist ein knapper Zweiter, wenn Sie eine unter ca. 300 € finden.
Wie viel VRAM brauchen Sie für 7B-Modelle?
7B-Modelle bei Q4 (4-Bit) quantisiert benötigen 6–8 GB VRAM; Q5 (5-Bit) benötigt 8–10 GB; Q8 (8-Bit) benötigt 14–16 GB.
In der Praxis: 8 GB sind das absolute Minimum für komfortable Inferenz bei 7B-Modellen mit Q4 und etwas Platz für Batch-Verarbeitung.
6-GB-Karten (RTX 2060) funktionieren technisch, erfordern aber aggressive Optimierung und lassen keinen Spielraum für höhere Batches.
Wenn Sie mit weniger als 8 GB VRAM auskommen müssen, können Sie lokale LLMs trotzdem effektiv betreiben — **siehe geschwindigkeitsoptimierte Modelle für 4–8 GB Hardware**.
Die GPU-Kosten sind die eine Seite der Wirtschaftlichkeit; die Token-Kosten die andere. Lokale Inferenz eliminiert API-Gebühren pro Token, aber die Prompt-Länge beeinflusst weiterhin Latenz und Durchsatz. Das vollständige Kostenbild — Tokens, Preisstufen und Optimierungsstrategien — finden Sie unter Tokens, Kosten und Limits: die Wirtschaftlichkeit von KI-Prompting.
Beste Modelle nach Anwendungsfall auf der RTX 3060
Wählen Sie Ihr Modell danach, was Sie tatsächlich brauchen, nicht nach Parameteranzahl. Hier die besten Optionen für jeden Anwendungsfall auf der RTX 3060 12GB:
Budget-Hardware betreibt kleinere Modelle — aber geschicktes Prompting schließt die Qualitätslücke. Der Prompt-Engineering-Leitfaden behandelt Techniken wie Chain-of-Thought und strukturierte Ausgabe, die kleineren Modellen helfen, über ihrer Gewichtsklasse zu spielen. Eine konkrete Arbeitslast, die in die RTX-3060-12-GB-Klasse passt, ist die automatisierte Pull-Request-Prüfung — siehe Lokales LLM-Code-Review in CI/CD für das GitHub-Actions-Muster, das Qwen3 8B genau auf dieser Hardware gegen PRs laufen lässt.
- Chat / Q&A: `ollama run qwen3:14b` — dichtes 14B, ca. 9 GB VRAM, beste Qualität auf 12 GB. Für eine leichtere Option: `ollama run qwen3:8b` bei ca. 7 GB.
- Coding: `ollama run qwen3:8b` — starkes Allround-Coding. ca. 7 GB VRAM. 16–20 Tok/Sek.
- Reasoning / Mathematik: `ollama run deepseek-r1:7b` — Chain-of-Thought-Reasoning. 10–12 Tok/Sek. Langsamer, aber deutlich genauer bei mehrstufigen Problemen.
- Schreiben / Kreativ: `ollama run mistral:7b` — Beste Instruktionsbefolgung. 18 Tok/Sek. Saubere, strukturierte Ausgabe. Gut für Entwürfe und Umformulierungen.
- Vision / Bilder: `ollama run gemma4:e12b` — Multimodal (akzeptiert Bilder). 11–14 Tok/Sek. Belegt ca. 9 GB VRAM. Für eine leichtere Wahl `ollama run gemma4:e4b` bei ca. 5 GB. Fotos beschreiben, Screenshots lesen, Diagramme analysieren.
- Datenschutz / Offline: Jedes der oben genannten. Alle laufen zu 100 % lokal. Keine Daten verlassen Ihren Rechner. Nach dem Modell-Download ist kein Internet erforderlich.
- Heimautomatisierung / Always-on-KI: `ollama run phi4-mini` — Phi-4 Mini (3,8B, ca. 3 GB VRAM) bewältigt Home-Assistant-Sprachabfragen auf einem Mini-PC ohne dedizierte GPU. Siehe beste Hardware für lokale Smart-Home-KI →.
Gebraucht vs. neu: Wo sollten Sie kaufen?
- Gebraucht (50–100 € günstiger): eBay, Kleinanzeigen, lokale Computer-Reparaturwerkstätten. Höheres Risiko defekter Karten oder fehlerhaften VRAMs. Vor dem Kauf immer testen.
- Neu (280–400 €): Mindfactory, Amazon, MediaMarkt, Alternate. Garantie inklusive. Keine Überraschungen. Stabile Preise. Gut für risikoscheue Käufer.
- Mining-Karten (Krypto, spottbillig): Extremes Risiko. VRAM-Degradation häufig. Nur kaufen, wenn Sie vor Ort vollständig benchen können.
Häufige Budget-GPU-Fehler
- Eine 4-GB-RTX-2060 kaufen und reibungslose 7B-Inferenz erwarten — Sie werden ständig auf Out-of-Memory-Fehler stoßen.
- Eine GPU für 250 € mit einem Netzteil für 30 € kombinieren — Spannungseinbrüche killen die Stabilität. Planen Sie 80+ Gold-zertifiziert, mindestens 650 W ein.
- Annehmen, dass DDR5-RAM und eine i9-CPU die LLM-Inferenz beschleunigen — tun sie nicht. Die VRAM-Bandbreite der GPU ist der einzige Flaschenhals, der für die Inferenzgeschwindigkeit zählt.
- Annehmen, dass Llama 4 Scout in 12 GB passt. Scout ist ein MoE mit 17B aktiven / 109B Gesamt-Parametern, das bei Q4 ca. 55 GB benötigt (es quetscht sich nur bei 1,78-Bit in 24 GB, ca. 20 Tok/s). Auf einer 12-GB-RTX-3060 betreiben Sie stattdessen dichte Modelle: Qwen3 14B (ca. 9 GB), Qwen3 8B oder Gemma 4 E12B.
- Eine 16-GB-Karte nur für 13B-Modelle kaufen. Eine 12-GB-RTX-3060 betreibt Qwen3 14B bereits bei Q4. Steigen Sie nur auf 16 GB um, wenn Sie speziell gpt-oss:20b (16 GB), dichte 20B+-Modelle oder mehr Kontext-Spielraum benötigen.
Nächste Schritte
- Beste AMD-GPUs für lokale LLMs — AMD in Betracht ziehen? Vollständiger AMD-vs-NVIDIA-Vergleich →
- Beste Open-Source-Ollama-Modelle — Welche Modelle laufen am besten auf einer Budget-GPU? →
- Wie viel VRAM brauche ich? — GPU-VRAM auf Modellgröße abstimmen →
Häufig gestellte Fragen
Lohnt sich die RTX 3060 12GB 2026 noch?
Ja. Sie ist über 4 Jahre alt, aber 12 GB VRAM sind zeitlos. Betreibt Qwen3 14B, Qwen3 8B, Gemma 4 E12B und Mistral Small reibungslos bei Q4. Sie fasst jedes 7B-8B-Modell und die meisten dichten 13B-14B-Modelle.
Soll ich die RTX 5060 Ti oder RTX 4060 Ti für lokale LLMs kaufen?
RTX 5060 Ti. Die neuere Generation (2026) bietet 10–15 % mehr Leistung. Bei knappem Budget ist die RTX 4060 Ti weiterhin solide. Meiden Sie die Basis-4060/5060 (8 GB) und 4070 (12 GB) — schlechtes Preis-Leistungs-Verhältnis.
Kann ich stattdessen eine AMD RX 7900 XT oder RX 7900 XTX verwenden?
Ja, aber die Treiberunterstützung für AMD ist schwächer als NVIDIA + CUDA. Das HIP/ROCm-Setup erfordert mehr Aufwand. RTX ist für Einsteiger sicherer.
Reichen 12 GB VRAM für 13B-Modelle?
Knapp, bei Q4-Quantisierung. Q5 oder Q8 verursachen OOM-Fehler. Wenn Sie 13B komfortabel wollen, peilen Sie 16 GB an.
Soll ich eine gebrauchte Enterprise-GPU wie die RTX A4000 kaufen?
Ja, falls verfügbar. 16 GB VRAM, professionelle Kühlung, üblicherweise ca. 280–330 € gebraucht. Etwas langsamer als die RTX 3060, aber der VRAM-Puffer ist es wert.
Welche Netzteil-Wattzahl sollte ich zu einer GPU für 250 € kaufen?
650 W, mindestens 80+ Gold. Eine GPU für 250 € + CPU + Mainboard überschreitet keine 400 W Aufnahme, aber Sie wollen Spielraum für Spitzen.
Kann ich Ollama mit einer Budget-GPU für 200 € betreiben?
Ja. Ollama ist schlank. Eine 4 Jahre alte RTX 3060 mit Ollama betreibt Qwen3 14B mit 9–12 Tok/Sek oder Qwen3 8B mit 16–20 Tok/Sek — völlig brauchbar für interaktiven Chat und Coding-Unterstützung.
Kann ich Llama 4 Scout auf einer RTX 3060 12GB betreiben?
Normalerweise nicht. Llama 4 Scout ist ein MoE mit 17B aktiven / 109B Gesamt-Parametern, das bei Q4 ca. 55 GB VRAM benötigt — weit jenseits einer 12-GB-Karte. Es quetscht sich nur bei einer extremen 1,78-Bit-Quantisierung in 24 GB (ca. 20 Tok/Sek). Auf einer RTX 3060 12GB betreiben Sie stattdessen dichte Modelle: `ollama pull qwen3:14b` (beste Qualität, die passt), Qwen3 8B oder Gemma 4 E12B. Scout ist eine Wahl für Long-Context (10M-Token) / große Multimodalität für Rigs mit 48 GB+.
Weiterführende Artikel
- AMD Ryzen AI Max+ Mini-PCs (2026) — Alternative zu dedizierten GPUs: iGPU + 50-TOPS-NPU für 1.200–2.500 €.
- Wie viel VRAM für lokale LLMs
- RTX 5090 vs. RTX 4090
- Gebrauchte GPUs für lokale LLMs
- Beste GPUs für lokale LLMs
- VRAM-Rechner
- Laptop vs. Desktop für lokale LLMs — Vollständiger Plattformvergleich: GPU-Desktop vs. MacBook für lokale LLMs.
- Prompt Engineering für lokale LLMs — Prompts für Modelle auf Budget-Hardware optimieren.
- Chain-of-Thought-Prompting — verbessert die Ausgabequalität von DeepSeek-R1 deutlich.
- Mac Mini M5 als lokaler KI-Server — Budget-Alternative zu GPU-Builds: Always-on-KI für ca. 599 € Hardware + ca. 35 €/Jahr Strom.
- Apple Silicon M5 für lokale LLMs — Vollständiger M5-Pro/Max-Leitfaden: Benchmarks, Mac-Konfigurationen, Speicherstufen und welchen Mac man für lokale Inferenz kaufen sollte.
- Apple Silicon vs. NVIDIA-GPU für lokale LLMs — Vollständiger Kosten- und Leistungsvergleich: wann ein Mac eine Budget-GPU schlägt.
- Beste Modelle für Apple Silicon 2026 — Modellempfehlungen für 16-GB- bis 128-GB-Unified-Memory-Stufen.
- Melhores GPUs Econômicas para LLMs Locais (Português) — versão em português deste guia
- Für Japan-spezifische GPU-Preise, Akihabara-Händler und Gebrauchtmarkt-Optionen auf Mercari und Yahoo Auctions siehe unseren <a href="/prompt-bites/best-gpu-local-llm-japan-price" class="text-primary hover:underline">Leitfaden zur preiswertesten GPU für lokale LLMs in Japan</a>.
Quellen
- Meta AI. (2025). „Llama 4 Model Card." — Scout-MoE-Architektur, VRAM-Anforderungen
- Qwen Team. (2026). „Qwen3 Technical Report." — Qwen3-8B-Spezifikationen
- TechPowerUp GPU-Datenbank: RTX 3060 / RTX 4060 Ti / RTX 4070 Super Spezifikationen und Leistungsaufnahme
- NVIDIA CUDA Capability Matrix: GPU-Speicherbandbreite und theoretischer Durchsatz für Inferenz-Workloads
- Ollama Model Requirements: VRAM-Empfehlungen für Llama 4 Scout, Qwen3 und Mistral Small Quantisierungsstufen
- Compliance-Frameworks erfordern auditierbare Workflows. Etablieren Sie Governance-Standards für KI-Prompt-Qualität und -Review: Prompt-Governance in der Produktion behandelt Richtlinien, Versionskontrolle und Freigabeprozesse.