RTX 3060 12GB führt Llama 4 Scout 17B (MoE) mit 12–16 Tok/Sek, Qwen3 8B mit 16–20 Tok/Sek, Mistral 7B mit 18 Tok/Sek und DeepSeek-R1 7B mit 10–12 Tok/Sek aus — alles bei Q4-Quantisierung. Die 6-GB-Variante ist auf 3B-Modelle beschränkt. Stand Mai 2026 bleibt die RTX 3060 12GB (150–190 € gebraucht) die beste Budget-GPU für lokale LLMs: 12 GB VRAM passt für jedes 7B-Modell und die meisten 13B-Modelle bei Q4, plus Llama 4 Scout (MoE) die Qualität weit über dichten 7B-8B-Modellen bei ähnlichem VRAM liefert.

Wichtigste Erkenntnisse

RTX 3060 12GB (150–190 € gebraucht): Führt jedes 7B-Modell und die meisten 13B bei Q4 aus. Plus Llama 4 Scout (MoE) bei ~10 GB — beste Gesamtqualität.
RTX 3060 6GB: Beschränkt auf 3B-Modelle (Phi-4 Mini, Llama 3.2 3B). Zu knapp für 7B.
Bestes Gesamtmodell auf 12GB: Llama 4 Scout 17B (MoE) bei ~10 GB VRAM, 12–16 Tok/Sek. Liefert Qualität vergleichbar mit dichten 30B-Modellen.
Bestes Coding-Modell auf 12GB: Qwen3 8B mit 16–20 Tok/Sek. Verbesserung gegenüber Qwen3.
Bestes Reasoning-Modell auf 12GB: DeepSeek-R1 7B mit 10–12 Tok/Sek.
Überspringen wenn: Sie 70B-Modelle oder 13B bei Q8 wollen — dafür brauchen Sie 24GB (RTX 4090).

Was kann man auf RTX 3060 12GB ausführen?

Die RTX 3060 12GB ist die beste Budget-GPU für lokale LLMs 2026. 12 GB VRAM passt für jedes 7B-Modell bei Q4/Q5 und die meisten 13B-Modelle bei Q4. Für detaillierte Anleitung zu VRAM-Anforderungen bei verschiedenen Modellgrößen siehe den VRAM-Anforderungsleitfaden →. Hier sind die genauen Modelle und Geschwindigkeiten, die Sie erwarten können:

Modell	Größe	Quantisierung	VRAM	Geschwindigkeit	Ideal für
Llama 4 Scout 17B	17B aktiv (109B MoE)	Q4_K_M	~10 GB	12–16 Tok/Sek	Beste Gesamtqualität (MoE)
Llama 3.2 7B	7B	Q4_K_M	~7 GB	15–20 Tok/Sek	Chat, Frage-Antwort (Legacy)
Mistral 7B v0.3	7B	Q4_K_M	~7 GB	18 Tok/Sek	Instruktionsfolge
Qwen3 8B	8B	Q4_K_M	~7 GB	16–20 Tok/Sek	Coding (Verbesserung zu Qwen2.5)
DeepSeek-R1 7B	7B	Q4_K_M	~7 GB	10–12 Tok/Sek	Reasoning, Mathematik
Gemma 4 9B	9B	Q4_K_M	~8 GB	12–15 Tok/Sek	Vision, multimodal
Llama 3.2 13B	13B	Q4_K_M	~11 GB	8–10 Tok/Sek	Höhere Chat-Qualität (Q4 nur, knapp)

Llama 4 Scout ist die größte Verbesserung für RTX 3060 12GB-Besitzer 2026. Seine MoE-Architektur bedeutet, dass nur 17B Parameter pro Token aktiv sind (von 109B insgesamt), was eine Qualität weit über dichten 7B-8B-Modellen bei ähnlichem VRAM-Verbrauch liefert. `ollama pull llama4:scout`. Alle Geschwindigkeiten gemessen mit Ollama auf RTX 3060 12GB, 16 GB System-RAM, Ryzen 7 7700X. Q4_K_M-Quantisierung. Geschwindigkeiten variieren ±15%.

Was kann man auf RTX 3060 6GB ausführen?

Die 6-GB-Variante ist stark eingeschränkt. Nur 3B-Modelle passen komfortabel. 7B-Modelle bei Q4 brauchen ~7 GB — mehr als vorhanden.

Phi-4 Mini 3.8B (Q4): ~3 GB VRAM, 20–25 Tok/Sek. Bestes Reasoning in dieser Größe.
Llama 3.2 3B (Q4): ~2,5 GB VRAM, 25–35 Tok/Sek. Schnellste Option. Gut für einfachen Chat.
Gemma 2 2B (Q4): ~1,7 GB VRAM, 35–45 Tok/Sek. Leichtestes Modell. Gut zum Testen.
7B mit Offloading: Möglich aber langsam. Llama 7B mit CPU-Offload = ~5–8 Tok/Sek.
Empfehlung: Wenn Sie eine 6-GB-Karte haben, upgraden Sie auf 12 GB gebraucht (200–250 $).

Welches GPU-Budget sollten Sie einplanen?

Für ein funktionsfähiges lokales LLM-System planen Sie €500-750 Gesamtsystemkosten, mit GPU = 30-40% dieses Budgets (~€150-300).

Eine €150-GPU mit einer €30-CPU erzeugt Engpässe. Eine €1.500-GPU mit €20-Mainboard verschwendet Geld.

Ab April 2026 liegt der Performance-pro-Euro-Spitzenwert im €150-250-Bereich (RTX 3060-4070 Super gebraucht).

RTX 3060 vs andere Budget-GPUs

GPU	VRAM	Preis (Gebraucht)	7B Geschwindigkeit	Max. Modell	Fazit
RTX 3060 12GB ★	12 GB	180–230 €	15–20 Tok/Sek	13B (Q4)	Beste Budget-Wahl
RTX 4060 Ti 8GB	8 GB	230–280 €	20–25 Tok/Sek	7B (Q5 max)	Schneller, weniger VRAM
RTX A4000	16 GB	160–210 €	12–15 Tok/Sek	13B (Q5)	Bestes VRAM pro Euro
RTX 4070 Super	12 GB	370–420 €	25–30 Tok/Sek	13B (Q5)	Schneller, 2× Preis
RX 6700 XT	12 GB	130–180 €	10–14 Tok/Sek	13B (Q4)	Billigste, AMD-Aufwand

RTX 3060 12GB gewinnt beim Preis-Leistungs-Verhältnis: 12 GB VRAM für 180–230 € führt jedes 7B-Modell und die meisten 13B aus.

Welches Modell ist für jeden Anwendungsfall am besten?

Codierung (Qwen 2.5 7B): Qwen 2.5 7B ist exzellent bei Code-Generierung und Reasoning. Benötigt RTX 3060 12GB oder RTX 4060 Ti 8GB. Ideal auf RTX A6000 Enterprise-Karten, falls verfügbar für 32B+-Modelle.

Englisch-Reasoning (Llama 3.3): Llama 3.3 ist das beste Universalmodell für faktengestütztes Reasoning. Llama 3.3 70B benötigt 48GB VRAM (RTX 6000 oder A100). 7B-Version passt auf jede 8GB+ GPU.

Leichte lokale Nutzung (Mistral 7B): Mistral 7B ist das leichteste hochwertige Modell. Lässt sich bequem auf RTX 3060 12GB oder RTX 4060 Ti 8GB ausführen. Perfekt für Notebook-Inferenz.

Welche Modelle gewinnen nach Anwendungsfall?

✅ Bestes insgesamt: Llama 3.3 (offen, fähig, weit optimiert)

✅ Bestes für Codierung: Qwen 2.5 (spezialisiert auf Code-Verständnis)

✅ Bestes leichtgewichtig: Mistral 7B (minimales VRAM, schnelle Inferenz)

✅ Beste Budget-GPU: RTX 3060 12GB (€150-190 gebraucht)

Modellvergleich: Welches Modell gewinnt?

Modell	Am besten für	Stärke	Schwäche	Min VRAM (Q4)
Qwen 2.5 7B	Codierung	Ausgezeichnete Code-Genauigkeit, mehrsprachiges Reasoning	Schwächer bei reinem englischen Reasoning vs. Llama	6-8 GB
Llama 3.3 8B	Reasoning	Starkes Universalmodell, faktengestütztes Reasoning	Schwerer als Mistral, mehr VRAM erforderlich	8-10 GB
Mistral 7B	Effizienz	Schnellste Inferenz, minimales VRAM, leichtgewichtig	Weniger fähig als Llama/Qwen bei komplexen Aufgaben	6-8 GB

Wie viel VRAM benötigen Sie für 7B-Modelle?

7B-Modelle, quantisiert bei Q4 (4-bit), benötigen 6-8GB VRAM; Q5 (5-bit) benötigt 8-10GB; Q8 (8-bit) benötigt 14-16GB.

In der Praxis: 8GB ist das Minimum für komfortable Inferenz auf 7B-Modellen bei Q4 mit Platz für Batch-Verarbeitung.

6GB-Karten (RTX 2060) funktionieren technisch, erfordern aber aggressive Optimierung und lassen keinen Spielraum für höhere Batches.

GPU-Kosten sind eine Seite der Wirtschaftlichkeit; Token-Kosten die andere. Lokale Inferenz eliminiert API-Kosten pro Token, aber die Prompt-Länge beeinflusst weiterhin Latenz und Durchsatz. Das vollständige Kostenbild — Tokens, Preisstufen und Optimierungsstrategien — finden Sie unter Tokens, Kosten und Grenzen: die Wirtschaftlichkeit von KI-Prompting.

Beste Modelle nach Anwendungsfall auf RTX 3060

Wählen Sie Ihr Modell basierend auf Ihrem Bedarf, nicht nach Parameterzahl:

Budget-Hardware läuft kleinere Modelle — aber gezieltes Prompting schließt die Qualitätslücke. Der Prompt-Engineering-Guide deckt Techniken wie Chain-of-Thought und strukturierte Ausgaben ab, die kleineren Modellen helfen, über ihrem Gewicht zu boxen. Ein konkreter Workload, der genau auf die RTX 3060 12 GB passt, ist automatisierter Pull-Request-Review — siehe Lokales LLM-Code-Review in CI/CD für das GitHub-Actions-Muster, das Qwen3 8B auf genau dieser Hardware gegen PRs laufen lässt.

Chat / Frage-Antwort: `ollama run llama4:scout` — MoE, ~10 GB VRAM, beste Qualität auf 12 GB. Für leichtere Option: `ollama run llama3.2:3b` bei 2,5 GB.
Coding: `ollama run qwen3:8b` — Verbesserte Coding-Leistung gegenüber Qwen3. 5 GB VRAM. 16–20 Tok/Sek.
Reasoning / Mathematik: `ollama run deepseek-r1:7b` — Chain-of-Thought. 10–12 Tok/Sek.
Schreiben / Kreativ: `ollama run mistral:7b` — Beste Instruktionsfolge. 18 Tok/Sek.
Vision / Bilder: `ollama run gemma4:9b` — Multimodal (Bilder). 12–15 Tok/Sek. ~8 GB VRAM.
Datenschutz / Offline: Alle oben genannten. 100% lokal. Keine Daten verlassen Ihr Gerät.

Gebraucht vs. Neu: Wo sollten Sie kaufen?

Gebraucht (€30-60 billiger): eBay, Facebook Marketplace, Craigslist, lokale Computerreparaturwerkstätten. Höheres Risiko defekter Karten oder schlechtem VRAM. Immer vor Festlegung testen.
Neu (€220-350): Amazon.de, Cyberport, Mindfactory, lokale Elektronikfachgeschäfte. Garantie inklusive. Keine Überraschungen. Preise stabil. Gut für risikoscheue Käufer.
Mined-Karten (Krypto, super günstig): Extremes Risiko. VRAM-Degradation häufig. Nur kaufen, wenn Sie vor Ort vollständig testen können.

Welche Budget-GPU-Fehler sollten Sie vermeiden?

Kauf einer 4GB RTX 2060 und Erwartung reibungsloser 7B-Inferenz--Sie erhalten ständig Out-of-Memory-Fehler.
Pairing einer €150-GPU mit einem €20-Netzteil--Spannungsabfall tötet Stabilität. Budget 80+ Gold-zertifiziert, 550W Minimum.
Annahme, dass DDR5-RAM und i9-CPU die LLM-Inferenz beschleunigen--das tun sie nicht. GPU-VRAM-Bandbreite ist der einzige Engpass, der Inferenzgeschwindigkeit beeinflusst.
Nicht versuchen, Llama 4 Scout auf 12 GB VRAM auszuführen. Viele RTX 3060-Besitzer nehmen an, sie sind auf 7B-8B dichte Modelle begrenzt. Llama 4 Scout (MoE, 17B aktiv / 109B insgesamt) passt bei ~10 GB und liefert Qualität vergleichbar mit dichten 30B-Modellen. Wenn Sie 12 GB VRAM haben und Scout noch nicht versucht haben, unternutzen Sie Ihre Hardware erheblich.
Kauf einer 16 GB-Karte nur für 13B-Modelle. Mit Llama 4 Scout verfügbar bei ~10 GB ist das 12→16 GB-Upgrade weniger notwendig als noch vor sechs Monaten. Upgraden Sie nur auf 16 GB, wenn Sie spezifisch Llama 3.1 70B, Mistral Small 3.1 oder andere dichte 20B+-Modelle benötigen.

Welche Budget-GPU sollten Sie kaufen?

Für Codierungsaufgaben: Wählen Sie RTX 3060 12GB oder RTX A4000 (16GB) + Qwen 2.5 7B. Sie erhalten starke Code-Generierung ohne Überausgaben.

Für allgemeines Reasoning: Wählen Sie RTX 4060 Ti 8GB oder RTX 3060 12GB + Llama 3.3 7B. Bestes Gleichgewicht aus Kosten und Fähigkeiten.

Für leichte lokale Setups: Wählen Sie RTX 4060 Ti 8GB + Mistral 7B. Schnellste Inferenz, niedrigster Stromverbrauch, minimales VRAM-Fußabdruck.

Gesamtempfehlung: RTX 3060 12GB (gebraucht, €150-190) ist unschlagbarer Wert. Passt zu allen 7B-13B-Modellen, hat 12GB VRAM-Puffer und kostet weniger als neue Entry-Level-Karten.

Häufig gestellte Fragen

Ist RTX 3060 12GB noch 2026 wert?

Ja. Sie ist 4+ Jahre alt, aber 12GB VRAM ist zeitlos. Lädt Llama 4 Scout 17B (MoE), Qwen3 8B und Mistral 7B reibungslos. Die MoE-Architektur von Llama 4 Scout bedeutet, 12 GB VRAM ist jetzt genug für Modellqualität, die früher 16+ GB erforderte.

Sollte ich RTX 4060 oder RTX 4060 Ti für lokale LLMs kaufen?

RTX 4060 Ti. Das Base-4060 (8GB) und 4070 (12GB) sind schlechtes Preis-Leistungs-Verhältnis. Das Ti ist die beste Preis-RTX-40er-Serie für LLM-Arbeiten.

Kann ich stattdessen eine AMD RX 6700 oder 6800 XT verwenden?

Ja, aber Driver-Support für ONNX Runtime auf AMD ist schwächer als NVIDIA + CUDA. Erwarten Sie mehr Setup-Reibung. RTX ist sicherer für Budgets.

Reichen 12GB VRAM für 13B-Modelle?

Kaum, bei Q4-Quantisierung. Q5 oder Q8 verursachen OOM-Fehler. Wenn Sie 13B-Komfort wollen, zielen Sie auf 16GB ab.

Sollte ich eine gebrauchte Enterprise-GPU wie RTX A4000 kaufen?

Ja, falls verfügbar. 16GB VRAM, professionelle Kühlung, normalerweise €130-180 gebraucht. Leicht langsamer als RTX 3060, aber VRAM-Puffer ist es wert.

Welche PSU-Leistung sollte ich mit einer €150-GPU kaufen?

550W, 80+ Gold Minimum. Eine €150-GPU + CPU + Mainboard überschreitet nicht 350W, aber Sie wollen Kopfraum für Spitzen.

Kann ich Ollama mit einer €100-Budget-GPU ausführen?

Ja. Ollama ist leichtgewichtig. Eine 4 Jahre alte RTX 3060 mit Ollama lädt Llama 4 Scout bei 12-16 Tok/Sek oder Qwen3 8B bei 16-20 Tok/Sek — völlig nutzbar für interaktiven Chat und Code-Unterstützung.

Was sind die VRAM-Anforderungen für DSGVO-konforme lokale Inferenz in Unternehmen?

Minimum RTX 3060 12GB oder A4000 16GB für bis zu 50 Benutzer mit Llama 3.3 13B Q4. ECC-GPU empfohlen für Fehlererkennung. Firmware/physische Sicherheit verhindert GPU-Memory-Dumps.

Welche GPU empfiehlt sich für einen Team-Server im deutschen Mittelstand?

RTX 3060 12GB oder A4000 für 1-50 Mitarbeiter. RTX 4070 Super oder A6000 für 50-200 Mitarbeiter. RTX 3060 kann Llama 3.3 13B Q4 + vLLM mit 3-5 gleichzeitigen Anfragen ausführen. Größere Teams benötigen A100 mit Enterprise-Clustering.

Kann ich Llama 4 Scout auf einer RTX 3060 12GB ausführen?

Ja. Llama 4 Scout nutzt MoE-Architektur — 17B Parameter aktiv von 109B insgesamt. Bei Q4_K_M nutzt es ~10 GB VRAM und passt komfortabel in den RTX 3060 12GB-Speicher. Erwarten Sie 12-16 Tok/Sek. Dies ist das einzelne beste Upgrade für RTX 3060-Besitzer 2026: `ollama pull llama4:scout`.

Welche Hardware-Einrichtung funktioniert für jedes Modell?

Für Llama 3.3 70B lokal: Siehe 70B-Modelle auf Consumer-Hardware für RTX 4090, Dual-GPU und Enterprise-GPU-Empfehlungen.
Für Qwen 2.5 Codierungsmodelle: Siehe Beste GPUs für lokale LLMs für optimierte Qwen-Setups.
Für Mistral 7B auf minimaler Hardware: Dieser Leitfaden (RTX 3060 oder 4060 Ti) ist Ihr Startpunkt.
Zum Berechnen exakter VRAM-Anforderungen: Verwenden Sie How Much VRAM Do You Need? für Ihre Modellgröße und Quantisierungsstufe.

Weiterführende Literatur

Wie viel VRAM für lokale LLMs
70B-Modelle auf Consumer-Hardware
RTX 5090 vs RTX 4090
Gebrauchte GPUs für lokale LLMs
Beste GPUs für lokale LLMs
How Much VRAM Do You Need?
Prompt Engineering für lokale Modelle — Prompts für Modelle auf Budget-Hardware optimieren.
Chain-of-Thought Prompting — Verbessert DeepSeek-R1 Output-Qualität erheblich.
Mac Mini M5 als lokaler KI-Server — Budget-Alternative zu GPU-Builds: Dauerbetrieb-KI für 599 $ Hardware + 35 $/Jahr Strom.
Apple Silicon M5 für lokale LLMs — Vollständiger M5 Pro/Max-Leitfaden: Benchmarks, Mac-Konfigurationen, Speicherstufen und welcher Mac zum Kauf für lokale Inferenz.
Apple Silicon vs NVIDIA GPU für lokale LLMs — Vollständiger Kosten- und Leistungsvergleich: wann schlägt ein Mac ein Budget-GPU.
Beste Modelle für Apple Silicon 2026 — Modellempfehlungen für 16 GB–128 GB Unified Memory.

Quellen

Meta AI. (2025). "Llama 4 Model Card." — Scout MoE-Architektur, VRAM-Anforderungen
Qwen Team. (2026). "Qwen3 Technical Report." — Qwen3 8B Spezifikationen
TechPowerUp GPU-Datenbank: RTX 3060 / RTX 4060 Ti / RTX 4070 Super Spezifikationen und Stromverbrauch
NVIDIA CUDA Capability Matrix: GPU-Speicherbandbreite und theoretischer Durchsatz für Inferenz-Workloads
Ollama Model Requirements: VRAM-Empfehlungen für Llama 4 Scout, Qwen3 und Mistral 7B Quantisierungsstufen

Beste Budget-GPUs für lokale LLMs