Wichtigste Erkenntnisse
- RTX 3060 12GB (150–190 € gebraucht): Führt jedes 7B-Modell und die meisten 13B bei Q4 aus. Plus Llama 4 Scout (MoE) bei ~10 GB — beste Gesamtqualität.
- RTX 3060 6GB: Beschränkt auf 3B-Modelle (Phi-4 Mini, Llama 3.2 3B). Zu knapp für 7B.
- Bestes Gesamtmodell auf 12GB: Llama 4 Scout 17B (MoE) bei ~10 GB VRAM, 12–16 Tok/Sek. Liefert Qualität vergleichbar mit dichten 30B-Modellen.
- Bestes Coding-Modell auf 12GB: Qwen3 8B mit 16–20 Tok/Sek. Verbesserung gegenüber Qwen3.
- Bestes Reasoning-Modell auf 12GB: DeepSeek-R1 7B mit 10–12 Tok/Sek.
- Überspringen wenn: Sie 70B-Modelle oder 13B bei Q8 wollen — dafür brauchen Sie 24GB (RTX 4090).
Was kann man auf RTX 3060 12GB ausführen?
Die RTX 3060 12GB ist die beste Budget-GPU für lokale LLMs 2026. 12 GB VRAM passt für jedes 7B-Modell bei Q4/Q5 und die meisten 13B-Modelle bei Q4. Für detaillierte Anleitung zu VRAM-Anforderungen bei verschiedenen Modellgrößen siehe den VRAM-Anforderungsleitfaden →. Hier sind die genauen Modelle und Geschwindigkeiten, die Sie erwarten können:
| Modell | Größe | Quantisierung | VRAM | Geschwindigkeit | Ideal für |
|---|---|---|---|---|---|
| Llama 4 Scout 17B | 17B aktiv (109B MoE) | Q4_K_M | ~10 GB | 12–16 Tok/Sek | Beste Gesamtqualität (MoE) |
| Llama 3.2 7B | 7B | Q4_K_M | ~7 GB | 15–20 Tok/Sek | Chat, Frage-Antwort (Legacy) |
| Mistral 7B v0.3 | 7B | Q4_K_M | ~7 GB | 18 Tok/Sek | Instruktionsfolge |
| Qwen3 8B | 8B | Q4_K_M | ~7 GB | 16–20 Tok/Sek | Coding (Verbesserung zu Qwen2.5) |
| DeepSeek-R1 7B | 7B | Q4_K_M | ~7 GB | 10–12 Tok/Sek | Reasoning, Mathematik |
| Gemma 4 9B | 9B | Q4_K_M | ~8 GB | 12–15 Tok/Sek | Vision, multimodal |
| Llama 3.2 13B | 13B | Q4_K_M | ~11 GB | 8–10 Tok/Sek | Höhere Chat-Qualität (Q4 nur, knapp) |
Llama 4 Scout ist die größte Verbesserung für RTX 3060 12GB-Besitzer 2026. Seine MoE-Architektur bedeutet, dass nur 17B Parameter pro Token aktiv sind (von 109B insgesamt), was eine Qualität weit über dichten 7B-8B-Modellen bei ähnlichem VRAM-Verbrauch liefert. `ollama pull llama4:scout`. Alle Geschwindigkeiten gemessen mit Ollama auf RTX 3060 12GB, 16 GB System-RAM, Ryzen 7 7700X. Q4_K_M-Quantisierung. Geschwindigkeiten variieren ±15%.
Was kann man auf RTX 3060 6GB ausführen?
Die 6-GB-Variante ist stark eingeschränkt. Nur 3B-Modelle passen komfortabel. 7B-Modelle bei Q4 brauchen ~7 GB — mehr als vorhanden.
- Phi-4 Mini 3.8B (Q4): ~3 GB VRAM, 20–25 Tok/Sek. Bestes Reasoning in dieser Größe.
- Llama 3.2 3B (Q4): ~2,5 GB VRAM, 25–35 Tok/Sek. Schnellste Option. Gut für einfachen Chat.
- Gemma 2 2B (Q4): ~1,7 GB VRAM, 35–45 Tok/Sek. Leichtestes Modell. Gut zum Testen.
- 7B mit Offloading: Möglich aber langsam. Llama 7B mit CPU-Offload = ~5–8 Tok/Sek.
- Empfehlung: Wenn Sie eine 6-GB-Karte haben, upgraden Sie auf 12 GB gebraucht (200–250 $).
Welches GPU-Budget sollten Sie einplanen?
Für ein funktionsfähiges lokales LLM-System planen Sie €500-750 Gesamtsystemkosten, mit GPU = 30-40% dieses Budgets (~€150-300).
Eine €150-GPU mit einer €30-CPU erzeugt Engpässe. Eine €1.500-GPU mit €20-Mainboard verschwendet Geld.
Ab April 2026 liegt der Performance-pro-Euro-Spitzenwert im €150-250-Bereich (RTX 3060-4070 Super gebraucht).
RTX 3060 vs andere Budget-GPUs
| GPU | VRAM | Preis (Gebraucht) | 7B Geschwindigkeit | Max. Modell | Fazit |
|---|---|---|---|---|---|
| RTX 3060 12GB ★ | 12 GB | 180–230 € | 15–20 Tok/Sek | 13B (Q4) | Beste Budget-Wahl |
| RTX 4060 Ti 8GB | 8 GB | 230–280 € | 20–25 Tok/Sek | 7B (Q5 max) | Schneller, weniger VRAM |
| RTX A4000 | 16 GB | 160–210 € | 12–15 Tok/Sek | 13B (Q5) | Bestes VRAM pro Euro |
| RTX 4070 Super | 12 GB | 370–420 € | 25–30 Tok/Sek | 13B (Q5) | Schneller, 2× Preis |
| RX 6700 XT | 12 GB | 130–180 € | 10–14 Tok/Sek | 13B (Q4) | Billigste, AMD-Aufwand |
RTX 3060 12GB gewinnt beim Preis-Leistungs-Verhältnis: 12 GB VRAM für 180–230 € führt jedes 7B-Modell und die meisten 13B aus.
Welches Modell ist für jeden Anwendungsfall am besten?
Codierung (Qwen 2.5 7B): Qwen 2.5 7B ist exzellent bei Code-Generierung und Reasoning. Benötigt RTX 3060 12GB oder RTX 4060 Ti 8GB. Ideal auf RTX A6000 Enterprise-Karten, falls verfügbar für 32B+-Modelle.
Englisch-Reasoning (Llama 3.3): Llama 3.3 ist das beste Universalmodell für faktengestütztes Reasoning. Llama 3.3 70B benötigt 48GB VRAM (RTX 6000 oder A100). 7B-Version passt auf jede 8GB+ GPU.
Leichte lokale Nutzung (Mistral 7B): Mistral 7B ist das leichteste hochwertige Modell. Lässt sich bequem auf RTX 3060 12GB oder RTX 4060 Ti 8GB ausführen. Perfekt für Notebook-Inferenz.
Welche Modelle gewinnen nach Anwendungsfall?
✅ Bestes insgesamt: Llama 3.3 (offen, fähig, weit optimiert)
✅ Bestes für Codierung: Qwen 2.5 (spezialisiert auf Code-Verständnis)
✅ Bestes leichtgewichtig: Mistral 7B (minimales VRAM, schnelle Inferenz)
✅ Beste Budget-GPU: RTX 3060 12GB (€150-190 gebraucht)
Modellvergleich: Welches Modell gewinnt?
| Modell | Am besten für | Stärke | Schwäche | Min VRAM (Q4) |
|---|---|---|---|---|
| Qwen 2.5 7B | Codierung | Ausgezeichnete Code-Genauigkeit, mehrsprachiges Reasoning | Schwächer bei reinem englischen Reasoning vs. Llama | 6-8 GB |
| Llama 3.3 8B | Reasoning | Starkes Universalmodell, faktengestütztes Reasoning | Schwerer als Mistral, mehr VRAM erforderlich | 8-10 GB |
| Mistral 7B | Effizienz | Schnellste Inferenz, minimales VRAM, leichtgewichtig | Weniger fähig als Llama/Qwen bei komplexen Aufgaben | 6-8 GB |
Wie viel VRAM benötigen Sie für 7B-Modelle?
7B-Modelle, quantisiert bei Q4 (4-bit), benötigen 6-8GB VRAM; Q5 (5-bit) benötigt 8-10GB; Q8 (8-bit) benötigt 14-16GB.
In der Praxis: 8GB ist das Minimum für komfortable Inferenz auf 7B-Modellen bei Q4 mit Platz für Batch-Verarbeitung.
6GB-Karten (RTX 2060) funktionieren technisch, erfordern aber aggressive Optimierung und lassen keinen Spielraum für höhere Batches.
GPU-Kosten sind eine Seite der Wirtschaftlichkeit; Token-Kosten die andere. Lokale Inferenz eliminiert API-Kosten pro Token, aber die Prompt-Länge beeinflusst weiterhin Latenz und Durchsatz. Das vollständige Kostenbild — Tokens, Preisstufen und Optimierungsstrategien — finden Sie unter Tokens, Kosten und Grenzen: die Wirtschaftlichkeit von KI-Prompting.
Beste Modelle nach Anwendungsfall auf RTX 3060
Wählen Sie Ihr Modell basierend auf Ihrem Bedarf, nicht nach Parameterzahl:
Budget-Hardware läuft kleinere Modelle — aber gezieltes Prompting schließt die Qualitätslücke. Der Prompt-Engineering-Guide deckt Techniken wie Chain-of-Thought und strukturierte Ausgaben ab, die kleineren Modellen helfen, über ihrem Gewicht zu boxen. Ein konkreter Workload, der genau auf die RTX 3060 12 GB passt, ist automatisierter Pull-Request-Review — siehe Lokales LLM-Code-Review in CI/CD für das GitHub-Actions-Muster, das Qwen3 8B auf genau dieser Hardware gegen PRs laufen lässt.
- Chat / Frage-Antwort: `ollama run llama4:scout` — MoE, ~10 GB VRAM, beste Qualität auf 12 GB. Für leichtere Option: `ollama run llama3.2:3b` bei 2,5 GB.
- Coding: `ollama run qwen3:8b` — Verbesserte Coding-Leistung gegenüber Qwen3. 5 GB VRAM. 16–20 Tok/Sek.
- Reasoning / Mathematik: `ollama run deepseek-r1:7b` — Chain-of-Thought. 10–12 Tok/Sek.
- Schreiben / Kreativ: `ollama run mistral:7b` — Beste Instruktionsfolge. 18 Tok/Sek.
- Vision / Bilder: `ollama run gemma4:9b` — Multimodal (Bilder). 12–15 Tok/Sek. ~8 GB VRAM.
- Datenschutz / Offline: Alle oben genannten. 100% lokal. Keine Daten verlassen Ihr Gerät.
Gebraucht vs. Neu: Wo sollten Sie kaufen?
- Gebraucht (€30-60 billiger): eBay, Facebook Marketplace, Craigslist, lokale Computerreparaturwerkstätten. Höheres Risiko defekter Karten oder schlechtem VRAM. Immer vor Festlegung testen.
- Neu (€220-350): Amazon.de, Cyberport, Mindfactory, lokale Elektronikfachgeschäfte. Garantie inklusive. Keine Überraschungen. Preise stabil. Gut für risikoscheue Käufer.
- Mined-Karten (Krypto, super günstig): Extremes Risiko. VRAM-Degradation häufig. Nur kaufen, wenn Sie vor Ort vollständig testen können.
Welche Budget-GPU-Fehler sollten Sie vermeiden?
- Kauf einer 4GB RTX 2060 und Erwartung reibungsloser 7B-Inferenz--Sie erhalten ständig Out-of-Memory-Fehler.
- Pairing einer €150-GPU mit einem €20-Netzteil--Spannungsabfall tötet Stabilität. Budget 80+ Gold-zertifiziert, 550W Minimum.
- Annahme, dass DDR5-RAM und i9-CPU die LLM-Inferenz beschleunigen--das tun sie nicht. GPU-VRAM-Bandbreite ist der einzige Engpass, der Inferenzgeschwindigkeit beeinflusst.
- Nicht versuchen, Llama 4 Scout auf 12 GB VRAM auszuführen. Viele RTX 3060-Besitzer nehmen an, sie sind auf 7B-8B dichte Modelle begrenzt. Llama 4 Scout (MoE, 17B aktiv / 109B insgesamt) passt bei ~10 GB und liefert Qualität vergleichbar mit dichten 30B-Modellen. Wenn Sie 12 GB VRAM haben und Scout noch nicht versucht haben, unternutzen Sie Ihre Hardware erheblich.
- Kauf einer 16 GB-Karte nur für 13B-Modelle. Mit Llama 4 Scout verfügbar bei ~10 GB ist das 12→16 GB-Upgrade weniger notwendig als noch vor sechs Monaten. Upgraden Sie nur auf 16 GB, wenn Sie spezifisch Llama 3.1 70B, Mistral Small 3.1 oder andere dichte 20B+-Modelle benötigen.
Welche Budget-GPU sollten Sie kaufen?
Für Codierungsaufgaben: Wählen Sie RTX 3060 12GB oder RTX A4000 (16GB) + Qwen 2.5 7B. Sie erhalten starke Code-Generierung ohne Überausgaben.
Für allgemeines Reasoning: Wählen Sie RTX 4060 Ti 8GB oder RTX 3060 12GB + Llama 3.3 7B. Bestes Gleichgewicht aus Kosten und Fähigkeiten.
Für leichte lokale Setups: Wählen Sie RTX 4060 Ti 8GB + Mistral 7B. Schnellste Inferenz, niedrigster Stromverbrauch, minimales VRAM-Fußabdruck.
Gesamtempfehlung: RTX 3060 12GB (gebraucht, €150-190) ist unschlagbarer Wert. Passt zu allen 7B-13B-Modellen, hat 12GB VRAM-Puffer und kostet weniger als neue Entry-Level-Karten.
Häufig gestellte Fragen
Ist RTX 3060 12GB noch 2026 wert?
Ja. Sie ist 4+ Jahre alt, aber 12GB VRAM ist zeitlos. Lädt Llama 4 Scout 17B (MoE), Qwen3 8B und Mistral 7B reibungslos. Die MoE-Architektur von Llama 4 Scout bedeutet, 12 GB VRAM ist jetzt genug für Modellqualität, die früher 16+ GB erforderte.
Sollte ich RTX 4060 oder RTX 4060 Ti für lokale LLMs kaufen?
RTX 4060 Ti. Das Base-4060 (8GB) und 4070 (12GB) sind schlechtes Preis-Leistungs-Verhältnis. Das Ti ist die beste Preis-RTX-40er-Serie für LLM-Arbeiten.
Kann ich stattdessen eine AMD RX 6700 oder 6800 XT verwenden?
Ja, aber Driver-Support für ONNX Runtime auf AMD ist schwächer als NVIDIA + CUDA. Erwarten Sie mehr Setup-Reibung. RTX ist sicherer für Budgets.
Reichen 12GB VRAM für 13B-Modelle?
Kaum, bei Q4-Quantisierung. Q5 oder Q8 verursachen OOM-Fehler. Wenn Sie 13B-Komfort wollen, zielen Sie auf 16GB ab.
Sollte ich eine gebrauchte Enterprise-GPU wie RTX A4000 kaufen?
Ja, falls verfügbar. 16GB VRAM, professionelle Kühlung, normalerweise €130-180 gebraucht. Leicht langsamer als RTX 3060, aber VRAM-Puffer ist es wert.
Welche PSU-Leistung sollte ich mit einer €150-GPU kaufen?
550W, 80+ Gold Minimum. Eine €150-GPU + CPU + Mainboard überschreitet nicht 350W, aber Sie wollen Kopfraum für Spitzen.
Kann ich Ollama mit einer €100-Budget-GPU ausführen?
Ja. Ollama ist leichtgewichtig. Eine 4 Jahre alte RTX 3060 mit Ollama lädt Llama 4 Scout bei 12-16 Tok/Sek oder Qwen3 8B bei 16-20 Tok/Sek — völlig nutzbar für interaktiven Chat und Code-Unterstützung.
Was sind die VRAM-Anforderungen für DSGVO-konforme lokale Inferenz in Unternehmen?
Minimum RTX 3060 12GB oder A4000 16GB für bis zu 50 Benutzer mit Llama 3.3 13B Q4. ECC-GPU empfohlen für Fehlererkennung. Firmware/physische Sicherheit verhindert GPU-Memory-Dumps.
Welche GPU empfiehlt sich für einen Team-Server im deutschen Mittelstand?
RTX 3060 12GB oder A4000 für 1-50 Mitarbeiter. RTX 4070 Super oder A6000 für 50-200 Mitarbeiter. RTX 3060 kann Llama 3.3 13B Q4 + vLLM mit 3-5 gleichzeitigen Anfragen ausführen. Größere Teams benötigen A100 mit Enterprise-Clustering.
Kann ich Llama 4 Scout auf einer RTX 3060 12GB ausführen?
Ja. Llama 4 Scout nutzt MoE-Architektur — 17B Parameter aktiv von 109B insgesamt. Bei Q4_K_M nutzt es ~10 GB VRAM und passt komfortabel in den RTX 3060 12GB-Speicher. Erwarten Sie 12-16 Tok/Sek. Dies ist das einzelne beste Upgrade für RTX 3060-Besitzer 2026: `ollama pull llama4:scout`.
Welche Hardware-Einrichtung funktioniert für jedes Modell?
- Für Llama 3.3 70B lokal: Siehe 70B-Modelle auf Consumer-Hardware für RTX 4090, Dual-GPU und Enterprise-GPU-Empfehlungen.
- Für Qwen 2.5 Codierungsmodelle: Siehe Beste GPUs für lokale LLMs für optimierte Qwen-Setups.
- Für Mistral 7B auf minimaler Hardware: Dieser Leitfaden (RTX 3060 oder 4060 Ti) ist Ihr Startpunkt.
- Zum Berechnen exakter VRAM-Anforderungen: Verwenden Sie How Much VRAM Do You Need? für Ihre Modellgröße und Quantisierungsstufe.
Weiterführende Literatur
- Wie viel VRAM für lokale LLMs
- 70B-Modelle auf Consumer-Hardware
- RTX 5090 vs RTX 4090
- Gebrauchte GPUs für lokale LLMs
- Beste GPUs für lokale LLMs
- How Much VRAM Do You Need?
- Prompt Engineering für lokale Modelle — Prompts für Modelle auf Budget-Hardware optimieren.
- Chain-of-Thought Prompting — Verbessert DeepSeek-R1 Output-Qualität erheblich.
- Mac Mini M5 als lokaler KI-Server — Budget-Alternative zu GPU-Builds: Dauerbetrieb-KI für 599 $ Hardware + 35 $/Jahr Strom.
- Apple Silicon M5 für lokale LLMs — Vollständiger M5 Pro/Max-Leitfaden: Benchmarks, Mac-Konfigurationen, Speicherstufen und welcher Mac zum Kauf für lokale Inferenz.
- Apple Silicon vs NVIDIA GPU für lokale LLMs — Vollständiger Kosten- und Leistungsvergleich: wann schlägt ein Mac ein Budget-GPU.
- Beste Modelle für Apple Silicon 2026 — Modellempfehlungen für 16 GB–128 GB Unified Memory.
Quellen
- Meta AI. (2025). "Llama 4 Model Card." — Scout MoE-Architektur, VRAM-Anforderungen
- Qwen Team. (2026). "Qwen3 Technical Report." — Qwen3 8B Spezifikationen
- TechPowerUp GPU-Datenbank: RTX 3060 / RTX 4060 Ti / RTX 4070 Super Spezifikationen und Stromverbrauch
- NVIDIA CUDA Capability Matrix: GPU-Speicherbandbreite und theoretischer Durchsatz für Inferenz-Workloads
- Ollama Model Requirements: VRAM-Empfehlungen für Llama 4 Scout, Qwen3 und Mistral 7B Quantisierungsstufen