Bestes lokales LLM für Coding mit 12 GB VRAM?
Schnelle Antwort
Qwen 3 Coder 14B Q4_K_M ist das beste Coding-Modell für 12-GB-VRAM-GPUs wie die RTX 3060. Es benötigt ~10 GB VRAM und erzielt den höchsten HumanEval-Score unter Modellen, die in dieses Limit passen. DeepSeek Coder 14B ist eine starke Alternative.
- ▸Qwen 3 Coder 14B Q4_K_M: ~10 GB VRAM, bester Coding-Benchmark für diese Größe
- ▸DeepSeek Coder 14B Q4_K_M: ähnlicher VRAM, wettbewerbsfähig bei Code-Vervollständigung
- ▸Beide passen auf RTX 3060 12 GB und RTX 3080 Ti 12 GB
Aktualisiert: 2026-05
Wichtigste Punkte
- ✓Qwen 3 Coder 14B Q4_K_M benötigt ~10 GB VRAM und passt mit 2 GB Puffer auf RTX 3060 12 GB oder RTX 3080 Ti 12 GB
- ✓Bei kurzen Kontexten (≤4k Tokens) laufen Qwen und DeepSeek Coder 14B auf diesen 12-GB-Karten mit 14–18 tok/s
- ✓Kontextsitzungen über 8k erhöhen den VRAM auf ~11,5 GB — unter 8k Kontext bleiben für komfortablen 12-GB-Betrieb
- ✓Qwen 3 Coder 14B erzielt 78,4 % auf HumanEval; DeepSeek Coder 14B 75,1 % — beide weit über jedem 7B-Coding-Modell
Qwen 3 Coder 14B ist das richtige 12-GB-VRAM-Modell
Qwen 3 Coder 14B in der Q4_K_M-Quantisierung verwendet etwa 10 GB VRAM — mit 2 GB Puffer auf einer 12-GB-Karte, genug für Betriebssystem und Ollama-Laufzeit. Es erreicht 78,4 % auf HumanEval, den höchsten Score eines 14B- oder kleineren Coding-Modells für lokale Bereitstellung (Stand Mai 2026).
DeepSeek Coder 14B bei Q4_K_M hat einen fast identischen VRAM-Bedarf (~10 GB) und erzielt 75,1 % auf HumanEval. Der Unterschied ist gering, aber Qwen 3 Coder liegt bei Python- und TypeScript-Aufgaben konsequent vorne, die den Großteil typischer Entwickler-Workloads ausmachen.
Beide Modelle laufen identisch auf RTX 3060 12 GB und RTX 3080 Ti 12 GB. Die RTX 3080 Ti bietet eine etwas höhere Speicherbandbreite (912 GB/s vs. 360 GB/s), was zu etwa 18 tok/s gegenüber 14 tok/s für dasselbe Modell bei gleicher Quantisierung führt.
| Modell | VRAM | HumanEval | Geschw. (RTX 3060) | Geschw. (RTX 3080 Ti) |
|---|---|---|---|---|
| Qwen 3 Coder 14B Q4_K_M | ~10 GB | 78,4 % | ~14 tok/s | ~18 tok/s |
| DeepSeek Coder 14B Q4_K_M | ~10 GB | 75,1 % | ~14 tok/s | ~18 tok/s |
| Qwen 3 Coder 7B Q4_K_M | ~5 GB | 72,1 % | ~28 tok/s | ~38 tok/s |
Kontextlänge ist der wichtigste VRAM-Faktor
Bei 4k Kontext verwenden beide 14B-Modelle ~10 GB VRAM und laufen komfortabel. Bei 8k Kontext steigt der VRAM auf etwa 11,5 GB — mit nur 500 MB Puffer auf einer 12-GB-Karte. Bei 16k Kontext übersteigt ein 14B-Q4_K_M-Modell 12 GB VRAM und lagert teilweise auf die CPU aus, was die Geschwindigkeit auf ~3 tok/s reduziert.
Für die praktische Coding-Nutzung sind 4k Kontext für die meisten Einzeldateien-Vervollständigungen und Code-Review-Sitzungen ausreichend. Anforderungen für langen Kontext (ganze Repositories, umfangreiche Refactorings) benötigen eine 16-GB- oder 24-GB-GPU oder einen Wechsel zur 7B-Variante, die ~5 GB VRAM verbraucht und die volle 12-GB-Karte für Kontext freilässt.
Wenn Sie häufig mit großen Dateien arbeiten und auf einer 12-GB-Karte bleiben möchten, erwägen Sie Qwen 3 Coder 7B Q4_K_M — es läuft mit ~28 tok/s auf RTX 3060, erzielt 72,1 % auf HumanEval und lässt 7 GB VRAM für Kontext frei. Weitere Details zum 14B-vs-7B-Kompromiss finden Sie im Vergleich der besten 14B-Coding-Modelle.
Verwandte Leitfäden
- ▸Best MoE Models for Local Coding -- MoE coding models
- ▸Cursor Pro vs Continue.dev: Which AI Coding Tool? -- coding tool comparison
Schnelle Antworten zu Coding-LLMs für 12 GB VRAM
Was ist besser für 12 GB VRAM: RTX 3060 oder RTX 3080 Ti?▾
Kann ich ein 20B- oder 22B-Modell auf 12 GB VRAM unterbringen?▾
Wie installiere ich Qwen 3 Coder 14B auf Ollama für meine RTX 3060?▾
ollama pull qwen2.5-coder:14b-instruct-q4_K_M aus. Ollama erkennt die NVIDIA-GPU automatisch und verwendet CUDA. Überprüfen Sie die GPU-Nutzung mit ollama ps — das Modell sollte als auf der GPU laufend angezeigt werden, nicht auf der CPU. Falls es auf CPU zurückfällt, prüfen Sie, ob die CUDA-Treiber aktuell sind.