Schnelle Antwort
Qwen 2.5 Coder 14B Q4_K_M ist das beste Coding-Modell für 12-GB-VRAM-GPUs wie die RTX 3060. Es benötigt ~10 GB VRAM und erzielt den höchsten HumanEval-Score unter Modellen, die in dieses Limit passen. DeepSeek Coder 14B ist eine starke Alternative.
Aktualisiert: 2026-05
Wichtigste Punkte
Qwen 2.5 Coder 14B in der Q4_K_M-Quantisierung verwendet etwa 10 GB VRAM — mit 2 GB Puffer auf einer 12-GB-Karte, genug für Betriebssystem und Ollama-Laufzeit. Es erreicht 78,4 % auf HumanEval, den höchsten Score eines 14B- oder kleineren Coding-Modells für lokale Bereitstellung (Stand Mai 2026).
DeepSeek Coder 14B bei Q4_K_M hat einen fast identischen VRAM-Bedarf (~10 GB) und erzielt 75,1 % auf HumanEval. Der Unterschied ist gering, aber Qwen 2.5 Coder liegt bei Python- und TypeScript-Aufgaben konsequent vorne, die den Großteil typischer Entwickler-Workloads ausmachen.
Beide Modelle laufen identisch auf RTX 3060 12 GB und RTX 3080 Ti 12 GB. Die RTX 3080 Ti bietet eine etwas höhere Speicherbandbreite (912 GB/s vs. 360 GB/s), was zu etwa 18 tok/s gegenüber 14 tok/s für dasselbe Modell bei gleicher Quantisierung führt.
| Modell | VRAM | HumanEval | Geschw. (RTX 3060) | Geschw. (RTX 3080 Ti) |
|---|---|---|---|---|
| Qwen 2.5 Coder 14B Q4_K_M | ~10 GB | 78,4 % | ~14 tok/s | ~18 tok/s |
| DeepSeek Coder 14B Q4_K_M | ~10 GB | 75,1 % | ~14 tok/s | ~18 tok/s |
| Qwen 2.5 Coder 7B Q4_K_M | ~5 GB | 72,1 % | ~28 tok/s | ~38 tok/s |
Bei 4k Kontext verwenden beide 14B-Modelle ~10 GB VRAM und laufen komfortabel. Bei 8k Kontext steigt der VRAM auf etwa 11,5 GB — mit nur 500 MB Puffer auf einer 12-GB-Karte. Bei 16k Kontext übersteigt ein 14B-Q4_K_M-Modell 12 GB VRAM und lagert teilweise auf die CPU aus, was die Geschwindigkeit auf ~3 tok/s reduziert.
Für die praktische Coding-Nutzung sind 4k Kontext für die meisten Einzeldateien-Vervollständigungen und Code-Review-Sitzungen ausreichend. Anforderungen für langen Kontext (ganze Repositories, umfangreiche Refactorings) benötigen eine 16-GB- oder 24-GB-GPU oder einen Wechsel zur 7B-Variante, die ~5 GB VRAM verbraucht und die volle 12-GB-Karte für Kontext freilässt.
Wenn Sie häufig mit großen Dateien arbeiten und auf einer 12-GB-Karte bleiben möchten, erwägen Sie Qwen 2.5 Coder 7B Q4_K_M — es läuft mit ~28 tok/s auf RTX 3060, erzielt 72,1 % auf HumanEval und lässt 7 GB VRAM für Kontext frei. Weitere Details zum 14B-vs-7B-Kompromiss finden Sie im Vergleich der besten 14B-Coding-Modelle.
ollama pull qwen2.5-coder:14b-instruct-q4_K_M aus. Ollama erkennt die NVIDIA-GPU automatisch und verwendet CUDA. Überprüfen Sie die GPU-Nutzung mit ollama ps — das Modell sollte als auf der GPU laufend angezeigt werden, nicht auf der CPU. Falls es auf CPU zurückfällt, prüfen Sie, ob die CUDA-Treiber aktuell sind.