Schnelle Antwort
Qwen 2.5 Coder 14B ist das beste 14B-Coding-Modell für den lokalen Einsatz. Es passt mit Q4_K_M in 10 GB VRAM und erzielt den höchsten HumanEval-Score unter den 14B-Modellen. DeepSeek Coder 14B ist eine starke Alternative mit ähnlichem VRAM-Bedarf.
Aktualisiert: 2026-05
Wichtigste Punkte
Stand Mai 2026 erzielt Qwen 2.5 Coder 14B in der Q4_K_M-Quantisierung 78,4 % auf HumanEval — der höchste Wert aller 14B-Modelle, die über Ollama oder llama.cpp verfügbar sind. Das Modell wurde auf über 5 Billionen Code-fokussierten Tokens feinabgestimmt, was seine Leistung bei mehrstufiger Vervollständigung und Testfall-Generierung erklärt.
DeepSeek Coder 14B erzielt unter identischen Q4_K_M-Bedingungen 75,1 % auf HumanEval. Der Unterschied ist gering genug, dass DeepSeek Coder eine valide Wahl ist — insbesondere wenn das Modell bereits gecacht ist oder Sie mit seinem Ausgabestil vertraut sind.
StarCoder2 15B ist die dritte Wahl für spezialisierte Open-Source-Coding-Arbeiten. Mit Training auf The Stack v2 erreicht es etwa 73 % auf HumanEval bei ~10 GB VRAM Q4_K_M. Seine Stärken liegen bei Open-Source-Beitragstasks, Code-Suche über große Repositories und strukturiertem Refactoring — Use Cases, bei denen sein Trainings-Corpus ihm einen Vorteil gegenüber allgemein instruierter Modelle gibt.
| Modell | HumanEval | VRAM (Q4_K_M) |
|---|---|---|
| Qwen 2.5 Coder 14B | 78,4 % | ~10 GB |
| DeepSeek Coder 14B | 75,1 % | ~10 GB |
| StarCoder2 15B | ~73 % | ~10 GB |
Beide Modelle — Qwen 2.5 Coder 14B und DeepSeek Coder 14B — benötigen bei Q4_K_M ungefähr 10 GB VRAM und lassen auf einer 12-GB-Karte nur 2 GB Puffer. Dieser Spielraum ist bei langen Kontextsitzungen eng: Bei 8k-Kontext steigt der VRAM-Verbrauch auf ~11,5 GB. Bei Workflows mit großen Dateien empfiehlt sich eine Karte mit 16+ GB.
Für Kontextfenster unter 4k Tokens — der übliche Fall bei der Vervollständigung einzelner Dateien — laufen alle drei Modelle problemlos auf einer RTX 3060 12 GB oder RTX 3080 Ti 12 GB. Die Geschwindigkeit bei Qwen und DeepSeek Coder beträgt etwa 14–18 tok/s; StarCoder2 15B läuft bei ähnlichem Durchsatz angesichts des vergleichbaren VRAM-Fußabdrucks. Bevorzugen Sie StarCoder2, wenn Ihr Workflow auf Repository-Suchvorgänge oder Open-Source-Beitragsmuster ausgerichtet ist.
Einen umfassenderen Vergleich von Coding-Modellen bei anderen Größen und VRAM-Tiers finden Sie im Leitfaden für das beste Coding-LLM mit 12 GB VRAM.