PromptQuorumPromptQuorum

Bestes lokales LLM für Coding mit 12 GB VRAM?

Schnelle Antwort

Qwen 2.5 Coder 14B Q4_K_M ist das beste Coding-Modell für 12-GB-VRAM-GPUs wie die RTX 3060. Es benötigt ~10 GB VRAM und erzielt den höchsten HumanEval-Score unter Modellen, die in dieses Limit passen. DeepSeek Coder 14B ist eine starke Alternative.

  • Qwen 2.5 Coder 14B Q4_K_M: ~10 GB VRAM, bester Coding-Benchmark für diese Größe
  • DeepSeek Coder 14B Q4_K_M: ähnlicher VRAM, wettbewerbsfähig bei Code-Vervollständigung
  • Beide passen auf RTX 3060 12 GB und RTX 3080 Ti 12 GB

Aktualisiert: 2026-05

Hardware-Specific

Wichtigste Punkte

  • Qwen 2.5 Coder 14B Q4_K_M benötigt ~10 GB VRAM und passt mit 2 GB Puffer auf RTX 3060 12 GB oder RTX 3080 Ti 12 GB
  • Bei kurzen Kontexten (≤4k Tokens) laufen Qwen und DeepSeek Coder 14B auf diesen 12-GB-Karten mit 14–18 tok/s
  • Kontextsitzungen über 8k erhöhen den VRAM auf ~11,5 GB — unter 8k Kontext bleiben für komfortablen 12-GB-Betrieb
  • Qwen 2.5 Coder 14B erzielt 78,4 % auf HumanEval; DeepSeek Coder 14B 75,1 % — beide weit über jedem 7B-Coding-Modell

Qwen 2.5 Coder 14B ist das richtige 12-GB-VRAM-Modell

Qwen 2.5 Coder 14B in der Q4_K_M-Quantisierung verwendet etwa 10 GB VRAM — mit 2 GB Puffer auf einer 12-GB-Karte, genug für Betriebssystem und Ollama-Laufzeit. Es erreicht 78,4 % auf HumanEval, den höchsten Score eines 14B- oder kleineren Coding-Modells für lokale Bereitstellung (Stand Mai 2026).

DeepSeek Coder 14B bei Q4_K_M hat einen fast identischen VRAM-Bedarf (~10 GB) und erzielt 75,1 % auf HumanEval. Der Unterschied ist gering, aber Qwen 2.5 Coder liegt bei Python- und TypeScript-Aufgaben konsequent vorne, die den Großteil typischer Entwickler-Workloads ausmachen.

Beide Modelle laufen identisch auf RTX 3060 12 GB und RTX 3080 Ti 12 GB. Die RTX 3080 Ti bietet eine etwas höhere Speicherbandbreite (912 GB/s vs. 360 GB/s), was zu etwa 18 tok/s gegenüber 14 tok/s für dasselbe Modell bei gleicher Quantisierung führt.

ModellVRAMHumanEvalGeschw. (RTX 3060)Geschw. (RTX 3080 Ti)
Qwen 2.5 Coder 14B Q4_K_M~10 GB78,4 %~14 tok/s~18 tok/s
DeepSeek Coder 14B Q4_K_M~10 GB75,1 %~14 tok/s~18 tok/s
Qwen 2.5 Coder 7B Q4_K_M~5 GB72,1 %~28 tok/s~38 tok/s

Kontextlänge ist der wichtigste VRAM-Faktor

Bei 4k Kontext verwenden beide 14B-Modelle ~10 GB VRAM und laufen komfortabel. Bei 8k Kontext steigt der VRAM auf etwa 11,5 GB — mit nur 500 MB Puffer auf einer 12-GB-Karte. Bei 16k Kontext übersteigt ein 14B-Q4_K_M-Modell 12 GB VRAM und lagert teilweise auf die CPU aus, was die Geschwindigkeit auf ~3 tok/s reduziert.

Für die praktische Coding-Nutzung sind 4k Kontext für die meisten Einzeldateien-Vervollständigungen und Code-Review-Sitzungen ausreichend. Anforderungen für langen Kontext (ganze Repositories, umfangreiche Refactorings) benötigen eine 16-GB- oder 24-GB-GPU oder einen Wechsel zur 7B-Variante, die ~5 GB VRAM verbraucht und die volle 12-GB-Karte für Kontext freilässt.

Wenn Sie häufig mit großen Dateien arbeiten und auf einer 12-GB-Karte bleiben möchten, erwägen Sie Qwen 2.5 Coder 7B Q4_K_M — es läuft mit ~28 tok/s auf RTX 3060, erzielt 72,1 % auf HumanEval und lässt 7 GB VRAM für Kontext frei. Weitere Details zum 14B-vs-7B-Kompromiss finden Sie im Vergleich der besten 14B-Coding-Modelle.

Schnelle Antworten zu Coding-LLMs für 12 GB VRAM

Was ist besser für 12 GB VRAM: RTX 3060 oder RTX 3080 Ti?
Beide haben 12 GB VRAM und unterstützen dieselben Modelle. Die RTX 3080 Ti hat 912 GB/s Speicherbandbreite gegenüber 360 GB/s für die RTX 3060 — rund 2,5× schnellere Token-Generierung für dasselbe Modell. Wenn Sie die Wahl haben, ist die 3080 Ti trotz identischer VRAM-Kapazität deutlich besser für LLM-Inferenz.
Kann ich ein 20B- oder 22B-Modell auf 12 GB VRAM unterbringen?
Bei Q3_K_M passen einige 20B-Modelle in ~12 GB, aber Q3-Quantisierung verursacht bei Code-Aufgaben merkliche Qualitätsverluste. Qwen 2.5 Coder 14B bei Q4_K_M übertrifft Qwen 2.5 Coder 20B bei Q3_K_M auf den meisten Coding-Benchmarks, weil Quantisierungsqualität in diesem Bereich wichtiger ist als Parameteranzahl.
Wie installiere ich Qwen 2.5 Coder 14B auf Ollama für meine RTX 3060?
Führen Sie ollama pull qwen2.5-coder:14b-instruct-q4_K_M aus. Ollama erkennt die NVIDIA-GPU automatisch und verwendet CUDA. Überprüfen Sie die GPU-Nutzung mit ollama ps — das Modell sollte als auf der GPU laufend angezeigt werden, nicht auf der CPU. Falls es auf CPU zurückfällt, prüfen Sie, ob die CUDA-Treiber aktuell sind.
Ist ein dediziertes Coding-Modell besser als ein Allzweck-Modell für Code-Vervollständigung?
Ja, deutlich. Qwen 2.5 Coder 14B erzielt 78,4 % auf HumanEval. Ein allgemeines Mistral 12B ähnlicher Größe erzielt etwa 60 %. Der Unterschied von 18 Punkten spiegelt die coding-spezifischen Pretraining-Daten wider. Für ernsthaftes Coding immer ein code-optimiertes Modell einem Allzweck-Modell gleicher Größe vorziehen. Vergleiche im Leitfaden Qwen Coder vs. DeepSeek Coder.