クイック回答
Qwen 2.5 Coder 14Bはローカル利用の14Bコーディングモデルの中でトップです。Q4_K_Mで10 GB VRAMに収まり、14Bモデル中でHumanEvalスコアが最高です。DeepSeek Coder 14Bは同様のVRAM要件を持つ強力な代替モデルです。
更新: 2026-05
重要なポイント
2026年5月時点で、Qwen 2.5 Coder 14BはQ4_K_M量子化でHumanEval 78.4%を記録 — OllamaまたはLlama.cpp経由で利用可能な14Bモデル中で最高のスコアです。 このモデルは5兆トークン以上のコード重視データでファインチューニングされており、多段階補完とテストケース生成における性能の高さはそこに由来します。
DeepSeek Coder 14Bは同一のQ4_K_M条件でHumanEval 75.1%を記録します。差は小さく、特にすでにキャッシュ済みだったり出力スタイルに慣れている場合はDeepSeek Coderも有効な選択肢です。
StarCoder2 15Bはオープンソース特化コーディング作業の3番目の選択肢です。The Stack v2で学習され、~10 GB VRAM Q4_K_MでHumanEvalで約73%を達成します。その強みはオープンソース貢献タスク、大規模リポジトリにわたるコード検索、および構造化リファクタリングです — その学習コーパスが汎用命令調整モデルに対して優位性をもたらすユースケースです。
| モデル | HumanEval | VRAM (Q4_K_M) |
|---|---|---|
| Qwen 2.5 Coder 14B | 78.4% | ~10 GB |
| DeepSeek Coder 14B | 75.1% | ~10 GB |
| StarCoder2 15B | ~73% | ~10 GB |
Qwen 2.5 Coder 14BとDeepSeek Coder 14Bはいずれも Q4_K_Mで約10 GB VRAMが必要で、12 GBカードでは2 GBしか余裕がありません。この余裕は長いコンテキストセッションでは不十分です:8kコンテキストではVRAM使用量は~11.5 GBに達します。大きなファイルを扱うワークフローでは16 GB以上のカードを推奨します。
4kトークン未満のコンテキストウィンドウ(単一ファイル補完の一般的なケース)では、3つのモデルすべてがRTX 3060 12 GBやRTX 3080 Ti 12 GB上で快適に動作します。QwenとDeepSeek Coderでの速度は約14〜18 tok/sです;StarCoder2 15Bは同等のVRAM消費量を考えると同様のスループットで動作します。リポジトリ規模の検索やオープンソース貢献パターンに焦点を当てるワークフローではStarCoder2を優先します。
他のサイズとVRAMティアにおけるコーディングモデルの包括的な比較については、12 GB VRAM向け最適コーディングLLMガイドをご覧ください。