クイック回答
Qwen 2.5 Coder 14B Q4_K_MはRTX 3060などの12 GB VRAM GPUに最適なコーディングモデルです。~10 GB VRAMを使用し、この制約に収まるモデルの中でHumanEvalスコアが最高です。DeepSeek Coder 14Bは強力な代替です。
更新: 2026-05
重要なポイント
Q4_K_M量子化のQwen 2.5 Coder 14Bは約10 GB VRAMを使用 — 12 GBカードに2 GBの余裕を残し、OSとOllamaランタイムに十分です。 HumanEvalで78.4%を達成し、2026年5月時点でローカル展開向けの14B以下のコーディングモデルの中で最高スコアです。
Q4_K_MのDeepSeek Coder 14Bはほぼ同一のVRAMフットプリント(~10 GB)でHumanEvalで75.1%を記録します。差は小さいですが、Qwen 2.5 CoderはPythonとTypeScriptタスクで一貫してリードしており、これらは典型的な開発者ワークロードの大半を占めます。
両モデルともRTX 3060 12 GBとRTX 3080 Ti 12 GBで同等に動作します。RTX 3080 Tiはわずかに高いメモリ帯域幅(912 GB/s対360 GB/s)を提供し、同じ量子化の同じモデルで約18 tok/s対14 tok/sに相当します。
| モデル | VRAM | HumanEval | 速度 (RTX 3060) | 速度 (RTX 3080 Ti) |
|---|---|---|---|---|
| Qwen 2.5 Coder 14B Q4_K_M | ~10 GB | 78.4% | ~14 tok/s | ~18 tok/s |
| DeepSeek Coder 14B Q4_K_M | ~10 GB | 75.1% | ~14 tok/s | ~18 tok/s |
| Qwen 2.5 Coder 7B Q4_K_M | ~5 GB | 72.1% | ~28 tok/s | ~38 tok/s |
4kコンテキストでは、両14Bモデルとも~10 GB VRAMを使用し快適に動作します。8kコンテキストではVRAMが約11.5 GBに上昇 — 12 GBカードに500 MBしか余裕が残りません。 16kコンテキストでは14B Q4_K_MモデルはVRAM 12 GBを超え、CPUへのオフロードが部分的に発生して速度が~3 tok/sに低下します。
実用的なコーディング用途では、ほとんどの単一ファイル補完とコードレビューセッションには4kコンテキストで十分です。長いコンテキスト要件(リポジトリ全体、大規模リファクタリング)には16 GBまたは24 GBのGPU、または~5 GB VRAMを使用してコンテキスト用に12 GBカード全体を空ける7Bバリアントへの切り替えが必要です。
大きなファイルを頻繁に扱い12 GBカードを使い続けたい場合は、Qwen 2.5 Coder 7B Q4_K_Mを検討してください — RTX 3060で~28 tok/sで動作し、HumanEvalで72.1%を記録し、コンテキスト用に7 GB VRAMを空けます。14B対7Bのトレードオフの詳細については最適14Bコーディングモデル比較をご覧ください。
ollama pull qwen2.5-coder:14b-instruct-q4_K_Mを実行してください。OllamaはNVIDIA GPUを自動検出しCUDAを使用します。ollama psでGPU使用状況を確認してください — モデルはCPUではなくGPU上で動作していることが表示されるべきです。CPUにフォールバックする場合はCUDAドライバーが最新であるか確認してください。