重要なポイント
- 最高のコーディングモデル:Qwen2.5-Coder 32B――87% HumanEval、Q4_K_Mで20 GB RAM必要
- 8 GB RAMに最適:Qwen3 8B――72% HumanEval、CPU上で15~25トークン/秒で動作
- Fill-in-the-middle(コード補完)に最適:Codestral 22B――IDEスタイルのオートコンプリート専用設計
- コード固有モデルは同じパラメータ数の汎用モデルと比較して、HumanEvalで5~15ポイント高いスコア
- AIコーディングアシスタントワークフロー(VS Code、Cursor)については、コーディングワークフロー用ローカルLLMを参照
コーディングに適したLLMとは?
コーディングLLMは汎用モデルとは異なります。汎用モデル(Llama 3.1、Mistral)はテキスト生成を目的に訓練されます。一方、コーディングモデル(Qwen2.5-Coder、DeepSeek-Coder)はコードコーパスで特別に微調整されています。
主な違い:コーディングモデルはHumanEvalで5~15ポイント高いスコアを達成します。これは関数署名、アルゴリズム推論、API使用パターンの正確性向上を意味します。
Fill-in-the-Middle(FIM)サポート:IDE統合には重要です。FIMはカーソル前後のコード片を指定でコード補完する能力です。Starcoder2、Qwen2.5-Coder、DeepSeek-Coderはすべてサポート。
#1 Qwen2.5-Coder 32B(最高品質)
HumanEval:87%(最高) — すべてのローカルコーディングモデルの中で最高スコア
メモリ:~20 GB RAM(Q4_K_M量子化)— デスクトップ/ワークステーション向け
速度:8~15トークン/秒 — CPU上でも実用的。ラップトップでは遅い。
言語サポート:40+ 言語 — Python、JavaScript、TypeScript、Java、C++、Go、Rust、SQLなど
最適用途:複雑なコード生成、マルチファイルプロジェクト分析、高精度が必須な場合
セットアップ:`ollama run qwen2.5-coder:32b`
#2 Qwen 3.6 27B(バランス最適)
HumanEval:81% — Qwen3 8Bより高い。32Bより低い(期待値)
メモリ:~10 GB RAM — 16 GBマシン標準、他アプリ同時実行可能
速度:15~25トークン/秒 — Qwen 7Bより高速
MoEアーキテクチャ:アクティブパラメータ少ないため効率的。フルパラメータではない。
FIM:サポート — VS Code/Cursorでオートコンプリート可能
最適用途:16 GBマシンでの日常開発。品質と速度のバランス。
セットアップ:`ollama run deepseek-coder-v2:16b`
#3 Qwen3 8B(8 GB最適)
HumanEval:72% — 8 GBマシンでは最高スコア
メモリ:4.7 GB RAM — ラップトップ用。他アプリ3GB以上利用可能。
速度:20~35トークン/秒 — 最速。ユーザーインタラクション許容範囲内。
FIM:サポート — Continue.dev経由IDE統合可能
言語サポート:40+ 言語 — 7Bながら広範囲
最適用途:MacBook、Linux laptops、小型ポータブル設定
セットアップ:`ollama run qwen2.5-coder:7b`
#4 Codestral 22B(IDE補完特化)
HumanEval:67% — 低め。だがFIM最適化で選ぶ理由がある。
メモリ:~9 GB RAM — 16 GBマシン適合
FIM最適化:IDE補完専向設計。補完精度はすべてのモデルで最高。
言語:600+ プログラミング言語 — 最も広範囲カバー
使用ケース:Continue.dev、VS Code拡張機能でリアルタイム補完
制限:関数生成品質は下回る。補完のみに最適。
セットアップ:`ollama run starcoder2:15b`
#5 Llama 3.1 8B(汎用フォールバック)
HumanEval:72% — Qwen3 8Bと同等スコア
メモリ:5.5 GB RAM — 8 GBマシンで安定
速度:20~30トークン/秒 — 高速
FIM:サポート無し — IDE補完向きでない
コード品質:コード固有モデルではなく、汎用で訓練。意図の複雑さに弱い。
使用ケース:コーディングLLMが利用不可な場合のフォールバック。
セットアップ:`ollama run llama3.2`
HumanEvalベンチマーク比較表
| モデル | HumanEval% | メモリ(GB) | 速度(tok/s) | FIM |
|---|---|---|---|---|
| Qwen2.5-Coder 32B | 87 | 20 | 8-15 | ✓ |
| DeepSeek-Coder V2 Lite | 81 | 10 | 15-25 | ✓ |
| Qwen3 8B | 72 | 4.7 | 20-35 | ✓ |
| Codestral 22B | 67 | 9 | 18-28 | ✓(最適) |
| Llama 3.1 8B | 72 | 5.5 | 20-30 | ✗ |
クイック事実――コーディング用ローカルLLMを一目で
- 最高の全体(最大品質): Qwen2.5-Coder 32B――87% HumanEval、~20 GB RAM必要、8~15トークン/秒で動作
- バランス最適: DeepSeek-Coder V2 Lite――81% HumanEval、~10 GB RAM使用、15~25トークン/秒で動作
- ラップトップ用(8 GB RAM): Qwen3 8B――72% HumanEval、4.7 GB RAM使用、20~35トークン/秒で動作
- IDEオートコンプリート用: Codestral 22B――67% HumanEval、FIM最適化、~9 GB RAM、600+プログラミング言語
- 使用可能なコーディングの最小RAM: 4 GB(非常に小さい3Bモデル)、実用的には8 GB+(7Bモデル)
- 推奨セットアップ: 16 GB以上RAM(7B~16Bモデル処理、他アプリ用余裕あり)
- ハイエンドセットアップ: 32 GB以上RAM(32Bモデル実行、マルチタスク、大きなコンテキストウィンドウ)
- 典型的遅延: モデルサイズとハードウェアに応じて8~50トークン/秒(CPUがGPUより遅い)
🏆 コーディング用最高のローカルLLM(クイックピック)
- 最高の全体: Qwen2.5-Coder 32B――87% HumanEval、~20 GB RAM、8~15トークン/秒、最高の推論
- 8 GB RAM用: Qwen3 8B――72% HumanEval、4.7 GB使用、20~35トークン/秒、FIMサポート
- 16 GB RAM用: DeepSeek-Coder V2 Lite――81% HumanEval、~10 GB使用、15~25トークン/秒、MoE効率的
- IDEオートコンプリート用: Codestral 22B――67% HumanEval、~9 GB RAM、カーソル補完用FIM最適化
どのコーディングモデルを使うべき?
意思決定フロー:
1. RAMを確認。32 GB以上 → Qwen2.5-Coder 32B
2. 16 GB → DeepSeek-Coder V2 Lite または Qwen3 8B
3. 8 GB → Qwen3 8B
4. IDE自動補完必須 → Codestral 22B(いずれのRAMレベル)
選ぶモデルも重要ですが、コードの品質においてはプロンプトの方法がさらに重要です。言語・制約・テストケース・出力フォーマットを指定する構造化プロンプト技術は、コード生成の精度を大幅に向上させます。プロンプトエンジニアリングガイドでは、基礎・フレームワーク・評価手法にわたる80のテクニックを解説しています。
これらのモデルを軸にした完全な IDE ワークフローについては、GitHub Copilot をローカル LLM で置き換えるを参照してください。上記の選択肢と相性のよいオープンソーススタック(Continue.dev + Ollama + Qwen3-Coder)です。
8 GB VRAMに最適なコーディングLLM(RTX 3060 12GB / RTX 3070 8GB / RX 6800 16GB)
8 GB RAMのマシンでは、Qwen3 8BがコーディングLLMの最良の選択肢です。72% HumanEval精度を提供し、わずか5 GB VRAMのみを使用します。これはIDEのほか、ブラウザと他のアプリケーション用に3 GBを残します。Qwen3 8BはFIM(Fill-in-the-Middle)をサポートし、Continue.dev経由でVS Codeの自動補完が可能です。
- Qwen3 8B(推奨)— 72% HumanEval、5 GB VRAM、20–35 トークン/秒、FIM対応。`ollama run qwen3:8b`
- Phi-4 Mini 3.8B — 68% MMLU(推論)、2.5 GB VRAM、軽量推論に最適。`ollama run phi:3.8`
- Llama 3.2 3B — 40–60 トークン/秒、2.5 GB VRAM、非常に制約の多いセットアップ向けの優良な代替案。`ollama run llama3.2:3b`
16 GB VRAMに最適なコーディングLLM(RTX 4070 12GB / RTX 4070 Ti 16GB / RTX 5000 24GB)
16 GB RAMがあれば、Devstral Small 24BまたはQwen 3.6 27Bを実行できます。Devstral Smallはエージェント型ワークフロー(マルチファイル編集、ツール呼び出し、デバッグループ)に最適です。Qwen 3.6 27Bは最高品質(77.2% SWE-bench)で、すべてのパラメータがアクティブ(MoEオーバーヘッドなし)です。
- Devstral Small 24B — エージェント型コーディング、ツール呼び出し、マルチファイル編集に最適、16 GB VRAM、15–25 トークン/秒。`ollama run devstral-small:24b`
- Qwen 3.6 27B — 最良の高密度モデル、77.2% SWE-bench、一貫性のある推論、22 GB VRAM。`ollama run qwen3.6:27b`
- DeepSeek-Coder V2 Lite — 81% HumanEval、MoE効率的、16 GBに収納可能。`ollama run deepseek-coder-v2`
6 GB VRAMに最適なコーディングLLM(低予算GPU / 統合グラフィックス)
4~6 GB VRAM(低予算GPU、古いノートパソコン、Intel iGPU)のマシンでは、Phi-4 Mini 3.8Bが最適な選択肢です。68% MMLU推論性能を達成しながら、わずか2.5 GB VRAMのみを使用します。これはシステム用に約3.5 GBを残します。
- Phi-4 Mini 3.8B(推奨)— 68% MMLU推論、2.5 GB VRAM、ロジックとデバッグに最適。`ollama run phi:3.8`
- Qwen3 4B — より小さいバリアント、4 GB VRAM、低予算ハードウェア向けの品質・速度バランス。`ollama run qwen3:4b`
誰が何を使うべき
- 初心者(8 GB ノートPC): Qwen3 8B。セットアップ簡単。速い。質高い。
- 開発者(16 GB デスクトップ): DeepSeek-Coder V2 Lite。バランス。複雑タスク対応。
- パワーユーザー(32 GB ワークステーション): Qwen2.5-Coder 32B。最高品質。複雑プロジェクト。
- IDE補完重視: Starcoder2。FIM最適化。VS Code完全統合。
ローカルLLMを使うべきでない時
- リアルタイムオートコンプリート必須:ローカルモデルは遅い(100ms以上)。GitHub Copilotを使う。
- 最新APIライブラリ知識必須:訓練データが古い(2023年末)。GPT-4oを使う。
- 複雑なマルチファイル推論:100k+ トークンコンテキスト。ローカルRAM不足。クラウド使う。
- セキュリティ機密コード:Ollama経由なら安全。DeepSeek APIではない。ただし検証必須。
決定比較マトリックス:ローカル vs クラウド
| 要件 | ローカルLLM | GPT-4o / Claude |
|---|---|---|
| コスト(大規模使用) | 無料(計算力のみ) | $0.03-0.30/1k tokens |
| プライバシー | 100%プライベート | APIに送信 |
| レイテンシ | 5~50秒(CPU依存) | 1~5秒 |
| コード品質(HumanEval) | 87%(最高モデル) | 92%+ |
| リアルタイム補完 | いいえ | はい(Copilot) |
| 大規模コンテキスト | 最大128k(RAM依存) | 128k-200k |
地域別コンテキスト
日本(METI AI ガバナンス):ローカルLLMの使用は規制制限なし。ただし企業導入時はMETI AI Governance 2024を参照。コード機密性の観点からローカル推論は推奨される。
アジア太平洋地域:データ移出制限の強い地域(シンガポール、インド)ではローカルLLMが有利。シンガポール PDPA、インド IT Act準拠にはOllama経由オンプレミス推論必須。
グローバル:APIベンダーの規約により、専有コード送信制限あり。ローカルは制限なし。開発チーム内ポリシーに従う。
よくある間違い
- 1RAMサイズ無視:「7Bモデルなら4 GBで十分」と誤解。実際は4.7~8 GB必要(OS、他プロセス含む)。8 GBマシンはOOM回避のため最小構成。
- 2量子化の知識不足:Q4_K_M vs Q5_K_Mの違い不明。品質重視ならQ5_K_M推奨(ストレージ少増)。Q4_K_Mは最小RAM。
- 3FIM未対応モデル選択**:Llama 3.1 8Bを「IDE用」と思い込む。FIMサポートなく補完失敗。Qwen/Starcoder/DeepSeek選ぶ。
- 4オフラインテスト不実施:ネット接続前提で開発。Ollama設定ネット不要確認せず。Ollama is offline――設定確認必須。
- 5単一モデル過信:87% HumanEvalでも100%成功せず。複雑タスクは複数世代実行・投票ロジック必須。
- 6CPU性能過大評価:M1/M2でも7Bは15~25 tok/s。「速い」は相対的。待機時間心理的許容確認。
- 7プロンプト設計がコード品質を左右:言語・制約・テストケース・エラー処理をプロンプトで指定するとハルシネーションを大幅に削減。AIを使ったコードの書き方で実績あるパターンを確認。
ソース
- Qwen2.5-Coder 公式 — 公式パラメータ、HumanEval結果
- DeepSeek-Coder 論文 — MoEアーキテクチャ、ベンチマーク
- Starcoder2 ドキュメント — FIM最適化の詳細
- HumanEval ベンチマーク — 公式定義、評価方法
- Ollama 公式 — インストール、設定、モデル一覧