クイック回答
Mixtral 8x7B と DeepSeek V2 がローカル使用に最適な MoE コーディングモデルです。MoE モデルはトークンごとにパラメータの一部のみをアクティブにするため、同じ総サイズの Dense モデルより VRAM あたりの品質が高くなります。Q4 では両方とも最低 16 GB VRAM が必要です。
更新: 2026-05
重要なポイント
Mixture of Experts(MoE)モデルは各トークンをエキスパートと呼ばれる専門レイヤーのサブセットのみを通してルーティングするため、推論コストは総パラメータではなくアクティブパラメータに比例します。 Mixtral 8x7B は総パラメータ 467 億を持ちますが、1 回のフォワードパスでアクティブになるのは ~129 億のみ — 計算コストは 13B Dense モデルと同等です。
これはつまり、Mixtral 8x7B はトークンあたりの推論コストに対して出力品質が非常に高いことを意味します。ただし、全エキスパートの重みはスタートアップ時に VRAM に読み込む必要があります。Q4_K_M では Mixtral 8x7B に約 26 GB の VRAM が必要です。
DeepSeek V2 はコーディングタスク向けに最適化した同様の MoE アーキテクチャを使用し、Q4 で約 16 GB VRAM を必要とします。そのコーディングベンチマークスコアは、アクティブパラメータ数が 2〜3 倍大きいモデルに匹敵します。
| モデル | 総パラメータ | トークンあたりアクティブ | Q4 での VRAM |
|---|---|---|---|
| Mixtral 8x7B | 46.7B | ~12.9B | ~26 GB |
| DeepSeek V2 | 236B | ~21B | ~16 GB |
Mixtral 8x7B は Ollama の ollama pull mixtral:8x7b コマンドで利用可能で、Q4_K_M GGUF を自動ダウンロードします。 Ollama は利用可能な VRAM にレイヤーを割り当て、VRAM が不足している場合はパーシャルオフロードで CPU RAM に溢れさせますが、速度は大幅に低下します。
16 GB VRAM しかない場合、DeepSeek V2 Q4 が優れた MoE の選択肢です。16 GB カード 1 枚に完全に収まり、RTX 4080 相当の環境で約 15〜20 tok/s のコーディングスループットを発揮します。16 GB VRAM 未満では Dense モデルに切り替えてください — 大幅な CPU オフロードが必要になると MoE の利点がなくなります。
よくある誤解:MoE モデルはスタートアップ時にアクティブなサブセットではなく、全エキスパート重みを VRAM に読み込む必要があります。VRAM コストはアクティブパラメータではなく総パラメータを反映します。単一言語コーディングタスク(例:Python のみ)の場合、Qwen 2.5 Coder 14B のような Dense モデルは、重みが汎用エキスパート全体に分散されているのではなく完全にコードに特化しているため、Mixtral 8x7B を上回ることが多いです。
各 VRAM レベルでの最適なコーディングモデルの完全な比較(Dense モデルの代替案を含む)については、コーディング向け最適ローカル LLM ガイドをご覧ください。
ollama pull mixtral:8x7b で Q4_K_M 量子化 GGUF をダウンロードします。次に ollama run mixtral:8x7b で起動します。Ollama は VRAM を自動配分し、必要に応じて CPU RAM にオフロードします。