CPU専用で使えるOllamaの最適モデルは?
クイック回答
GPUなしの場合、Phi-4 Mini(Q4量子化)がCPU上で品質と速度の最良バランスを提供します。Llama 3 8B Q4は8GB以上のRAMで動作します。Gemma 2Bは最速のCPUオプションです。
- ▸Phi-4 Mini Q4:CPU上で最良の品質/速度バランス、4 GB RAMが必要
- ▸Llama 3 8B Q4:最高品質、8 GB RAMが必要(低速)
- ▸Gemma 2B:最速のCPU推論、2 GB RAM
更新: 2026-05
重要なポイント
- ✓CPU推論はGPUより5〜10倍遅い — 最新の8コアデスクトップCPUで3〜6 tok/sを想定してください
- ✓Phi-4 Mini Q4がCPU専用の最適選択です:4 GB RAM、~5 tok/s、優れた推論品質
- ✓Gemma 2BはCPU上で最速(~6 tok/s)ですが、Phi-4 Miniより推論品質が低い
- ✓CPU推論はバッチ処理や単発クエリには実用的ですが、対話型チャットには遅すぎます
CPUの速度の現実
2026年5月時点で、CPU推論は最新の8コアデスクトップCPUで毎秒3〜6トークンで動作します — ミドルレンジGPUの約5〜10倍遅いです。 Q4のモデル 7BはCPU上でおよそ200〜300ミリ秒ごとに1単語を生成します。
この速度が許容できるのは2つのユースケースです:ドキュメントの要約やデータ分類などの夜間バッチ処理、および30秒の待機が許容できる単発クエリ。対話型チャットやリアルタイムコード補完には、CPU推論は実用的には遅すぎます。
根本的な制約はメモリ帯域幅であり、CPUのクロック速度ではありません。コンシューマーCPUはRAMを40〜80 GB/sで読み取ります。専用GPUはVRAMを400〜900 GB/sで読み取ります。LLM推論はメモリ帯域幅に直接比例します — そのためミドルレンジGPUでさえハイエンドCPUよりも劇的に高速な推論を実現します。
CPU専用向けトップ3モデル
最適なCPU専用モデルは品質と速度のどちらを優先するかによります。Phi-4 Mini Q4が最良のバランスです — Llama 3 8Bに近い推論品質を提供しながら、必要なRAMはわずか4 GBで、明らかに高速に動作します。
Gemma 2BはRAMが2 GBに制限されている場合の唯一の実用的選択肢です。CPU上で~6 tok/sに達しますが、多段階推論タスクではPhi-4 Miniと比較して品質が明らかに低下します。
RAMの要件やOSレベルの最適化を含むCPU専用設定の完全な比較については、CPU専用LLMガイドをご覧ください。
| モデル | 必要RAM | CPU速度 |
|---|---|---|
| Phi-4 Mini Q4 | 4 GB | ~4–5 tok/s |
| Llama 3 8B Q4 | 8 GB | ~3 tok/s |
| Gemma 2B | 2 GB | ~6 tok/s |