クイック回答
GPUなしの場合、Phi-4 Mini(Q4量子化)がCPU上で品質と速度の最良バランスを提供します。Llama 3 8B Q4は8GB以上のRAMで動作します。Gemma 2Bは最速のCPUオプションです。
更新: 2026-05
重要なポイント
2026年5月時点で、CPU推論は最新の8コアデスクトップCPUで毎秒3〜6トークンで動作します — ミドルレンジGPUの約5〜10倍遅いです。 Q4のモデル 7BはCPU上でおよそ200〜300ミリ秒ごとに1単語を生成します。
この速度が許容できるのは2つのユースケースです:ドキュメントの要約やデータ分類などの夜間バッチ処理、および30秒の待機が許容できる単発クエリ。対話型チャットやリアルタイムコード補完には、CPU推論は実用的には遅すぎます。
根本的な制約はメモリ帯域幅であり、CPUのクロック速度ではありません。コンシューマーCPUはRAMを40〜80 GB/sで読み取ります。専用GPUはVRAMを400〜900 GB/sで読み取ります。LLM推論はメモリ帯域幅に直接比例します — そのためミドルレンジGPUでさえハイエンドCPUよりも劇的に高速な推論を実現します。
最適なCPU専用モデルは品質と速度のどちらを優先するかによります。Phi-4 Mini Q4が最良のバランスです — Llama 3 8Bに近い推論品質を提供しながら、必要なRAMはわずか4 GBで、明らかに高速に動作します。
Gemma 2BはRAMが2 GBに制限されている場合の唯一の実用的選択肢です。CPU上で~6 tok/sに達しますが、多段階推論タスクではPhi-4 Miniと比較して品質が明らかに低下します。
RAMの要件やOSレベルの最適化を含むCPU専用設定の完全な比較については、CPU専用LLMガイドをご覧ください。
| モデル | 必要RAM | CPU速度 |
|---|---|---|
| Phi-4 Mini Q4 | 4 GB | ~4–5 tok/s |
| Llama 3 8B Q4 | 8 GB | ~3 tok/s |
| Gemma 2B | 2 GB | ~6 tok/s |