PromptQuorumPromptQuorum

CPU専用で使えるOllamaの最適モデルは?

クイック回答

GPUなしの場合、Phi-4 Mini(Q4量子化)がCPU上で品質と速度の最良バランスを提供します。Llama 3 8B Q4は8GB以上のRAMで動作します。Gemma 2Bは最速のCPUオプションです。

  • Phi-4 Mini Q4:CPU上で最良の品質/速度バランス、4 GB RAMが必要
  • Llama 3 8B Q4:最高品質、8 GB RAMが必要(低速)
  • Gemma 2B:最速のCPU推論、2 GB RAM

更新: 2026-05

Ollama

重要なポイント

  • CPU推論はGPUより5〜10倍遅い — 最新の8コアデスクトップCPUで3〜6 tok/sを想定してください
  • Phi-4 Mini Q4がCPU専用の最適選択です:4 GB RAM、~5 tok/s、優れた推論品質
  • Gemma 2BはCPU上で最速(~6 tok/s)ですが、Phi-4 Miniより推論品質が低い
  • CPU推論はバッチ処理や単発クエリには実用的ですが、対話型チャットには遅すぎます

CPUの速度の現実

2026年5月時点で、CPU推論は最新の8コアデスクトップCPUで毎秒3〜6トークンで動作します — ミドルレンジGPUの約5〜10倍遅いです。 Q4のモデル 7BはCPU上でおよそ200〜300ミリ秒ごとに1単語を生成します。

この速度が許容できるのは2つのユースケースです:ドキュメントの要約やデータ分類などの夜間バッチ処理、および30秒の待機が許容できる単発クエリ。対話型チャットやリアルタイムコード補完には、CPU推論は実用的には遅すぎます。

根本的な制約はメモリ帯域幅であり、CPUのクロック速度ではありません。コンシューマーCPUはRAMを40〜80 GB/sで読み取ります。専用GPUはVRAMを400〜900 GB/sで読み取ります。LLM推論はメモリ帯域幅に直接比例します — そのためミドルレンジGPUでさえハイエンドCPUよりも劇的に高速な推論を実現します。

CPU専用向けトップ3モデル

最適なCPU専用モデルは品質と速度のどちらを優先するかによります。Phi-4 Mini Q4が最良のバランスです — Llama 3 8Bに近い推論品質を提供しながら、必要なRAMはわずか4 GBで、明らかに高速に動作します。

Gemma 2BはRAMが2 GBに制限されている場合の唯一の実用的選択肢です。CPU上で~6 tok/sに達しますが、多段階推論タスクではPhi-4 Miniと比較して品質が明らかに低下します。

RAMの要件やOSレベルの最適化を含むCPU専用設定の完全な比較については、CPU専用LLMガイドをご覧ください。

モデル必要RAMCPU速度
Phi-4 Mini Q44 GB~4–5 tok/s
Llama 3 8B Q48 GB~3 tok/s
Gemma 2B2 GB~6 tok/s

CPU専用LLMに関するよくある質問

CPU専用のOllamaにはどのくらいのRAMが必要ですか?
Gemma 2Bには最低2 GB。Phi-4 Mini Q4には4 GB。Llama 3 8B Q4には8 GB。OSとOllamaランタイムのオーバーヘッド分として、モデルサイズに加えて1〜2 GB余分に確保してください。
なぜCPU推論はGPUよりずっと遅いのですか?
LLM推論はメモリ帯域幅に制約されています。コンシューマーCPUはRAMを40〜80 GB/sで読み取ります。ミドルレンジGPUはVRAMを400〜900 GB/sで読み取ります。この10倍の帯域幅の差が、5〜10倍遅いトークン生成に直接つながります。
専用GPUなしのラップトップでOllamaを使えますか?
はい。OllamaはGPUが検出されない場合、自動的にCPUで動作します。最新のラップトップCPUで3〜5 tok/sを見込んでください。後でアップグレードした場合のGPUティアの推奨については、現在の最適Ollamaモデルをご覧ください。
ローカルLLM推論で最速のCPUはどれですか?
Apple M-series チップ(M3、M4)はユニファイドメモリアーキテクチャを使用し、7Bモデルで15〜30 tok/sに達します — CPU専用推論でx86 CPUを大きく凌駕します。x86 CPUの中では、メモリ帯域幅が高く大容量のL3キャッシュを持つものが最良の性能を発揮します。