CPU専用で使えるOllamaの最適モデルは？

Read in:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh

クイック回答

GPUなしの場合、Phi-4 Mini（Q4量子化）がCPU上で品質と速度の最良バランスを提供します。Llama 3 8B Q4は8GB以上のRAMで動作します。Gemma 2Bは最速のCPUオプションです。

▸Phi-4 Mini Q4：CPU上で最良の品質/速度バランス、4 GB RAMが必要
▸Llama 3 8B Q4：最高品質、8 GB RAMが必要（低速）
▸Gemma 2B：最速のCPU推論、2 GB RAM

更新: 2026-05

Ollama

重要なポイント

✓CPU推論はGPUより5〜10倍遅い — 最新の8コアデスクトップCPUで3〜6 tok/sを想定してください
✓Phi-4 Mini Q4がCPU専用の最適選択です：4 GB RAM、~5 tok/s、優れた推論品質
✓Gemma 2BはCPU上で最速（~6 tok/s）ですが、Phi-4 Miniより推論品質が低い
✓CPU推論はバッチ処理や単発クエリには実用的ですが、対話型チャットには遅すぎます

CPUの速度の現実

2026年5月時点で、CPU推論は最新の8コアデスクトップCPUで毎秒3〜6トークンで動作します — ミドルレンジGPUの約5〜10倍遅いです。 Q4のモデル 7BはCPU上でおよそ200〜300ミリ秒ごとに1単語を生成します。

この速度が許容できるのは2つのユースケースです：ドキュメントの要約やデータ分類などの夜間バッチ処理、および30秒の待機が許容できる単発クエリ。対話型チャットやリアルタイムコード補完には、CPU推論は実用的には遅すぎます。

根本的な制約はメモリ帯域幅であり、CPUのクロック速度ではありません。コンシューマーCPUはRAMを40〜80 GB/sで読み取ります。専用GPUはVRAMを400〜900 GB/sで読み取ります。LLM推論はメモリ帯域幅に直接比例します — そのためミドルレンジGPUでさえハイエンドCPUよりも劇的に高速な推論を実現します。

CPU専用向けトップ3モデル

最適なCPU専用モデルは品質と速度のどちらを優先するかによります。Phi-4 Mini Q4が最良のバランスです — Llama 3 8Bに近い推論品質を提供しながら、必要なRAMはわずか4 GBで、明らかに高速に動作します。

Gemma 2BはRAMが2 GBに制限されている場合の唯一の実用的選択肢です。CPU上で~6 tok/sに達しますが、多段階推論タスクではPhi-4 Miniと比較して品質が明らかに低下します。

RAMの要件やOSレベルの最適化を含むCPU専用設定の完全な比較については、CPU専用LLMガイドをご覧ください。

モデル	必要RAM	CPU速度
Phi-4 Mini Q4	4 GB	~4–5 tok/s
Llama 3 8B Q4	8 GB	~3 tok/s
Gemma 2B	2 GB	~6 tok/s

CPU専用LLMに関するよくある質問

CPU専用のOllamaにはどのくらいのRAMが必要ですか？▾

Gemma 2Bには最低2 GB。Phi-4 Mini Q4には4 GB。Llama 3 8B Q4には8 GB。OSとOllamaランタイムのオーバーヘッド分として、モデルサイズに加えて1〜2 GB余分に確保してください。

なぜCPU推論はGPUよりずっと遅いのですか？▾

LLM推論はメモリ帯域幅に制約されています。コンシューマーCPUはRAMを40〜80 GB/sで読み取ります。ミドルレンジGPUはVRAMを400〜900 GB/sで読み取ります。この10倍の帯域幅の差が、5〜10倍遅いトークン生成に直接つながります。

専用GPUなしのラップトップでOllamaを使えますか？▾

はい。OllamaはGPUが検出されない場合、自動的にCPUで動作します。最新のラップトップCPUで3〜5 tok/sを見込んでください。後でアップグレードした場合のGPUティアの推奨については、現在の最適Ollamaモデルをご覧ください。

ローカルLLM推論で最速のCPUはどれですか？▾

Apple M-series チップ（M3、M4）はユニファイドメモリアーキテクチャを使用し、7Bモデルで15〜30 tok/sに達します — CPU専用推論でx86 CPUを大きく凌駕します。x86 CPUの中では、メモリ帯域幅が高く大容量のL3キャッシュを持つものが最良の性能を発揮します。

← Prompt Bites に戻る