重要なポイント
- CPU-only 推論は 8–32 GB RAM 搭載のモダン CPU 上の 3–13B モデルで効果的です。
- 最高の CPU モデル: Phi-4 Mini (3.8B、2.3 GB、12 トークン/秒)、Gemma 3 2B (1.5 GB、15 トークン/秒)、Llama 3.2 3B (2 GB、10 トークン/秒)。
- CPU 推論は GPU より 10–30× 遅いですが、専用 VRAM をゼロ使用します。
- Ollama または llama.cpp で CPU-only モードを有効にします — シンプルなコマンドラインフラグ。
- CPU 推論は本番 API (GPU オーバーヘッド不要)、エッジデバイス、コスト制約環境に最適です。
CPU は LLM を実行できますか?
はい、モダン CPU (Intel i7-10世代+、AMD Ryzen 5000+、Apple M シリーズ) は 3–13B モデルを 8–15 トークン/秒で実行できます。 これは GPU より 10–30× 遅いですが、専用 VRAM を必要としません。十分なシステム RAM (8–32 GB) を搭載した CPU は、$300+ の GPU を必要とするモデルを実行できます。
CPU 推論は速度をアクセシビリティと交換します: GPU オーバーヘッドゼロ、完璧な安定性、ドライバー問題なし。カジュアルなユースケース (毎秒数リクエストに応答するチャットボット、オフラインドキュメント処理) では、CPU-only は実用的です。
モダン CPU には AVX-512 または NEON/SVE ベクター命令があり、マトリックス演算を加速します。llama.cpp と Ollama などのツールはこれらを自動的に使用し、CPU 推論をナイーブな実装より大幅に高速化します。
最高の CPU-only モデル 2026
以下の表は、CPU-only モード搭載の Intel i7-12700 (12コア、AVX-512) 上のパフォーマンスでモデルをランク付けします:
| モデル | パラメータ | GGUF サイズ | RAM 要件 | CPU 速度 | 最適な用途 |
|---|---|---|---|---|---|
| Phi-4 Mini | 3.8B | ~2.3 GB | 4 GB | 12 トークン/秒 | 一般的なチャット、コード支援 |
| Gemma 3 2B | 2B | ~1.5 GB | 3 GB | 15 トークン/秒 | 高速応答、低 VRAM |
| Llama 3.2 3B | 3B | ~2 GB | 3.5 GB | 10 トークン/秒 | バランスの取れた品質/速度 |
| Mistral 7B Q4 | 7B | ~4.5 GB | 6 GB | 5 トークン/秒 | より高い品質、16+ GB RAM |
| Llama 3.1 8B Q4 | 8B | ~5 GB | 7 GB | 4 トークン/秒 | コーディング、ロジックタスク |
速度: CPU vs GPU
速度はハードウェアによって異なります。これらのベンチマークは Ollama または llama.cpp を実行する標準 2026 ハードウェア上のものです:
| ハードウェア | モデル | 速度 | 注釈 |
|---|---|---|---|
| Intel i7-12700 (CPU) | Phi-4 Mini 3.8B | 12 トークン/秒 | AVX-512 有効 |
| AMD Ryzen 7 5700X (CPU) | Phi-4 Mini 3.8B | 9 トークン/秒 | 古い AVX2 のみ |
| Apple M3 (CPU) | Phi-4 Mini 3.8B | 14 トークン/秒 | ユニファイドメモリの利点 |
| RTX 3060 (GPU、12 GB) | Phi-4 Mini 3.8B | 80 トークン/秒 | GPU は 6.7× 高速 |
| RTX 4090 (GPU、24 GB) | Llama 3.1 8B Q4 | 120 トークン/秒 | GPU は CPU より 30× 高速 |
モデル別 RAM 要件
経験則: GGUF サイズ + 500 MB オーバーヘッド = 必要最小限 RAM。 2 GB GGUF モデルは 2.5–3 GB の無料システム RAM が必要です:
| モデル | GGUF サイズ | 最小 RAM | 快適 | コンテキスト長 |
|---|---|---|---|---|
| Gemma 3 2B | ~1.5 GB | 2–2.5 GB | 4 GB | 8K |
| Phi-4 Mini 3.8B | ~2.3 GB | 3 GB | 6 GB | 4K |
| Llama 3.2 3B | ~2 GB | 2.5–3 GB | 6 GB | 8K |
| Mistral 7B Q4 | ~4.5 GB | 5 GB | 8 GB | 32K |
| Llama 3.1 8B Q4 | ~5 GB | 6 GB | 12 GB | 128K |
CPU-only モードの実行方法
Ollama (最も簡単): 単に `ollama run phi:mini` を実行します。Ollama は NVIDIA/AMD GPU のないシステムで CPU-only を自動検出し、システム RAM を使用します。LM Studio: 設定を開く → GPU の「なし」を選択して CPU モードを強制します。Llama.cpp: フラグ `--n-gpu-layers 0` を使用して GPU オフロードを無効にします。
ollama run phi:mini
# Ollama は CPU-only システムを自動検出しますCPU 推論の最適化のヒント
CPU 推論から最大パフォーマンスを引き出します:
- Q4_K_M 量子化を使用 — GGUF サイズを ~70% 削減、最小品質損失、キャッシュ動作の向上により 10–20% 速度向上。
- コンテキストウィンドウを削減 — より長いコンテキスト = より遅い推論。`--context 2048` を使用してコンテキストを 2K トークンに制限します。
- マルチスレッドを有効化 — Ollama と llama.cpp は CPU コア数を自動検出します。`nproc` で一致を確認します。
- AVX-512 または ARM NEON を使用 — モダン Intel/AMD/ARM CPU にはベクター命令があります。CPU フラグを確認: `cat /proc/cpuinfo | grep avx512` (Linux) または Apple 情報 → システムレポート (Mac)。
- バッチサイズ = 1 — CPU はシングルシーケンス推論を最適に処理します。CPU でマルチバッチを試みないでください。
- スレッドをコアに固定 — Linux では `numactl --cpunodebind=0 ollama run phi:mini` を使用してコア切り替えオーバーヘッドを回避します。
CPU vs GPU を使用する場合
| ユースケース | CPU | GPU |
|---|---|---|
| リアルタイムチャット (1秒未満レイテンシ) | ❌ 遅すぎる (12 トークン/秒 = 60 トークンで 5 秒) | ✅ 80+ トークン/秒 |
| バッチ処理 (ドキュメント、ログ) | ✅ 良好 (速度は問題ない) | ⚠️ オーバーキル |
| 本番 API (コスト制約) | ✅ $0 ハードウェアコスト | ⚠️ $200+ GPU + 電力 |
| エッジデバイス (Raspberry Pi) | ✅ 代替案なし | ❌ GPU オプション限定 |
| 開発 / ローカルテスト | ✅ 低消費電力、静かな | ⚠️ オーバーキル |
| LLM ファインチューニング | ❌ 遅すぎる (時間 → 日数) | ✅ 10–30× 高速化 |
FAQ
CPU-only 推論は GPU と比べて何倍遅いですか?
CPU: モダンプロセッサ上で 8–15 トークン/秒。GPU (RTX 3060): 80 トークン/秒。GPU (RTX 4090): 120+ トークン/秒。CPU は 10–30× 遅いですが $0 GPU 投資が必要です。
CPU 上で一貫性のある出力を生成する最小モデルは何ですか?
Gemma 3 2B (1.5 GB) は合理的な応答を生成します。それ以下では品質が低下します。8 GB RAM での最高品質には Phi-4 Mini (3.8B) または Llama 3.2 3B (2 GB) を使用してください。
13B モデルを CPU 上で実行できますか?
はい、Q4_K_M 量子化で 13B モデルは ~6.5 GB です。8–12 GB システム RAM が必要です。速度: ~2–3 トークン/秒。インタラクティブ使用には不快ですがバッチ処理で機能します。
CPU 推論は GPU をまったく使用しますか?
いいえ。Ollama/llama.cpp の CPU-only モードは GPU 使用を明示的に無効にし、システム RAM のみを使用します。
CPU-only 推論は安定していますか?
はい、GPU より安定しています。ドライバークラッシュなし、GPU メモリエラーなし。唯一のリスクはシステム RAM 飽和で、モデル選択により制御します。
Apple Silicon CPU の設定を調整する必要がありますか?
いいえ。Ollama は M1/M2/M3/M4 を自動検出し、ユニファイドメモリを効率的に使用します。Apple Silicon は メモリアーキテクチャにより同等 Intel CPU より ~10–20% 高速です。
CPU-only LLM 使用時に METI ガイダンスに準拠する必要がありますか?
エンタープライズデプロイの場合、METI 2024 AI ガバナンスを参照してください。ローカル CPU 推論はデータ管理に対するより高度な制御を提供し、企業ポリシーに適合しやすくなります。
10 GB の古いノートパソコンでも CPU-only 推論は実用的ですか?
はい。Gemma 3 2B (1.5 GB) または Phi-4 Mini (2.3 GB) は 10 GB RAM で効率的に実行できます。3–5 トークン/秒のバッチ処理や軽量チャットボットに最適です。
複数のモデルを同時に CPU で実行できますか?
RAM が許可されていれば技術的には可能ですが、非現実的です。複数モデルはメモリ競合を引き起こし、どちらも低速になります。一度に 1 モデルを使用することをお勧めします。
CPU 推論の実装でのセキュリティリスクは何ですか?
CPU-only は GPU より安全です。クラウド転送なし = データはローカルに留まります。ただし物理的マシンセキュリティと OS アップデートをしっかりし、センシティブデータが未暗号化で残る可能性があります。
llama.cpp vs Ollama で CPU 推論速度に違いはありますか?
わずかです。両者とも同じコア CPU 最適化 (AVX-512) を使用します。わずかな差異はスレッド管理の実装による (~2–5%)。デフォルトの Ollama をお試しください。