重要なポイント
- GPU(RTX 3060 8GB): Mistral 7B Q4で15トークン/秒。速度と品質のベストバランス。
- GPU(RTX 2060 4GB): Mistral 7B Q2(2ビット)で20トークン/秒。品質許容範囲、高速。
- CPU(古いノートPC): Phi 2.7B Q4で3トークン/秒。チャットに使用可、コーディングは遅い。
- CPU + GPU無効(バッテリー駆動): TinyLlama 1.1B Q4で2トークン/秒。チャットのみ。
- 速度ランキング(速い順): GPU(RTX)> GPU(iGPU)> CPU(AVX)> CPU(スカラー)。
- 品質ランキング: Mistral 7B > Phi 2.7B > TinyLlama 1.1B。
- 最適解: 小型モデルより大型モデルを量子化(Mistral Q2)。Q2 Mistral > Q4 TinyLlama。
- コスト: すべて無料(オープンソース)vs. ChatGPT API(1,000トークンあたり約$0.002)。
あなたのハードウェアに最速のモデルは?
ハードウェアに合ったモデルを選択してください — 誤った選択で10〜30倍の速度を無駄にします。
| お使いのハードウェア | 推奨モデル | 期待速度 |
|---|---|---|
| 4GB RAM、CPUのみ(旧4コア) | TinyLlama 1.1B Q4 | 5〜10トークン/秒 |
| 8GB RAM、CPUのみ(最新8コア) | Phi 2.7B Q4 | 10〜20トークン/秒 |
| iGPU(Intel Iris / AMD iGPU) | Mistral 7B Q4 | 5〜8トークン/秒 |
| GPU 8GB VRAM(RTX 3060 / 3070) | Mistral 7B Q4 | 25〜40トークン/秒 |
ハードウェア別おすすめローカルLLM
**Q4でVRAMに収まる最大モデルを選び、小型モデルに切り替える前にまず量子化を下げてください。量子化はモデルサイズダウンよりも品質低下が少ない。**
| ハードウェア | 最適モデル | 速度 | 品質 | メモ |
|---|---|---|---|---|
| RTX 3060 8GB | Mistral 7B Q4 | 15トークン/秒 | 優秀 | 「低スペックGPU」の基準値 |
| RTX 2060 4GB | Mistral 7B Q2 | 20トークン/秒 | 良好 | 品質わずかに低下、速度アップ |
| Intel Iris(iGPU) | Mistral 7B Q4 | 5トークン/秒 | 優秀 | 遅いがノートPCで動作 |
| 最新CPU(8コア) | Phi 2.7B Q4 | 3トークン/秒 | 普通 | 軽いチャットに許容範囲 |
| 旧CPU(4コア) | TinyLlama 1.1B Q4 | 1トークン/秒 | 低い | 低速:簡単なQ&Aのみ |
GPU vs CPU:低スペックハードウェアでどちらが速い?
GPU推論: RTX 3060で15〜20トークン/秒。CUDAセットアップが必要。高速、最高品質。費用対効果の高い選択肢はバジェットGPUガイドを参照。
iGPU(統合グラフィックス): Intel Irisで5〜8トークン/秒。セットアップ不要。専用GPUより低速。
CPU推論: 最新マルチコアで1〜5トークン/秒。どこでも動作。最も低速。
ルール: GPUがあれば(統合でも)使用する。CPUは最終手段。
低スペックPCで小型モデルが速い理由
モデルサイズが速度を直接決定します。 1B〜3Bモデルはシステムメモリに完全に収まるため、CPUまたはGPUがデータを継続的にストリーミングできます。大型モデルはメモリスワッピングが必要 — RAMとディスク間でデータを移動することで生成速度が10〜100倍低下します(ボトルネックはディスクI/Oであり、計算ではない)。
上記のハードウェア判定テーブルはこの原則を反映しています:TinyLlama 1.1B(1Bパラメータ)は旧CPUで5〜10トークン/秒に到達しますが、スワッピングが支配的になるため13B+モデルは低スペックハードウェアには実用的ではありません。
- 1B〜3Bモデル: 4〜8GB RAMに収まる → 最速生成 → 品質許容範囲
- 7Bモデル: 8GBシステムでギリギリ → メモリプレッシャーで低速 → 高品質
- 13B+モデル: 16GB+ VRAMまたはスワップが必要 → インタラクティブ使用には遅すぎる
低スペックPCでローカルLLMはどのくらい速い?
CPU専用システムで期待できる速度:
- 3Bモデル → 15〜40トークン/秒(旧CPU:10〜15、最適化済み新CPU:30〜40)
- 7Bモデル → 10〜25トークン/秒(CPUコアと量子化次第;積極的最適化で30+も可能)
- クラウドAPIより低速(ChatGPT 4o:80〜150トークン/秒)ですが、インタラクティブ使用には十分です。 25トークン/秒の3Bモデルは500トークンのレスポンスを20秒で生成 — コードレビュー、要約、創作など時間に余裕のあるタスクに許容範囲。
量子化は低スペックPCの速度にどう影響する?
Q4(4ビット): 品質低下約1%、VRAM節約50%。標準選択。全量子化レベルの詳細はガイドを参照。
Q3(3ビット): 品質低下約3%、VRAM節約62%。チャットに許容範囲。
Q2(2ビット): 品質低下約10%、VRAM節約75%。リスクあり;OOM時のみ使用。
速度への影響: Q2はメモリ帯域幅削減によりQ4より約30%速い(計算ではない)。
戦略:小型モデル(TinyLlama)より大型モデルを量子化(Mistral 7B Q2)。
Mistral 7B Q2 > TinyLlama 1.1B Q4(速度・品質ともに)。
高速モデルは品質と引き換えに速度を得ていますが、温度とtop-pを調整することで多くの品質を回復できます。高速モデルに低い温度(0.1~0.3)を設定することで、デフォルト設定より一貫性のある出力が得られます。温度とtop-pについてで正確な設定を確認してください。
CPU専用推論を高速化する方法
- AVX-512を有効化: CPUが対応していれば`LLAMACPP_AVX512=1 ollama run phi`を使用。約20%高速化。
- コンテキストウィンドウを縮小: 短いコンテキスト = 高速。4096の代わりに`--ctx-size 1024`を使用。
- **Ollamaの代わりにllama.cppを使用:** オーバーヘッドが少なくCPUでわずかに速い(約10%ゲイン)。
- マルチスレッドを無効化: 直感に反するが、弱いCPUではシングルスレッドが速い(スレッドオーバーヘッドなし)。
- iGPUにオフロード: 弱い統合GPUでもCPUより速い。`lspci`でGPU利用可能性を確認。
実際のベンチマーク(2026年4月)
5つのハードウェア構成での実測値、2026年4月。Ollamaのデフォルト設定使用、チューニングなし:
- RTX 3060 12GB + Mistral 7B Q4:15トークン/秒。
- RTX 2060 4GB + Mistral 7B Q2:20トークン/秒(積極的量子化)。
- Intel Iris(MacBook Air M1)+ Mistral 7B Q4:8トークン/秒。
- Ryzen 7 7700X CPU + Phi 2.7B Q4:3トークン/秒。
- Celeron N3050(旧ノートPC)+ TinyLlama 1.1B Q4:0.5トークン/秒(使用不可)。
低スペックPCで避けること
- 13B+モデルは実行しない — RAMの限界を超えます。 Q4の13Bモデルは8〜10GB VRAMが必要で、実用的な低スペックPCの容量を超えます。積極的なQ2量子化でも13Bモデルは5〜6GBが必要で、OSとGPUスケジューリングのオーバーヘッドに十分な余裕がありません。7B以下を使用してください。
- Q8量子化は避ける — 品質向上が最小限で遅い。 Q8はQ4の約2倍のVRAMを使用(Mistral 7Bで8GB vs 5.5GB)し、品質向上はわずか約2%。4GBシステムではQ8は非実用的;8GBシステムではQ4が最適。Q4でOOMが発生する場合のみQ3を検討。
- リアルタイムオートコンプリートは期待しない。 CPU上の3トークン/秒では50トークン生成に16秒かかります。インタラクティブなオートコンプリートには≥20トークン/秒が必要。低スペックCPU上のローカルLLMはバッチチャット、下書き、レビューに適しています — ライブオートコンプリートやコードタイプには不向きです。
- CPU専用推論を本番チャットボットに使用しない。 内部ツール、プロトタイプ、オフラインバッチ作業には許容範囲。クラウドAPI(15〜20msレイテンシ)は低スペックCPU(300ms+レイテンシ)よりユーザー向けサービスに優れます。プライバシー重視またはオフラインシナリオには適していますが、速度重視には不向きです。
よくある間違い
- 間違い:CPU速度のためにTinyLlamaを選択。 問題:TinyLlama 1.1BはMistral 7B Q2と比べて大幅に速くありません。解決策:Mistral 7B Q2を使用 — 同じ速度、出力品質が40%向上。
- 間違い:CPU高速化フラグを有効化しない。 問題:AVX/NEONの欠如でコスト0で20%の速度向上を逃す。解決策:Ollama起動前に`LLAMACPP_AVX512=1`または`LLAMACPP_NEON=1`を設定。
- 間違い:7Bを4GBに収めるためにQ2を強制。 問題:Q2量子化は推論中のKVキャッシュオーバーヘッドによりOOMクラッシュを起こしやすい。解決策:代わりにQ4の3Bモデルを使用。
- 間違い:新しいハードウェアが常に速い推論を意味すると仮定。 問題:デスクトップRyzenはメモリ最適化の欠如によりモバイルARMより速くない場合があります。解決策:実際のハードウェアでベンチマーク。
- 間違い:モデルに誤ったOllama slugを使用。 問題:`ollama run phi`はPhi-4やPhi-MiniではなくPhi-2をロードします。解決策:ollama.com/libraryで確認し、正確なモデルタグを使用。
低スペックPCのローカルLLM:地域別コンテキスト
日本(METI AIガバナンス): 経済産業省(METI)のAIガバナンスガイドライン(2024年改定)はデータ最小化を推進します。低スペックハードウェアでのCPU推論は最も厳格なデータ主権要件を満たします — APIコールなし、ロギングなし、第三者データアクセスなし。METI AI Governance Framework 2024はエンタープライズ環境でのオンプレミスAI推論を推奨しており、日本語タスク向けにCPU上でQwen2.5を実行しているユーザーの場合、時間に余裕のある文書要約には1〜3トークン/秒のスループットで十分です。
東アジア・アジア太平洋: 韓国、台湾、東南アジア諸国のデータ残留法制はAI推論データがデバイスを離れないことを要求しており、ローカル推論がコンプライアンスの観点から最も安全な選択肢です。APECフレームワークはデータローカライゼーションを積極的に推進している地域での機密データ処理にオンプレミス解決策を推奨しています。
グローバル: 法的要件を超えて、ローカル推論は外部サービス依存のないAI能力を提供します。医療、法律、財務などのプライバシー重視の業界では、ローカルLLMはオフライン動作とデータプライバシー保証を組み合わせた実用的な解決策です。
低スペックPCでのローカルLLM実行に関するよくある質問
低スペックPCでのローカルLLMとは何ですか?
低スペックPCでのローカルLLMとは、専用VRAMが8GB未満またはCPU専用システムで動作するものです。Intel IrisやAMD Radeon統合グラフィックスを搭載するほとんどのノートPC、GTX 1060以前のGPUを搭載するデスクトップPC、Chromebookが対象です。重要な制約はCPU速度ではなく、モデルの重みを保持するために使用可能なメモリです。
Mistral 7Bを4GB GPUで実行できますか?
Q2量子化では可能です。Q4では不可能(OOMクラッシュ)。Q2は品質低下を許容範囲内で抑え(MMLUスコア約5〜10%低下)、速度は30%向上します。VRAMが限られているユーザーにとって実用的なトレードオフです。
CPU推論はチャットボットに使用できますか?
はい、低スループット・非同期シナリオに対して。3トークン/秒では100トークンの応答に約3分かかります。インタラクティブな会話には不向きですが、夜間バッチ処理やメール下書きなどの非リアルタイムタスクには許容範囲です。
Phi 2.7BとTinyLlama 1.1B、CPUではどちらを使うべきですか?
Phi 2.7Bが優れた選択です。TinyLlamaより0.5トークン/秒遅いだけですが、推論タスクで40%優れた出力品質を提供します。TinyLlamaは極めて制限されたハードウェアの場合のみ最終手段として存在します。
GPUがCUDAをサポートしているか確認する方法は?
ターミナルで`nvidia-smi`を実行。GPU情報が表示されればCUDAサポートあり。「command not found」や「no NVIDIA GPU」が返る場合は、統合GPUドライバーのIntel/AMDドキュメントを確認してください。
量子化は推論速度にどう影響しますか?
量子化は主に計算ではなくメモリ帯域幅要件を削減します。Q2(2ビット)はQ4(4ビット)より約30%速い:モデルが各フォワードパスでロードするバイト数が少ないためです。ただしQ2は約10%の品質ペナルティがあります。実用的なルール:デフォルトはQ4、Q4でVRAMに収まらない場合のみQ2に切り替え。
Q2以下の量子化は可能ですか?
技術的にはQ1も可能ですが、品質は壊滅的に劣化 — 精度損失は最大30%。実用的なユースケースには推奨しません。
CPU + GPUハイブリッド推論はサポートされていますか?
はい、レイヤーオフロードを通じて対応。llama.cppで`--n-gpu-layers 10`を使用すると最初の10レイヤーをGPUにオフロードし、残りをCPUで処理します。このハイブリッドアプローチは限られたVRAMでGPUに近い速度を実現します。
最速のローカルLLMは何ですか?
最速モデルはLlama 3.2 3Bのような1B〜3Bパラメータモデルで、最適化された最新CPUで15〜40トークン/秒、GPUアクセラレーションで最大40〜60トークン/秒に到達できます。速度はモデルよりハードウェアに依存します — GPU上の7B(25〜40トークン/秒)はCPU上の3B(10〜25トークン/秒)を上回ります。
4GB RAMでローカルLLMを実行できますか?
はい — 1Bモデルは4GBシステムで快適に動作します(モデルあたり1〜1.3GB + OSとバッファに2〜3GB)。大型モデルはより多くが必要:3Bは2〜3GB、7BはQ4で5.5〜8GBが必要。4GBシステムではLlama 3.2 1BまたはTinyLlama 1.1Bが実用的ですが、品質は制限されます。
速度にGPUは必要ですか?
いいえ、ただしGPUは速度を大幅に向上させます。CPU専用システムは最適化で3Bモデルに10〜25トークン/秒に到達できます;GPUは25〜60トークン/秒。CPU専用ユーザーには小型モデル(1B〜3B)が必須です。GPUが必要なのは7B+モデルでインタラクティブな速度が必要な場合のみです。
情報源
- Phi 2.7Bモデルカード — Microsoft Research。Phi-2(2.7Bパラメータ)のベンチマークスコアとアーキテクチャノート。
- TinyLlama 1.1Bリポジトリ — Stability AI。TinyLlama 1.1Bのモデル仕様、訓練データ、パフォーマンスベンチマーク。
- llama.cpp CPU最適化ガイド — AVX-512、NEON、スレッド設定を含むCPU高速化フラグ。