重要なポイント
- VRAM計算:(モデルサイズ GB)÷ 量子化 = 必要なVRAM。例:70BをQ4で = 70 ÷ 8 = 8.75 GB × パラメータ ≈ 合計約39 GB。
- 12 GB VRAM(RTX 4070 Ti):ベストモデル:Llama 3.1 8B Q8(約9 GB、80 tok/sec)。また:Qwen3 8B(約8 GB、多言語+コーディング最良)。注:Llama 4 Scout(17Bアクティブ/109B合計 MoE)はQ4で約55 GBを必要とし、12 GBには収まりません。
- 16 GB VRAM(RTX 5080 / RTX 5070 Ti):ベストモデル:Mistral Small 3.1 24B Q4_K_M(約13 GB、55 tok/sec)。また:エージェント型コーディング向けのDevstral Small 24B Q4_K_M。Mistral Small 4(2026年3月)は、推論・ビジョン・コーディングを統合した新しい単一モデルの後継です。
- 24 GB VRAM(RTX 4090 / RTX 5090):ほとんどの70BモデルはQ4_K_M(約40 GB)では収まりません。ベストな選択肢:Qwen3.6 27B Q4_K_M(約16 GB、77.2% SWE-bench、最良の密結合コーダー)またはDeepSeek-R1 32B Q4_K_M(約19 GB、60 tok/sec)。
- CPUのみ(システムRAM 16 GB):Llama 3.2 3B Q8(20 tok/sec)またはPhi-4 Mini Q4_K_M(25 tok/sec)。中古のRTX 4060 8 GB(約$250)または新品のRTX 5060 Ti 16 GB(約$394)なら5〜10倍高速です。
- RAM 8 GBのMacBook:3〜4Bモデルのみ実行可能 — Phi-4 Mini、Llama 3.2 3B、またはGemma 3 4BをQ4_K_Mでllama.cpp/Ollama(Metal)経由で。7Bは8 GBではぎりぎりで、16 GBがMacの快適な最小値です。
- Apple M5 Max(128 GBユニファイド):ラップトップまたはMac Studioで70BモデルをQ4_K_Mで快適に実行(約12〜15 tok/sec) — Mac Studioや、同じく70Bモデルを保持できる128 GB AMD Strix Haloシステムと並んで。
- 2026年6月の価格:GDDR7不足によりGPUはMSRPを大きく上回り、RTX 4090は生産終了となりました。在庫のあるRTX 50シリーズから購入し、購入前にライブ価格を確認してください。
- llama.cpp速度のヒント:常に `--n-gpu-layers 99` を設定してください。これだけでRTX 4070 Tiの速度が約40から約85 tok/secへと倍増します。
- クイックリファレンス: 7B@Q4_K_M = 4.7 GB | 70B@Q4_K_M = 40 GB | RTX 4070 Ti = 約80 tok/s | RTX 4090 = 約150 tok/s | CPUのみ16 GB = 12〜28 tok/s
📍 一文で説明
ローカルLLMのハードウェアはVRAMで決まる:7Bモデルは8 GB、13〜14Bは12〜16 GB、70Bモデルは35〜48 GBが必要。中古のRTX 4060 8 GB(約250ドル)が2026年のエントリーGPUとして最適。
💬 簡潔に説明
VRAMはグラフィックカードの専用メモリです。AIモデルが大きいほど、より多くのVRAMが必要になります。目安:モデルのサイズ(GB)を圧縮レベルで割ると必要なVRAMが推定できます(Q4なら8で割る)。
2026年ローカルLLMハードウェア要件
2026年にローカルLLMを実行するための最小ハードウェアは、7Bクラスのモデルでは8 GB VRAMのGPU、または16 GBユニファイドメモリを備えたApple Silicon Macです。 要件はモデルサイズに応じて増加します:14Bは12 GB、24Bは16 GB、32Bは24 GB、そして70BモデルはQ4_K_Mで約40 GBを必要とします。GPUのVRAMはハードな上限であり、どのモデルがそもそもロードできるかを決定します。CPUとシステムRAMはロード時間とCPUのみのフォールバック速度に影響しますが、どのモデルがGPUに収まるかには影響しません。
この表を「どのハードウェアが必要か」への直接的な答えとして使ってください — あなたのモデルサイズまたはVRAMティアを見つけ、下記のティア別モデル選定にジャンプしましょう。
| モデルサイズ | Q4_K_MでのVRAM | GPU例(2026) | ベストモデル | 速度 |
|---|---|---|---|---|
| 3-4B | 4-5 GB | Any 8 GB / Mac 8 GB | Phi-4 Mini, Gemma 3 4B | 60-90 tok/s |
| 7-8B | 5-9 GB | RTX 5060 Ti, RTX 4060 (8 GB) | Llama 3.1 8B, Qwen3 8B | 50-80 tok/s |
| 14B | ~9 GB | RTX 5070 (12 GB) | Qwen3 14B | ~80 tok/s |
| 24B | ~14 GB | RTX 5070 Ti / 5080 (16 GB) | Mistral Small 3.1 24B | ~55 tok/s |
| 27-32B | 16-19 GB | RTX 4090 / 5090 (24-32 GB) | Qwen3.6 27B, DeepSeek-R1 32B | 55-60 tok/s |
| 70B | ~40 GB | Dual RTX 5090, A100, Mac M5 Max 128 GB | Llama 3.3 70B | 10-60 tok/s |
•KeyPoint: 一文で言うと: モデルをVRAMに合わせましょう — 8 GBは7B、12 GBは14B、16 GBは24B、24 GBは32Bを実行し、実用的なQ4_K_M品質で70Bモデルを実行できるのは40 GB以上だけです。
•ProTip: KVキャッシュ(会話のコンテキスト)のための余裕を加えましょう:8Kコンテキストではモデルの重みに加えて25%、32Kでは最大100%を確保してください。下記のKVキャッシュのセクションを参照。
購入すべきベストGPU — 2026年の推奨
2026年6月時点でローカルLLM向けの在庫がある選択肢はNVIDIA RTX 50シリーズ(Blackwell):5060 Ti、5070、5070 Ti、5080、5090です。 RTX 40シリーズ(4060、4070 Ti、4090)は生産終了となり、中古市場では希少で旧価格を上回る値段で取引されています。2026年のGDDR7/メモリ不足により50シリーズのカードでさえMSRPを大きく上回っているため、以下の各数値は2026年6月時点の典型的な実勢価格として扱い、購入前にライブの出品を確認してください。用途別の推奨:
- 7Bモデル(Mistral、Phi-4、Llama 3.1)向け — 予算重視: RTX 5060 Ti 16 GB(約$394、MSRPに近い)または中古のRTX 4060 8 GB(約$250)。あらゆる7BモデルをQ4_K_Mで実行。速度:50〜70 tok/sec。ティア:予算重視の愛好家。
- 14Bモデル(Qwen3 14B、DeepSeek-R1)向け — メインストリーム: RTX 5070(12 GB、約$609)。新品で最良の価格対性能のカード。Qwen3 14B Q4_K_Mが余裕をもって良好に動作します。速度:85〜110 tok/sec。ティア:最も人気。
- 24〜32Bモデル(Qwen3.6、Mistral Small)向け — ミドルレンジ: RTX 5070 Ti(16 GB、約$979)またはRTX 5080(16 GB、約$1,249)。Mistral Small 3.1 24BおよびDevstral Small 24B Q4_K_Mを実行。速度:110〜150 tok/sec。ティア:プロの開発者。
- 70Bモデル(Llama 3.3)向け — ハイエンド: RTX 5090(32 GB、MSRP約$2,000だが実勢約$4,000)は軽いCPUオフロードで70BをQ4_K_Mで収めます。中古のRTX 4090(24 GB、約$2,300)は70BをQ2_Kでのみ実行可能。完全なQ4_K_MにはデュアルRTX 5090を使用。速度:約200 tok/sec(5090、より小さなモデル)。ティア:研究+本番。
- 2026年のベストバリュー: 単一のRTX 5070 TiまたはRTX 5080(16 GB)がスイートスポットです — 5090にかかる50シリーズの価格高騰なしに、32BまでのすべてをQ4_K_Mで実行します。
- Appleユーザー向け: Mac M5 Max(128 GBユニファイドメモリ、約$6,000)は70BをQ4_K_Mで約12〜15 tok/secで実行します — マルチGPUデスクトップより遅いですが、静かで電力効率が良く、持ち運び可能です。
| GPU | Best For | Price | Speed | Tier |
|---|---|---|---|---|
| RTX 5060 Ti (16 GB) | 7-13B models | ~$394 | 50–70 tok/s | Budget |
| RTX 5070 (12 GB) | 14B models | ~$609 | 85–110 tok/s | Mainstream |
| RTX 5070 Ti / 5080 (16 GB) | 24-32B models | ~$979–1,249 | 110–150 tok/s | Professional |
| RTX 4090 (24 GB, used) | 32B, 70B (Q2) | ~$2,300 | 150–180 tok/s | EOL / used |
| RTX 5090 (32 GB) | 70B (Q4, light offload) | ~$2,000 MSRP (~$4,000 street) | ~200 tok/s | High-end |
| Dual RTX 5090 | 70B (Q4) full | ~$8,000 | 300+ tok/s | Enterprise |
| Mac M5 Max 128GB | 70B (Q4) | ~$6,000 | ~12–15 tok/s (70B) | Pro laptop |
⚠️Warning: 2026年6月の価格は変動が激しいです。GDDR7/メモリ不足によりRTX 5090は$1,999のMSRPの約2倍まで上昇し、生産終了のRTX 4090は新品時より中古の方が高くなっています。上記の価格は典型的な実勢価格です — 購入前に必ず現在の出品を確認してください。
VRAM要件はどう計算するのか?
VRAM要件は3つの要素に依存します:モデルサイズ(パラメータ)、量子化(重みあたりのビット数)、推論モード。 GPUに十分なメモリがあるか判断するには、この計算式を使ってください。インタラクティブな計算機については、ローカルLLM向けVRAM計算機を参照してください。
計算式:
```text VRAM (GB) = (Model Size × Quantization Bits) ÷ 8 ```
量子化の値: FP16 = 16ビット、Q8_0 = 8ビット、Q5_K_M = 5ビット、Q4_K_M = 4ビット。実用的なスイートスポットはQ4_K_Mです — 4ビットの重みとK量子化を使用し、これはNVIDIA GPUが古いQ4_0形式よりも効率的に高速化します。
| モデル | FP16 | Q8_0 | Q5_K_M | Q4_K_M |
|---|---|---|---|---|
| Llama 4 Scout (109B total MoE) | ~218 GB | ~109 GB | ~68 GB | ~55 GB |
| Llama 3.1 8B | 16 GB | 8.5 GB | 5.7 GB | 4.7 GB |
| Qwen 3.6 27B | ~54 GB | ~28 GB | ~19 GB | ~16 GB |
| Qwen3 8B | ~16 GB | ~8.5 GB | ~5.7 GB | ~5 GB |
| Llama 3.3 70B | 140 GB | 70 GB | 48 GB | 40 GB |
| Qwen3 32B | 64 GB | 33 GB | 22 GB | 19 GB |
| Mistral Small 3.1 24B | 48 GB | 25 GB | 17 GB | 14 GB |
| Phi-4 Mini 3.8B | 7.6 GB | 4.1 GB | 2.7 GB | 2.3 GB |
Q4_K_Mはコンシューマー向けハードウェアの推奨デフォルトです — VRAMコストの25〜30%でFP16品質の90〜95%を実現します。Llama 4 Scoutは合計109Bのうちアクティブパラメータ17BのMoEアーキテクチャを使用します。すべての109Bのエキスパートをメモリにロードする必要があるため、ScoutはQ4で約55 GBを必要とします(24 GBには1.78ビットでのみ収まる)。MoEはトークンあたりの計算量を削減しますが、VRAMフットプリントは削減しません。
•KeyPoint: 一文で言うと: VRAMはGPU専用のメモリプールであり、どのAIモデルをローカルで、どの品質で実行できるかを決定する唯一の数値です。
KVキャッシュ:隠れたVRAMコスト
VRAM計算式(モデルサイズ × ビット数 ÷ 8)はモデルの重みのみをカバーします — KVキャッシュは、ほとんどのガイドが無視する大きな追加VRAMを加えます。
KVキャッシュは、コンテキストウィンドウ内のすべてのトークンのアテンション状態を保存します。コンテキスト長に応じて線形に増加し、セッション中ずっとVRAMに残ります。
KVキャッシュのVRAM計算式: `KV cache ≈ layers × heads × head_dim × 2 × context_length × 2 bytes`
| モデル | 4Kコンテキスト | 32Kコンテキスト | 128Kコンテキスト |
|---|---|---|---|
| Llama 3.1 8B | 0.5 GB | 4 GB | 16 GB |
| Llama 3.3 70B | 2 GB | 16 GB | 64 GB |
| Qwen3 32B | 1 GB | 8 GB | 32 GB |
•KeyPoint: 一文で言うと: KVキャッシュは会話のコンテキストを保存するために使われる一時的なVRAMです — 生成するトークンごとに増加し、モデルの重みの保存とは別物です。
⚠️Warning: Llama 3.1 8BのQ4_K_Mは重みに4.7 GBを必要とします — しかし32Kコンテキストウィンドウを加えると合計VRAMは約8.7 GBに上昇します。8 GBのカードでは、これがOOMエラーを引き起こします。
•KeyPoint: 目安:典型的な8Kコンテキストにはモデルの重みサイズに25%、32Kコンテキストには100%を加えてください。Ollamaのデフォルトコンテキストは2,048トークンです。より高く設定するには:Modelfileで PARAMETER num_ctx 32768。
どのGPUティアがあなたのワークロードに合うか?
2026年6月時点で、NVIDIA GPUはすべての価格帯においてローカルLLM推論で最高のトークン/秒を提供します。 各ティアのセクションでは、具体的なモデルの推奨を示します。詳細なベンチマーク比較については、ローカルLLM向けベストGPUガイドを参照してください。
| ティア | GPU | VRAM | 最適な用途 | 速度 |
|---|---|---|---|---|
| Budget (~$394) | RTX 5060 Ti | 16 GB | 7-13B models | ~60 tok/s |
| Mainstream (~$609) | RTX 5070 | 12 GB | 7-14B models | ~90 tok/s |
| Mid (~$979) | RTX 5070 Ti | 16 GB | 14-32B models | ~110 tok/s |
| High (~$1,249) | RTX 5080 | 16 GB | 14-32B models | ~130 tok/s |
| Top (~$4,000 street) | RTX 5090 | 32 GB | 70B (Q4, light offload) | ~200 tok/s |
| Server ($7,000+) | RTX 6000 Ada / A100 | 48-80 GB | Multi-user, 70B+ | Production |
| Desktop AI ($4,699) | NVIDIA DGX Spark | 128 GB | Large MoE models | ~3 tok/s (dense 70B) |
•KeyPoint: 2026年6月時点で、RTX 50シリーズ(Blackwell)は現行世代であり、まだ生産されている唯一のNVIDIAコンシューマーカードです — RTX 40シリーズは生産終了です。RTX 5090(32 GB)は70B作業のために購入すべきカードですが、メモリ不足により実勢価格は$1,999のMSRPを大きく上回っています。
VRAMティア別ベストローカルLLM(2026年6月)
これをあなたのGPUのVRAMティア別のクイックルックアップとして使ってください:
以下に挙げるすべてのモデルはオープンウェイトです — ダウンロード可能で、ファインチューニング可能で、ローカルで無料で実行できます。オープンウェイトとプロプライエタリAPIのどちらを選ぶか迷っている場合は、異なるトークン量でのコストと性能のトレードオフについてオープンソース vs プロプライエタリLLM比較を参照してください。
ハードウェアはどのモデルを実行できるかを決定し、プロンプトエンジニアリングはそれらがどれだけうまく機能するかを決定します。7Bモデルでのよく構成されたプロンプトは、しばしば70Bモデルでの雑なプロンプトを上回ります。あらゆるパラメータ数で出力品質を最大化する手法については、完全なプロンプトエンジニアリングガイドを参照してください。
- 8 GB VRAM(RTX 5060 Ti、RTX 4060、Intel B580): Llama 3.1 8B Q4_K_M(4.7 GB、約70 tok/s) — 推奨。Qwen3 8B(5 GB、多言語+コーディング最良)。Phi-4 Mini 3.8B(2.3 GB、最速)。Gemma 3 4B(約3 GB、現行世代のGoogle小型モデル、マルチモーダル)。13B以上のモデルは避けましょう。
- 12 GB VRAM(RTX 4070 Ti、RTX 5070、Intel B770): Llama 3.1 8B(4.7 GB、余裕をもって高速)。Qwen3 14B Q4_K_M(8.5 GB、予算内でより良い推論)。Qwen3 8B(5 GB、多言語+コーディング最良)。DeepSeek-R1 8B(5 GB、最良の推論)。30B以上やLlama 4 Scout(Q4で約55 GB)のようなMoEモデルは避けましょう。
- 16 GB VRAM(RTX 4080、RTX 5070 Ti、RTX 5080): Mistral Small 3.1 24B Q4_K_M(14 GB、ティア最良の品質)。エージェント型コーディング向けのDevstral Small 24B Q4_K_M(約16 GB)。Qwen3 14B(9 GB、コンテキストの余裕をもって高速)。Q2_KでのLlama 3.3 70B(17 GB、可能だが品質低下)。
- 24 GB VRAM(RTX 5090、RTX 4090、Tesla L40): Qwen 3.6 27B Q4_K_M(約16 GB、77.2% SWE-bench、最良の密結合コーディングモデル)。DeepSeek-R1 32B Q4_K_M(約19 GB、最良の推論)。Qwen3 32B Q5_K_M(約21 GB)。Llama 3.3 70BはQ4_K_Mで2× 24 GB GPUを必要とします。
- 32 GB VRAM(RTX 5090): Llama 3.3 70B Q4_K_M(40 GB — 最後のレイヤーに最小限のCPUオフロードが必要)。Qwen3 32B(19 GB、13 GBの余裕をもって完全に収まる)。エージェント型コーディングには、Kimi K2系列(MoE、1T合計/32Bアクティブ、Modified MIT)がヘビー級の選択肢です — Kimi K2.7 Code(2026年6月)が最新で、K2.6が以前の汎用リリースです。どちらもこのティアでは量子化と大量のオフロードが必要です。RTX 5090は、最小限のオフロードで密結合の70Bを収める初の単一コンシューマーGPUです。
- 48 GB以上 VRAM(RTX 6000 Ada、A100、DGX Spark): Llama 3.3 70B Q4_K_M(40 GB、完全に収まる)。Llama 4 Scout(17Bアクティブ/109B合計 MoE、Q4で約55 GB — 最良のロングコンテキスト10Mトークン/マルチモーダルの選択肢)。Llama 4 Maverick(17Bアクティブ、400B合計、MoE)。Llama 3.3 70B Q8_0(70 GB — 80 GB A100が必要)。NVIDIA DGX Spark(128 GBユニファイド)は、Q8_0での70Bを含むすべてのオープンウェイトモデルを58 GBの余裕をもって収めます。
16 GB VRAM向けベストローカルLLM(2026)
2026年に16 GB VRAM GPU向けの最良のローカルLLMはMistral Small 3.1 24BのQ4_K_Mです:約13 GBを使用し、55 tok/secで動作し、コンテキストの余裕をもって収まる最強の汎用モデルです。 16 GBカード(NVIDIA RTX 5080、RTX 5070 Ti、中古のRTX 4080、またはRTX 4090ラップトップ)は14〜24Bモデルが上限です — 70Bモデルは約40 GBを必要とし、収まりません。
エージェント型コーディングには、Devstral Small 24B Q4_K_Mが約16 GBで収まります。推論には、DeepSeek-R1 14B Q8_0が選択肢です。新しいMistral Small 4(2026年3月)は、推論・ビジョン・コーディングを統合した単一モデルで、16 GBクラスのデフォルトとして自然な後継です。下記の表は何が収まり何が収まらないかを示します — 「収まらない」行は16 GBオーナーが最もよく犯す間違いです。
| Model | Quantization | VRAM Used | Speed (RTX 4080) | Best For | Fits 16 GB? |
|---|---|---|---|---|---|
| Mistral Small 3.1 24B | Q4_K_M | ~13 GB | 55 tok/sec | General chat | ✅ はい |
| Devstral Small 24B | Q4_K_M | ~16 GB | 45 tok/sec | Agentic coding | ✅ ぎりぎり |
| Qwen3 14B | Q8_0 | ~15 GB | 45 tok/sec | Coding + reasoning | ✅ はい |
| DeepSeek-R1 14B | Q8_0 | ~15 GB | 40 tok/sec | Math + analysis | ✅ はい |
| Llama 3.1 8B | FP16 | ~16 GB | 70 tok/sec | Fastest responses | ✅ ぎりぎり |
| Llama 3.3 70B | Q4_K_M | ~39 GB | -- | -- | ❌ いいえ(39 GBが必要) |
•ProTip: 🏆 16 GB向け総合ベスト:Mistral Small 3.1 24B Q4_K_M、約13 GB、55 tok/sec。エージェント型コーディングには、Devstral Small 24B(Mistral AI、フランス)を45 tok/secで使用。最良の推論:DeepSeek-R1 14B Q8_0、40 tok/sec。
⚠️Warning: RTX 4090ラップトップGPUは16 GB VRAM(24 GBではない)です。RTX 4080デスクトップと同じモデル上限を共有します。
•KeyPoint: 24 GB(RTX 4090デスクトップ)にアップグレードすべき時:32B以上のモデルをQ8で実行する必要がある場合、または再ロードせずに2つのモデルを同時に実行したい場合のみ。
どのローカルLLMが12 GB VRAMで最も良く動作するか?
12 GB VRAM GPU(NVIDIA RTX 5070、RTX 4070 Ti、またはRTX 3060 12 GB)では、7〜8BモデルをQ8で、または14BをQ4_K_Mで実行できます。 注:Llama 4 ScoutのようなMoEモデルはここには収まりません — Scoutはトークンあたり17Bパラメータのみをアクティブにしますが、109B合計のすべてのエキスパートをメモリにロードする必要があり、Q4で約55 GBを必要とします。
Llama 3.1 8BのQ8_0は保守的なセットアップに最も信頼できる選択肢です:9 GB VRAM、80 tok/sec、完全な指示追従品質。Qwen3 14BのQ4_K_Mも約8.5 GBで収まり、8Bティアより著しく良い推論を提供します。
| Model | Quantization | VRAM Used | Speed (RTX 4070 Ti) | Best For | Fits 12 GB? |
|---|---|---|---|---|---|
| Llama 3.1 8B | Q8_0 | ~9 GB | 80 tok/sec | Best overall, general chat + coding | ✅ はい |
| Qwen3 14B | Q4_K_M | ~8.5 GB | 65 tok/sec | Better reasoning on budget | ✅ はい |
| Llama 3.2 11B Vision | Q5_K_M | ~8 GB | 65 tok/sec | Image + text tasks | ✅ はい |
| Qwen3 8B | Q8_0 | ~8 GB | 85 tok/sec | Best multilingual + coding | ✅ はい |
| Mistral Small v0.3 | FP16 | ~14 GB | -- | -- | ❌ いいえ(FP16で14 GBが必要) |
| Llama 4 Scout (109B total MoE) | Q4_K_M | ~55 GB | -- | -- | ❌ いいえ(109Bのエキスパート全てをロードする必要あり) |
•ProTip: 🏆 12 GB向け総合ベスト:Llama 3.1 8B Q8_0、約9 GB、80 tok/sec。同じカードでより良い推論には、Qwen3 14B Q4_K_Mを約8.5 GBで使用。Llama 4 Scoutは収まりません — 109B合計のMoEエキスパートがQ4で約55 GBを必要とします。
•KeyPoint: RTX 3060 12GBは予算重視のエントリーポイント(中古約$200)です。すべての12 GBモデルを実行しますが、古いメモリアーキテクチャのため、RTX 4070 Tiの約80〜90 tok/secに対して約60〜70 tok/secです。
どの70Bモデルが実際に24 GB VRAM(RTX 4090)に収まるか?
70Bモデルを実用的なQ4_K_M品質でローカルに実行するためのハードウェア要件は約40 GBのVRAMです — したがって単一の24 GB RTX 4090では不十分です。 2026年における70Bの現実的な選択肢は:2× RTX 5090(合計64 GB)、軽いCPUオフロードを伴うRTX 5090(32 GB)、48〜80 GBのサーバーGPU(RTX 6000 Ada / A100)、またはApple M5 Max / 128 GBユニファイドメモリシステムです。よくある誤解は「Q4は小さい」というものですが — 70Bパラメータでは、Q4でさえ約40 GBを必要とします。
単一の24 GBカードでは、より良い戦略は27〜32Bモデルであり、強力な品質を提供し、コンテキストの余裕をもって快適に収まります。Qwen3.6 27BのQ4_K_Mは最良の密結合コーディングモデル(77.2% SWE-bench)であり、DeepSeek-R1 32Bは最良の推論の選択肢です。24 GB GPUは70BをQ2_Kでのみ保持でき、そこでは品質が著しく低下します。オフロードとデュアルGPUの手法については、24 GB VRAMで70Bモデルを実行する方法を参照してください。
| Model | Quantization | VRAM Required | Fits 24 GB? | Speed (RTX 4090) | Notes |
|---|---|---|---|---|---|
| Qwen 3.6 27B | Q4_K_M | ~16 GB | ✅ はい | 55 tok/sec | Best dense coding model, 77.2% SWE-bench |
| DeepSeek-R1 32B | Q4_K_M | ~19 GB | ✅ はい | 60 tok/sec | Best reasoning, strong overall quality |
| Qwen3 32B | Q5_K_M | ~21 GB | ✅ はい | 55 tok/sec | High quality, excellent coding + instruction |
| Qwen3 32B | Q8_0 | ~34 GB | ❌ いいえ | -- | Requires 48 GB GPU |
| Llama 3.3 70B | Q2_K | ~24 GB | ⚠️ かろうじて | 30 tok/sec | Fits but Q2 quality is noticeably degraded |
| Llama 3.3 70B | Q4_K_M | ~39 GB | ❌ いいえ | -- | Needs 2× RTX 4090 or A100 80 GB |
•KeyPoint: 🏆 RTX 4090(24 GB)向けベスト:最良の密結合コーディングモデルとしてQwen 3.6 27B Q4_K_M(約16 GB、77.2% SWE-bench)。推論には:DeepSeek-R1 32B Q4_K_M(約19 GB、60 tok/sec)。はるかに少ないVRAMでLlama 3.3 70B Q2_Kより優れています。
⚠️Warning: Q4以上で70Bの品質が特に必要な場合、RTX 4090は適切なGPUではありません。2× RTX 4090(テンソル並列で合計48 GB)またはRTX 6000 Ada(48 GB)が必要です。単一の4090で70BをQ2_Kで実行すると出力品質が著しく損なわれます。
どのCPUとRAMが必要か?
専用GPUがあれば、CPUとRAMは二次的なコンポーネントです。 GPUが行列計算を処理し、CPU/RAMがコンテキストの準備を管理します。GPU vs CPU vs Apple Siliconの推論速度の完全な比較については、GPU vs CPU vs Apple Siliconガイドを参照してください。
最小CPU:8コアプロセッサ(Intel Core i7第14世代、AMD Ryzen 7 7700X、またはそれ以降)。古いCPUは20%以上のレイテンシを追加します。
RAM:最低16 GB(GPUあり)。GPUなしで実行する場合は32 GB以上を推奨。GPUが存在する場合、RAMはモデルサイズを直接制限しません。
ストレージ:モデルファイルとOS用の500 GB SSD。M.2 NVMeが望ましい(より高速なモデルロード)。
GPUなしのシステムRAM 16 GBでどのモデルが良く動作するか?
GPUなしでも、システムRAM 16 GBのマシンはCPU推論を使って3B〜7Bモデルを8〜20トークン/秒で実行できます。 ボトルネックはメモリ帯域幅であり、RAM容量ではありません — CPUはGPUよりはるかに低い帯域幅しか持たず、これが推論が5〜10倍遅い理由です。
システムRAM 16 GBでは、実用的なルールは:モデルファイルサイズ + 4 GBのOSオーバーヘッド ≤ 16 GBです。7BモデルのQ4_K_M(4.9 GB)は収まりますが、長いコンテキストには余裕がほとんど残りません。下記の表は2026年6月時点の現実的な選択肢を示します。
CPUのみ、4 GB、6 GB、8 GB VRAMの各ティアを実際のベンチマークと共にカバーする速度最適化モデルの完全ガイドについては、**ローエンドPC向け最速ローカルLLM**を参照してください。
| Model | Quantization | RAM Used | Speed (Ryzen 9 7950X) | Best For | Notes |
|---|---|---|---|---|---|
| Gemma 2 2B | Q8_0 | ~2.7 GB | 28 tok/sec | Fastest, minimal RAM | Leaves 13 GB free for OS |
| Phi-4 Mini 3.8B | Q4_K_M | ~2.5 GB | 25 tok/sec | Coding on CPU | Best quality-per-RAM ratio |
| Llama 3.2 3B | Q8_0 | ~3.8 GB | 20 tok/sec | General chat, low RAM | Reliable, widely supported |
| Llama 3.1 8B | Q4_K_M | ~4.9 GB | 12 tok/sec | Best CPU quality | 12 tok/sec is slow but usable for batch tasks |
| Llama 3.1 8B | Q8_0 | ~9 GB | 8 tok/sec | Max quality on CPU | Too slow for interactive use on most CPUs |
•ProTip: 🏆 16 GB RAM、GPUなし向けベスト:Phi-4 Mini 3.8B Q4_K_M(2.5 GB、25 tok/sec)。そのサイズに対して驚くほど強力なコーディングと推論を提供します。
•KeyPoint: CPU vs GPU速度の現実:中古のNVIDIA RTX 3060 12 GB(約$200)はLlama 3.1 8Bを70 tok/sec以上で実行します — CPUのみの推論におけるRyzen 9 7950Xより5〜8倍高速です。速度が重要なら、RAMを追加する前にGPUを購入してください。
⚠️Warning: 16 GB RAMでCPUのみで7Bモデルを実行すると、OSとブラウザに7 GB未満しか残りません。長い会話コンテキスト(32k以上のトークン)では、モデルファイルが基本サイズを超えて増大し、RAM枯渇を引き起こす可能性があります。16 GBのCPUのみのマシンではコンテキストサイズを4096未満に保ってください。
どれだけのストレージが必要か?
モデルファイルは大きいです:4ビット量子化の7Bモデルは4〜5 GBです。 ローカルに保持したいモデルの数とサイズを中心にストレージを計画しましょう。
- 500 GB SSD:OS + 1〜2個の小型モデル(3B、7B)
- 1 TB SSD:OS + 3〜5個のモデル(7Bと13Bの組み合わせ)
- 2 TB SSD:OS + 10個以上のモデル(さまざまなサイズ)
- 4 TB NVMe RAID:本番セットアップ、高速なモデルロード
どのハードウェア構成を購入すべきか?
ローカルLLMマシンをゼロから構築するということは、まずGPUを優先し、次にCPUとRAMを優先することを意味します。 ここに3つの現実的な構成を示します。マルチGPU構成については、マルチGPUローカルLLMガイドを参照してください。ホームオートメーションのセットアップでは、フルデスクトップ構成よりコンパクトなミニPCの方が適していることが多いです — ローカルAI付きHome Assistant向けベストミニPC →を参照してください。
| Budget | GPU | CPU | RAM | Models | Cost |
|---|---|---|---|---|---|
| $1500 (entry) | RTX 4070 Ti | i7 13700 | 16 GB | 7-13B | Realistic |
| $2500 (solid) | RTX 4080 | i7 14700K | 32 GB | 13-30B | Recommended |
| $4000 (high-end) | 2× RTX 4090 | Ryzen 9 7950X | 128 GB | Any (70B+) | Overkill for personal |
ハードウェアを買う余裕がない場合は?
$250〜400のGPUが予算を超える場合、またはラップトップが古すぎて最新の推論エンジンをサポートできない場合、ローカルLLMは2026年のあなたにとって費用対効果が良くないかもしれません。
実際のコストを計算しましょう:
- ローカル:前払いハードウェア$800〜2,000 + 電気代 + 2〜3年にわたるメンテナンス
- クラウド:典型的な開発者の利用で月$5〜50(Llama APIまたはGPT-5.5 mini)
ライトユーザー(月10万トークン未満)の場合、クラウドAPIは月$5〜10で、ハードウェアは一切不要です。ヘビーユーザー(月1,000万トークン超)の場合、ローカルは6〜12ヶ月で損益分岐点に達します。
損益分岐点を見つけるには、**ローカル vs クラウドのコストと性能のトレードオフを完全比較**してください。多くの開発者は、実際の利用パターンではクラウドの方が安いことに気づきます。
すでに推奨VRAMティアを下回るものを検討中ですか?8 GB以下で実際に動作するモデルとアプリの組み合わせについては、ローエンドPC向けベストローカルAIアプリを参照してください。
RTX 4070 Tiでllama.cppの速度を最大化するには?
正しい設定により、RTX 4070 Ti上のllama.cppはLlama 3.1 8B Q4_K_Mで85〜95トークン/秒を達成します — デフォルトの初期速度の2倍以上です。 最も影響の大きい単一のフラグは `--n-gpu-layers 99` で、これはすべてのモデルレイヤーをGPUにオフロードします。これがないと、レイヤーがCPUにフォールバックし、深刻なボトルネックを生みます。
これらの設定はllama.cppに直接、そしてOllama(内部でllama.cppを使用)に適用されます。Ollamaはドライバーが正しくインストールされていればNVIDIAハードウェアで自動的に `--n-gpu-layers 99` を設定します。
- Q4_K_MはRTX 4070 TiでQ4_0を15〜20%上回ります。 K_Mバリアントは、NVIDIAテンソルコアがより効率的に高速化する混合量子化を使用します。両方が利用可能な場合は常にQ4_0よりQ4_K_Mを選びましょう。
- IQ4_XS は最小の形式(Q4_K_Mより約8%小さい)で、品質損失は最小限です。Q4_K_Mがぎりぎりの場合にQwen3 14Bを12 GB VRAMに収めるのに便利です。
- Q5_K_M はNVIDIA GPUでQ4_K_Mとほぼ同じ速度(5%未満の低下)で動作しながら、著しく良い出力品質を提供します。20%のVRAMの余裕がある場合に使う価値があります。
| Flag | What It Does | Impact | Default | Notes |
|---|---|---|---|---|
| --n-gpu-layers 99 | Offloads all layers to GPU | +100-150% speed | 0 (CPU only) | Most important flag -- always set this first |
| --threads [cores] | CPU threads for prompt processing | +10-15% speed | All threads (including HT) | Set to physical core count only. Hyperthreading hurts inference. |
| --ctx-size 2048 | KV cache / context window size | Saves 0.5-8 GB VRAM | 4096 | 2048 = ~0.5 GB extra VRAM. 32768 = ~8 GB extra. Only increase if needed. |
| --n-batch 512 | Prompt processing batch size | +5-10% throughput | 512 | Good default. Increase to 1024 for batch workloads if VRAM allows. |
| --flash-attn | Flash Attention 2 kernel | -20-30% VRAM at long ctx | Disabled | Available since llama.cpp b2900. Reduces VRAM for contexts > 8k tokens. |
•ProTip: `ollama ps` を実行して、モデルがGPUにロードされていることを確認しましょう。生成中に `nvidia-smi` でGPU使用率が0%と表示される場合、ドライバーがCUDAに正しくルーティングしていません。NVIDIA CUDA Toolkitを再インストールし、Ollamaを再起動してください。
•KeyPoint: RTX 4070 Ti速度リファレンス:Llama 3.1 8B Q4_K_M = 85〜95 tok/sec。Llama 3.3 13B Q4_K_M = 60〜70 tok/sec。Qwen3 7B Q8_0 = 90〜95 tok/sec。これらは --n-gpu-layers 99 と --ctx-size 2048 を前提とします。
⚠️Warning: 12 GB GPUで --ctx-size を8192を超えて増やすと、KVキャッシュが残りのVRAMを使い果たした場合にモデルレイヤーがCPUにオフロードされて戻ります。長い会話で速度が突然低下した場合は、コンテキストサイズを減らすか --flash-attn を使用してください。
MacハードウェアはローカルLLMを実行できるか?
Apple Silicon(Mシリーズ)は、CPUとGPU間で共有されるユニファイドメモリを使用してローカルLLMを効率的に実行します。 ベースのM5は2025年10月に発売され、M5 ProとM5 Maxは2026年3月に続きました。AppleはM5 Pro/MaxでM4世代に対してLLMのプロンプト処理(最初のトークンまでの時間)が最大4倍速いと測定していますが、トークン生成の向上はより控えめです。
128 GBユニファイドメモリ(最大614 GB/s)を備えたM5 Maxは、ラップトップまたはMac Studioフォームファクタで70BモデルをQ4_K_Mで快適に — およそ12〜15 tok/secで — 実行します。M5 Pro(最大64 GBユニファイド、307 GB/s)は、KVキャッシュとマルチタスクのための十分な余裕をもって32Bモデルを扱います。2026年6月時点でM5 Maxは出荷中の最上位Apple Siliconです。M5 Ultra Mac Studioは噂されていますがまだ発売されていません。
RAM 8 GBのMacBookでは、3〜4Bモデルにとどめましょう。 OSとモデルの間で共有されるユニファイドメモリでは、8 GBは現実的にPhi-4 Mini 3.8B、Llama 3.2 3B、またはGemma 3 4BをQ4_K_MでOllamaまたはllama.cpp経由で収めます(どちらも自動的にMetal GPUバックエンドを使用)。7Bモデルは8 GBではぎりぎりで、負荷時にスワップします。16 GBがMacで7〜8Bモデルを使うための快適な最小値です。
| Mac | GPU Memory | Best For | Limitation |
|---|---|---|---|
| M-series 8 GB (Air / base) | 8 GB unified | 3-4B models (Phi-4 Mini, Gemma 3 4B) | 7B borderline; OS competes for RAM |
| M3 Pro MacBook Pro 16" | 18 GB unified | 7-8B models (fast) | Can run 14B slowly |
| M4 Max | 36-128 GB unified | 13-32B models | 70B only at top 128 GB config |
| M5 Pro (MacBook Pro) | 64 GB unified, 307 GB/s | 32B models comfortably | Llama 4 Scout runs well |
| M5 Max (MacBook Pro / Studio) | 128 GB unified, up to 614 GB/s | 70B models at Q4_K_M | ~12-15 tok/sec on 70B |
サーバーとコンシューマーのハードウェアはいつ使うべきか?
本番デプロイ(24時間365日の運用、複数ユーザー)には、コンシューマーGPUよりサーバーグレードのハードウェアが推奨されます。 コンシューマーハードウェアはゲーム向けに最適化されており、持続的な推論向けではありません。
- コンシューマー(RTX 5090):MSRP約$2,000(2026年の実勢約$4,000)、32 GB VRAM、シングルユーザー、持続負荷下でサーマルスロットリングを起こしやすい。
- サーバー(RTX 6000 Ada):約$7,000、48 GB VRAM、24時間365日の使用向けに設計、より良い冷却、エラー訂正。
- 推奨:RTX 5090から始めましょう。複数ユーザー向けに70Bモデルを24時間365日実行する場合は、デュアルA100またはRTX 6000 Adaにアップグレードしてください。
NVIDIA DGX Spark:128 GBデスクトップAIコンピュータ
NVIDIA DGX Spark(2026年2月時点で$4,699、$3,999の発売価格から上昇)は、Llama 3.3 70BをQ8_0で完全にユニファイドメモリに収められるコンパクトな128 GBデスクトップAIコンピュータです。 128 GBのApple Mac Studio / MacBook ProやAMD Strix Halo 128 GBシステムも同じことができるため、唯一無二ではありません — しかしNVIDIAのCUDAソフトウェアスタックが付属します。
GB10 Grace Blackwell Superchipに基づいて構築されたDGX Sparkは、128 GB LPDDR5xユニファイドメモリを搭載して2025年10月に発売されました。注:その実メモリ帯域幅は約273 GB/sなので、密結合の70Bのトークン生成は遅いです — 独立したテスト(LMSYS)はLlama 70Bでおよそ3 tok/secを測定しました。FP4計算の目玉数値は高速なシングルストリームデコードには変換されません。DGX Sparkは、トークンごとにパラメータの一部のみがアクティブになる大規模なmixture-of-expertsモデル(Llama 4 Scout/Maverick、Kimi K2)に最も適しています。
| Spec | Value |
|---|---|
| Unified memory | 128 GB LPDDR5x |
| Llama 3.3 70B at Q4_K_M | ✅ fits (40 GB) |
| Llama 3.3 70B at Q8_0 | ✅ fits (70 GB) |
| Inference speed (70B) | ~3 tok/s |
| Price | $4,699 |
| OS | DGX OS (Ubuntu), Ollama pre-installed |
| Memory bandwidth | ~273 GB/s (real) |
| vs RTX 5090 | 4× more memory, but far lower bandwidth |
•KeyPoint: 独立したGPU(RTX 5090、またはデュアル5090)は、はるかに高いメモリ帯域幅のため、密結合モデルでDGX Sparkよりはるかに高速にトークンを生成します。DGX Sparkは容量のために — 非常に大規模なMoEモデルを1台に収めるために — 選びましょう。シングルストリームの70B速度のためではありません。
最もよくあるハードウェアの間違いは何か?
- GPUが利用可能なのにCPUのみを購入する。 $600のRTX 4070 Tiは$2000のCPUを上回ります。GPUがLLM速度を支配します。
- VRAMオーバーヘッドを考慮しない。 モデルファイルサイズ + システムオーバーヘッド + コンテキスト = 使用される合計VRAM。常にモデルサイズより25%多く購入しましょう。
- すべての70Bモデルが40GB VRAMに収まると仮定する。 Q4(4ビット)量子化でのみ、かろうじて収まります。Q5は45 GB以上を必要とします。
- 電源と冷却を無視する。 RTX 4090は575Wを消費します。1200WのPSUと良好なケースのエアフローが必要です。
- 古いGPUで動くと考える。 RTX 2080はRTX 4070 Tiより10倍遅いです。最新のGPUアーキテクチャは前世代を大幅に上回ります。
- モデルの重みに加えてKVキャッシュのVRAMを考慮しない: 7BモデルのQ4_K_Mは重みで4.7 GBですが — 32Kコンテキストウィンドウでは、KVキャッシュが約4 GBを追加し、合計約8.7 GBになります。8 GBのカードではこれがOOMエラーを引き起こします。コンテキスト長に応じて常にモデルサイズに25〜100%を加えてください。
- ハードウェアコストを唯一のコストとして扱う: 16 GB以上のRAMや専用GPUを買う余裕がない場合、低ボリュームの利用ではクラウドAPIの方が安くつきます(1Kトークンあたり$0.01〜0.05)。完全なトレードオフについてはローカルLLM vs クラウド:コスト分析を参照してください。
ローカルLLMハードウェアにはどの地域別コンプライアンスルールが適用されるか?
EU(GDPR + EU AI法): LLMをローカルで実行すると、すべての推論データがあなたのインフラ内に保たれ、GDPR第44条に基づく越境データ転送の懸念が排除されます。スタンドアロンの高リスクAIシステム(附属書III)に対するEU AI法の義務は当初2026年8月2日から適用される予定でしたが、「AIに関するデジタル・オムニバス」 — 2026年5月に暫定合意され、2026年6月時点で正式採択を待っている — がその日付を2027年12月2日に延期します(規制対象製品に組み込まれた高リスクAIは2028年8月2日に延期)。AI法第50条の透明性義務は依然として当初のスケジュールで適用されます。ローカルハードウェアはデフォルトでデータレジデンシー要件を満たします。
日本(個人情報保護法): 日本の2022年の個人情報保護法改正は、漏洩通知と越境転送のルールを厳格化しましたが、AI固有のデータ最小化要件は課していません(一般的な目的制限義務に依拠)。AIにより関連するのは、日本の2025年の個人情報保護法改正パッケージと初のAI法 — AI推進法(2025年6月施行)であり、これは罰則のないイノベーション優先の枠組みです。オンプレミスのLLMハードウェアは、文書処理やカスタマーサポートの自動化のために個人データをあなたのインフラ内に保ちます。
中国: 中国のインターネット情報弁公室(CAC)の生成AIサービス暫定弁法(2023年8月施行)は、世論への影響力を持つ提供者にCACセキュリティ評価とアルゴリズム届出の完了を求めます。2025年9月1日以降、中国はCACラベリング弁法および国家標準GB 45438-2025に基づき、AI生成コンテンツのラベリングも義務付けています。オープンウェイトモデルでローカルハードウェアを実行することで、社内の企業利用におけるAPIベースのコンプライアンスリスクを回避できます。
ローカルLLMハードウェアに関するよくある質問
ラップトップで70Bモデルを実行できますか?
重い量子化(Q2、2ビット)とCPUフォールバックがある場合のみ。非実用的です。ラップトップは7Bモデルに適しています。70Bには、RTX 4090以上を備えたデスクトップを使ってください。
個人利用にRTX 4090はオーバースペックですか?
70Bモデルを実行する場合や複数のモデルを同時に実行する場合はそうではありません。7Bチャットだけなら、RTX 4070 Tiで十分です。柔軟性が欲しいなら、RTX 4090は将来性があります。
RTX 5090を買うべきか、RTX 6090を待つべきか?
RTX 5090は入手可能です(2026年初頭)。RTX 6000 AdaサーバーGPUも堅実です。無制限の予算がない限り、RTX 5090または4090は優れています。
量子化は品質にどう影響しますか?
FP16 = 100%品質(ベースライン)、Q8 = 99%、Q5 = 95%、Q4 = 90〜95%。ほとんどのタスクで、Q4はFP16と区別がつきません。
後でGPUをアップグレードできますか?
はい。今はRTX 4070 Tiから始め、必要なら2年後にRTX 5090にアップグレードしましょう。GPUは最も交換しやすいコンポーネントです。
7Bモデルをローカルで実行するにはどれだけのRAMが必要ですか?
8 GB RAMが7Bモデルの絶対的な最小値です。ブラウザやOSと並んで快適に使うには16 GBを推奨します。32 GBはより大きなコンテキストウィンドウとマルチタスクのための余裕を与えます。
Apple Silicon(M1/M2/M3/M4/M5)でローカルLLMを実行できますか?
はい。Apple SiliconはCPUとGPU間で共有されるユニファイドメモリを使用します。M5 Pro(64 GB、307 GB/s)は32Bモデルを良く実行します。M5 Max(128 GB、最大614 GB/s)は70BをQ4_K_Mでおよそ12〜15 tok/secで実行します。8 GBのMacでは、3〜4Bモデルにとどめましょう。
M3と8 GB RAMのMacBookに最適なllama.cppモデルは何ですか?
M3と8 GB RAMのMacBookでは、3〜4BモデルをQ4_K_Mで実行しましょう:Phi-4 Mini 3.8B、Llama 3.2 3B、またはGemma 3 4B。OllamaまたはllamaCpp(どちらも自動的にMetal GPUバックエンドを使用)を使用してください。7Bモデルはぎりぎりで負荷時にスワップします。コンテキストを4096トークン未満に保ってください。Macで快適に7〜8Bを使うには、16 GBユニファイドメモリが実用的な最小値です。
GPUなしでローカルLLMに最適なCPUは何ですか?
大きなL3キャッシュを備えた高コア数のCPU:AMD Ryzen 9 7950XまたはIntel Core i9-14900K。7Bモデルで5〜15トークン/秒を見込めます。CPU推論はGPUより3〜5倍遅いです。
ストレージ速度はローカルLLMの性能に影響しますか?
はい、モデルのロード時に。NVMe SSD(3〜7 GB/s)は7Bモデルを2〜5秒でロードします(HDDでは20〜60秒)。ロード後の推論速度はストレージの影響を受けません。
複数のGPUを使ってより大きなモデルを実行できますか?
はい、テンソル並列を介して。2つのRTX 5090(各32 GB)は64 GBのVRAMを提供し、Q4_K_Mでの70Bモデルに十分です。Ollamaとllama.cppは --n-gpu-layers をカード間で分割することでマルチGPUをサポートします。
2026年に16 GB VRAMに最適なローカルLLMは何ですか?
Mistral Small 3.1 24B Q4_K_M(13 GB、55 tok/sec)が、RTX 5080 / RTX 5070 Ti / RTX 4090ラップトップ向けの総合ベストです。エージェント型コーディングには:Devstral Small 24B Q4_K_M(16 GB、45 tok/sec)。推論には:DeepSeek-R1 14B(15 GB、40 tok/sec)。新しいMistral Small 4(2026年3月)は単一モデルの後継です。Llama 3.3 70Bは収まりません — Q4_K_Mで約40 GBを必要とします。
単一のRTX 4090は70Bモデルを良い品質で実行できますか?
いいえ — Q4_K_M品質では無理です。Llama 3.3 70BのQ4_K_Mは約39 GBのVRAMを必要とします。RTX 4090は24 GBです。Q2_K(約24 GB)で実行できますが、品質が著しく低下します。より良い選択肢:Qwen 3.6 27B Q4_K_M(約16 GB、77.2% SWE-bench、最良の密結合コーディング)またはDeepSeek-R1 32B Q4_K_M(約19 GB、最良の推論)。
GPUなしの16 GBシステムRAMに最適なローカルLLMは何ですか?
Phi-4 Mini 3.8B Q4_K_M(2.5 GB RAM、Ryzen 9 7950Xで約25 tok/sec)が、16 GBシステムRAMでのCPUのみの推論に最適な選択肢です。Gemma 2 2B Q8が約28 tok/secで最速です。Llama 3.1 8B Q4_K_M(4.9 GB)も収まりますが約12 tok/secで動作します — インタラクティブな利用には遅いです。
出典
- NVIDIA. (2026). "GeForce GPU Specifications." https://www.nvidia.com/en-us/geforce/graphics-cards/ -- RTX 40シリーズおよびRTX 50シリーズGPUの公式VRAMと帯域幅仕様。
- Apple. (2026). "Apple M5 Chip." https://www.apple.com/mac/ -- M5 Pro/Maxの仕様、メモリ帯域幅、LLM性能の主張。M5は70BモデルをQ4_K_Mで快適に実行する初のMacです。
- NVIDIA. (2025). "DGX Spark Product Page." https://www.nvidia.com/en-us/products/workstations/dgx-spark/ -- GB10 Grace Blackwell Superchipと128 GBユニファイドメモリの公式仕様。
- Meta AI. (2024). "Llama 3.3 Model Card." https://llama.meta.com/ -- 公式のLlama 3.3 70B仕様とVRAM要件。
- Meta AI. (2025). "Llama 4 Model Card." https://llama.meta.com/ -- Llama 4 Scout/Maverick MoEアーキテクチャ、VRAM要件。