重要なポイント
- VRAM数学: (GB単位のモデルサイズ) ÷ 量子化 = 必要なVRAM。例: 4ビットの70Bモデル = 70 ÷ 8 = 8.75 GB。
- 12 GB VRAM (RTX 4070 Ti): 最良: Llama 4 Scout 17B Q4_K_M (~10 GB、MoE、最高品質)。また: Llama 3.1 8B Q8 (~9 GB、80 tok/s)。
- 16 GB VRAM (RTX 4080 / RTX 5080): 最良: Mistral Small 3.1 24B Q4_K_M (~13 GB、55 tok/s)。エージェント型コーディング: Devstral Small 24B Q4_K_M。
- 24 GB VRAM (RTX 4090): 70Bモデルはq4で合いません。最良: Qwen 3.6 27B Q4_K_M (~16 GB、77.2% SWE-bench) または DeepSeek-R1 32B Q4_K_M (~19 GB、60 tok/s)。
- Apple M5 Max (128 GB統合): Q4_K_MでLLM 70Bを実行する最初のMac – 2× RTX 4090デスクトップに相当。ラップトップまたはMac Studioフォームファクタ。
- 予算: RTX 4070 Ti最高のバリュー (~¥150,000、7-14Bモデル処理)。RTX 4090シングルGPUモデル用 (~¥500,000)。
VRAM要件をどのように計算しますか?
VRAM要件は3つの要因に依存します: モデルサイズ (パラメータ)、量子化 (ウェイトごとのビット数)、推論モード。
公式:
``` VRAM (GB) = (モデルサイズ × 量子化ビット) ÷ 8 ```
量子化値: FP16 = 16 ビット、Q8 = 8 ビット、Q5 = 5 ビット、Q4 = 4 ビット。
| モデル | FP16 (最高品質) | Q8 (優秀) | Q5 (良好) | Q4 (良好、最小) |
|---|---|---|---|---|
| Llama 3.1 7B | 14 GB | 7 GB | 4.4 GB | 3.5 GB |
| Llama 3.1 13B | 26 GB | 13 GB | 8.1 GB | 6.5 GB |
| Llama 3.1 70B | 140 GB | 70 GB | 43.75 GB | 35 GB |
| Qwen2.5 32B | 64 GB | 32 GB | 20 GB | 16 GB |
どのGPUを購入すべきか?
2026年5月現在、NVIDIAはローカルLLMパフォーマンスを支配しています。レコメンデーション:
ハードウェアは実行できるモデルを決定し、プロンプトエンジニアリングはそのパフォーマンスを決定します。7Bモデルへの適切なプロンプトは、70Bモデルへの雑なプロンプトを上回ることがよくあります。どのパラメータ数でも出力品質を最大化するテクニックについては、プロンプトエンジニアリングガイド完全版をご覧ください。
| ティア | GPU | VRAM | 最適用途 | パフォーマンス |
|---|---|---|---|---|
| 予算 (¥95,000) | RTX 4070 Ti / RTX 5070 | 12 GB | 7-13B モデル | 高速 (80 トークン/秒) |
| 中級 (¥180,000) | RTX 4080 / RTX 5080 | 16 GB | 13-30B モデル | 非常に高速 (120 トークン/秒) |
| ハイエンド (¥270,000) | RTX 4090 / RTX 5090 | 24 GB | すべての70Bモデル | 非常に高速 (150 トークン/秒) |
| サーバー (¥450,000+) | RTX 6000 Ada / A100 | 48+ GB | マルチユーザー、70B+ | プロダクション品質 |
どのCPUとRAMが必要ですか?
GPUがあれば、CPUとRAMは二次的です。 GPUが主要な計算を行い、CPU/RAMがコンテキスト準備を処理します。
最小CPU: 8コアプロセッサ (Intel i7 12世代、AMD Ryzen 7 7700X、またはそれ以降)。古いCPUは20%+のレイテンシを追加します。
RAM: 16 GB最小 (GPUを使用する場合)。GPUなしで実行する場合、32+ GB が推奨されます。RAMはGPUが存在する場合、モデルサイズを直接制限しません。
ストレージ: モデルファイルとOSの場合は500 GB SSD。M.2 NVMe が推奨されます (モデル読み込みが高速)。
どの程度のストレージが必要ですか?
モデルファイルは大きいです。 4ビット量子化での7Bモデルは4-5 GBです。それに応じて計画してください:
- 500 GB SSD: OS + 1-2個の小さいモデル (3B、7B)
- 1 TB SSD: OS + 3-5個のモデル (7Bと13Bの混合)
- 2 TB SSD: OS + 10個以上のモデル (さまざまなサイズ)
- 4 TB NVMe RAID: プロダクションセットアップ、高速モデル読み込み
予算ビルドレコメンデーション
ローカルLLMマシンをスクラッチから構築する:
| 予算 | GPU | CPU | RAM | モデル | コスト |
|---|---|---|---|---|---|
| ¥225,000 (エントリー) | RTX 4070 Ti | i7 13700 | 16 GB | 7-13B | 現実的 |
| ¥370,000 (堅牢) | RTX 4080 | i7 14700K | 32 GB | 13-30B | 推奨 |
| ¥580,000 (ハイエンド) | 2× RTX 4090 | Ryzen 9 7950X | 128 GB | すべて (70B+) | 個人向けはオーバーキル |
ハードウェアを購入できない場合はどうしますか?
¥37,500–60,000のGPUが予算外か、ラップトップが古すぎて最新の推論エンジンに対応できない場合、ローカルLLMは2026年にあなたにとってコスト効率が悪い可能性があります。
実際のコストを計算します:
- ローカル: ¥120,000–300,000の初期ハードウェア + 電気代 + 2–3年にわたる保守
- クラウド: 一般的な開発者の使用で月額$5–50 (Llama APIまたはGPT-4o mini)
軽度のユーザー (100,000トークン/月未満) の場合、クラウドAPI は月額$5–10で、ハードウェアは不要です。ヘビーユーザー (1000万トークン/月超) の場合、ローカルは6–12か月で元が取れます。
ローカルとクラウドの完全なコストと性能トレードオフを比較する**分岐点を見つけるため。多くの開発者は、彼らの実際の使用パターンではクラウドの方が安いことを発見します。
推奨 VRAM ティアより下のハードウェアを検討中ですか? 実際に 8 GB 以下で動くモデルとアプリの組み合わせは、ロースペック PC におすすめのローカル AI アプリを参照してください。
ローカルLLM用Macハードウェア
Apple Silicon (M シリーズ) はローカルLLMに驚くほど適しています。 M3/M4 MaxとProは7-13Bモデルをよく処理します。
| Mac | GPU メモリ | メモリ帯域幅 | 最適用途 | 推論速度 |
|---|---|---|---|---|
| M5 Pro (64GB) | 64 GB ユニファイド | 307 GB/s | 13-30B モデル (優秀) | 25-35 tok/s |
| M5 Max (128GB) | 128 GB ユニファイド | 460-614 GB/s | 任意の 70B モデル | 20-30 tok/s (70B) |
サーバーハードウェア対コンシューマーハードウェア
プロダクション展開には、サーバーグレードのハードウェアが推奨されます:
- コンシューマー (RTX 4090): ~¥270,000、24 GB VRAM、シングルユーザー、継続的負荷下ではサーマルスロットリングの傾向。
- サーバー (RTX 6000 Ada): ~¥750,000、48 GB VRAM、24/7 使用設計、より良い冷却、エラー訂正。
- レコメンデーション: RTX 4090 で開始します。70B モデルを複数ユーザーに24/7実行する場合、デュアル A100 または RTX 6000 にアップグレードします。
ハードウェア計画での一般的な間違い
- GPU が利用可能なときに CPU のみを購入。 ¥95,000 RTX 4070 Ti は ¥300,000 CPU を上回ります。GPU は LLM 速度を支配します。
- VRAM オーバーヘッドを考慮しない。 モデル ファイル サイズ + システム オーバーヘッド + コンテキスト = 使用される総 VRAM。常にモデル サイズより 25% 多く購入。
- すべての 70B モデルが 40GB VRAM に収まると仮定。 かろうじて、Q4 (4 ビット) 量子化のみ。Q5 は 45+ GB が必要。
- 電源供給とクーリングを無視。 RTX 4090 は 575W を消費します。1200W PSU と適切なケースエアフローが必要。
- 古い GPU が機能すると考える。 RTX 2080 は RTX 4070 Ti より 10 倍遅い。最新 GPU アーキテクチャは重要です。
ローカルLLMハードウェアについてよくある質問
ラップトップで 70B モデルを実行できますか?
Heavy 量子化 (Q2、2 ビット) と CPU フォールバックのみ。非現実的。ラップトップは 7B モデルに適しています。70B の場合は、RTX 4090 以上のデスクトップを使用します。
個人使用には RTX 4090 はオーバーキルですか?
いいえ、70B モデルを実行するか、複数のモデルを同時に実行する場合。7B チャットのみの場合、RTX 4070 Ti で十分です。柔軟性を望む場合、RTX 4090 は将来に備えています。
RTX 5090 を購入するか RTX 6090 を待つべきですか?
RTX 5090 は利用可能 (2026 年初頭)。RTX 6000 Ada サーバー GPU も堅牢です。予算が無制限でない限り、RTX 5090 または 4090 は優れています。
量子化は品質にどのように影響しますか?
FP16 = 100% 品質 (ベースライン)、Q8 = 99%、Q5 = 95%、Q4 = 90-95%。ほとんどのタスクでは、Q4 は FP16 と区別がつきません。
後で GPU をアップグレードできますか?
はい。今は RTX 4070 Ti で開始し、必要に応じて 2 年後に RTX 5090 にアップグレード。GPU は最も交換可能なコンポーネント。
Apple Silicon (M1/M2/M3/M5) でローカル LLM を実行できますか?
はい。Apple Silicon は CPU と GPU 間で共有される統一メモリを使用します。M5 Pro (64GB ユニファイドメモリ、307GB/s) は 32B モデルを 25-35 token/sec で実行します。M5 Max (128GB ユニファイドメモリ、460-614GB/s) はすべての 70B モデルを簡単に実行できます。M2 Pro (16 GB) は 7B モデルを 30-50 token/sec で実行できます。
24GB VRAM (RTX 4090) に 27B または 32B モデルが収まりますか?
はい、利用可能な最高です。Qwen 3.6 27B Q4_K_M (~16 GB、77.2% SWE-bench) は最高の Dense コーディングモデルです。DeepSeek-R1 32B Q4_K_M (~19 GB) は最高の推論です。両方とも KV キャッシュおよびマルチタスク用に 5-8 GB の余裕で収まります。
関連資料
- VRAM 計算機 ローカル LLM -- ハードウェア要件を計算するインタラクティブツール。
- GPU 対 CPU 対 Apple Silicon -- ハードウェア オプションの深い比較。
- ローカル LLM 用ベスト GPU -- 詳細な GPU ベンチマークと選択ガイド。
- 24GB VRAM で 70B モデルを実行 -- 大きなモデル向けの高度な技法。
- マルチ GPU ローカル LLM -- 複数 GPU 間でのスケーリング。
- 2026年コーディング用ローカルLLM比較 — Qwen2.5-CoderとDeepSeekのベンチマーク
- ローカルLLM向けApple Silicon:完全ガイド -- M1からM5 Max:Unified Memory、Metal GPU、チップ別フレームワーク選択。
- MacでOllama:Apple Siliconセットアップ2026 -- 2分でゼロから動作まで:Metal GPU自動検証付き1コマンドインストール。
- Apple Silicon 2026でのWhisper -- M1–M5でのMetalとCore ML経由のSTTベンチマーク:large-v3で10倍リアルタイム。
ソース
- NVIDIA GPU 仕様 -- nvidia.com/ja/geforce/graphics-cards/
- Apple M5 ハードウェア仕様 -- apple.com/jp/mac/m5 (公式仕様、64GB および 128GB ユニファイドメモリ、307-614GB/s 帯域幅)
- Llama 4 Scout モデル -- meta.com/research (MoE アーキテクチャ、17B アクティブパラメータ、109B 合計)
- Qwen3 および Qwen 3.6 モデル -- huggingface.co/qwen (パフォーマンスベンチマーク、77.2% SWE-bench コーディング)
- LLM VRAM 計算機 -- vram.asult.com (参照)
- モデル量子化ベンチマーク -- huggingface.co/docs/transformers