ローカルLLMを実行するには、GPU（オプションですが推奨）、CPU、RAMの3つのコンポーネントを理解する必要があります。2026年5月現在、7Bパラメータモデルには最小8 GB RAMが必要で、70Bモデルには40+ GB必要です。このガイドでは、RTX 5090、4090、Apple Silicon、予算ビルドの実際のハードウェアレコメンデーション、およびあらゆるモデルサイズの要件を計算するためのVRAM数学をカバーしています。

重要なポイント

VRAM数学: (GB単位のモデルサイズ) ÷ 量子化 = 必要なVRAM。例: 4ビットの70Bモデル = 70 ÷ 8 = 8.75 GB。
12 GB VRAM (RTX 4070 Ti): 最良: Llama 4 Scout 17B Q4_K_M (~10 GB、MoE、最高品質)。また: Llama 3.1 8B Q8 (~9 GB、80 tok/s)。
16 GB VRAM (RTX 4080 / RTX 5080): 最良: Mistral Small 3.1 24B Q4_K_M (~13 GB、55 tok/s)。エージェント型コーディング: Devstral Small 24B Q4_K_M。
24 GB VRAM (RTX 4090): 70Bモデルはq4で合いません。最良: Qwen 3.6 27B Q4_K_M (~16 GB、77.2% SWE-bench) または DeepSeek-R1 32B Q4_K_M (~19 GB、60 tok/s)。
Apple M5 Max (128 GB統合): Q4_K_MでLLM 70Bを実行する最初のMac – 2× RTX 4090デスクトップに相当。ラップトップまたはMac Studioフォームファクタ。
予算: RTX 4070 Ti最高のバリュー (~¥150,000、7-14Bモデル処理)。RTX 4090シングルGPUモデル用 (~¥500,000)。

VRAM要件をどのように計算しますか?

VRAM要件は3つの要因に依存します: モデルサイズ (パラメータ)、量子化 (ウェイトごとのビット数)、推論モード。

公式:

``` VRAM (GB) = (モデルサイズ × 量子化ビット) ÷ 8 ```

量子化値: FP16 = 16 ビット、Q8 = 8 ビット、Q5 = 5 ビット、Q4 = 4 ビット。

モデル	FP16 (最高品質)	Q8 (優秀)	Q5 (良好)	Q4 (良好、最小)
Llama 3.1 7B	14 GB	7 GB	4.4 GB	3.5 GB
Llama 3.1 13B	26 GB	13 GB	8.1 GB	6.5 GB
Llama 3.1 70B	140 GB	70 GB	43.75 GB	35 GB
Qwen2.5 32B	64 GB	32 GB	20 GB	16 GB

公式 (モデルサイズ × ビット) ÷ 8 を示すVRAM計算機、例付き: 7B Q4 = 3.5 GB、13B Q5 = 8.1 GB、70B Q4 = 35 GB。Q4はほとんどのハードウェアに推奨されるスイートスポット。

どのGPUを購入すべきか?

2026年5月現在、NVIDIAはローカルLLMパフォーマンスを支配しています。レコメンデーション:

ハードウェアは実行できるモデルを決定し、プロンプトエンジニアリングはそのパフォーマンスを決定します。7Bモデルへの適切なプロンプトは、70Bモデルへの雑なプロンプトを上回ることがよくあります。どのパラメータ数でも出力品質を最大化するテクニックについては、プロンプトエンジニアリングガイド完全版をご覧ください。

ティア	GPU	VRAM	最適用途	パフォーマンス
予算 (¥95,000)	RTX 4070 Ti / RTX 5070	12 GB	7-13B モデル	高速 (80 トークン/秒)
中級 (¥180,000)	RTX 4080 / RTX 5080	16 GB	13-30B モデル	非常に高速 (120 トークン/秒)
ハイエンド (¥270,000)	RTX 4090 / RTX 5090	24 GB	すべての70Bモデル	非常に高速 (150 トークン/秒)
サーバー (¥450,000+)	RTX 6000 Ada / A100	48+ GB	マルチユーザー、70B+	プロダクション品質

GPU階層レコメンデーション: ¥95,000 RTX 4070 Ti (12GB, 7-13Bモデル)、¥180,000 RTX 4080 (16GB, 13-30B)、¥270,000 RTX 4090 (24GB, すべての70Bモデル)、¥450,000+ プロダクション用サーバーGPU。GPU選択はCPUの10倍重要。

どのCPUとRAMが必要ですか?

GPUがあれば、CPUとRAMは二次的です。 GPUが主要な計算を行い、CPU/RAMがコンテキスト準備を処理します。

最小CPU: 8コアプロセッサ (Intel i7 12世代、AMD Ryzen 7 7700X、またはそれ以降)。古いCPUは20%+のレイテンシを追加します。

RAM: 16 GB最小 (GPUを使用する場合)。GPUなしで実行する場合、32+ GB が推奨されます。RAMはGPUが存在する場合、モデルサイズを直接制限しません。

ストレージ: モデルファイルとOSの場合は500 GB SSD。M.2 NVMe が推奨されます (モデル読み込みが高速)。

どの程度のストレージが必要ですか?

モデルファイルは大きいです。 4ビット量子化での7Bモデルは4-5 GBです。それに応じて計画してください:

500 GB SSD: OS + 1-2個の小さいモデル (3B、7B)
1 TB SSD: OS + 3-5個のモデル (7Bと13Bの混合)
2 TB SSD: OS + 10個以上のモデル (さまざまなサイズ)
4 TB NVMe RAID: プロダクションセットアップ、高速モデル読み込み

予算ビルドレコメンデーション

ローカルLLMマシンをスクラッチから構築する:

予算	GPU	CPU	RAM	モデル	コスト
¥225,000 (エントリー)	RTX 4070 Ti	i7 13700	16 GB	7-13B	現実的
¥370,000 (堅牢)	RTX 4080	i7 14700K	32 GB	13-30B	推奨
¥580,000 (ハイエンド)	2× RTX 4090	Ryzen 9 7950X	128 GB	すべて (70B+)	個人向けはオーバーキル

3つのビルド構成: ¥225,000エントリーレベル (RTX 4070 Ti、i7 13700、16GB) 7-13Bモデル用、¥370,000堅牢ビルド (RTX 4080、i7 14700K、32GB) 13-30B用、¥580,000ハイエンド (2× RTX 4090、Ryzen 9、128GB) すべてのモデル用。中級が最良の価値提供。

ハードウェアを購入できない場合はどうしますか?

¥37,500–60,000のGPUが予算外か、ラップトップが古すぎて最新の推論エンジンに対応できない場合、ローカルLLMは2026年にあなたにとってコスト効率が悪い可能性があります。

実際のコストを計算します:

- ローカル: ¥120,000–300,000の初期ハードウェア + 電気代 + 2–3年にわたる保守

- クラウド: 一般的な開発者の使用で月額$5–50 (Llama APIまたはGPT-4o mini)

軽度のユーザー (100,000トークン/月未満) の場合、クラウドAPI は月額$5–10で、ハードウェアは不要です。ヘビーユーザー (1000万トークン/月超) の場合、ローカルは6–12か月で元が取れます。

ローカルとクラウドの完全なコストと性能トレードオフを比較する**分岐点を見つけるため。多くの開発者は、彼らの実際の使用パターンではクラウドの方が安いことを発見します。

推奨 VRAM ティアより下のハードウェアを検討中ですか？実際に 8 GB 以下で動くモデルとアプリの組み合わせは、ロースペック PC におすすめのローカル AI アプリを参照してください。

ローカルLLM用Macハードウェア

Apple Silicon (M シリーズ) はローカルLLMに驚くほど適しています。 M3/M4 MaxとProは7-13Bモデルをよく処理します。

Mac	GPU メモリ	メモリ帯域幅	最適用途	推論速度
M5 Pro (64GB)	64 GB ユニファイド	307 GB/s	13-30B モデル (優秀)	25-35 tok/s
M5 Max (128GB)	128 GB ユニファイド	460-614 GB/s	任意の 70B モデル	20-30 tok/s (70B)

Mac ハードウェア比較: M5 Pro (64GB ユニファイドメモリ、307GB/s) は 13-30B モデルに最適、M5 Max (128GB ユニファイドメモリ、460-614GB/s) は任意の 70B モデルを実行可能。Apple Silicon のユニファイドメモリアーキテクチャは従来的な GPU/CPU 分割より優位です。

サーバーハードウェア対コンシューマーハードウェア

プロダクション展開には、サーバーグレードのハードウェアが推奨されます:

コンシューマー (RTX 4090): ~¥270,000、24 GB VRAM、シングルユーザー、継続的負荷下ではサーマルスロットリングの傾向。
サーバー (RTX 6000 Ada): ~¥750,000、48 GB VRAM、24/7 使用設計、より良い冷却、エラー訂正。
レコメンデーション: RTX 4090 で開始します。70B モデルを複数ユーザーに24/7実行する場合、デュアル A100 または RTX 6000 にアップグレードします。

コンシューマー対サーバーハードウェア: RTX 4090 (¥270,000、24GB、シングルユーザー、パートタイム) 対 RTX 6000 Ada (¥750,000+、48GB、マルチユーザー、24/7 稼働)。コンシューマーハードウェアで開始; プロダクションサービスを実行している場合のみサーバーグレードにアップグレード。

ハードウェア計画での一般的な間違い

GPU が利用可能なときに CPU のみを購入。 ¥95,000 RTX 4070 Ti は ¥300,000 CPU を上回ります。GPU は LLM 速度を支配します。
VRAM オーバーヘッドを考慮しない。 モデルファイルサイズ + システムオーバーヘッド + コンテキスト = 使用される総 VRAM。常にモデルサイズより 25% 多く購入。
すべての 70B モデルが 40GB VRAM に収まると仮定。 かろうじて、Q4 (4 ビット) 量子化のみ。Q5 は 45+ GB が必要。
電源供給とクーリングを無視。 RTX 4090 は 575W を消費します。1200W PSU と適切なケースエアフローが必要。
古い GPU が機能すると考える。 RTX 2080 は RTX 4070 Ti より 10 倍遅い。最新 GPU アーキテクチャは重要です。

ローカルLLMハードウェアについてよくある質問

ラップトップで 70B モデルを実行できますか?

Heavy 量子化 (Q2、2 ビット) と CPU フォールバックのみ。非現実的。ラップトップは 7B モデルに適しています。70B の場合は、RTX 4090 以上のデスクトップを使用します。

個人使用には RTX 4090 はオーバーキルですか?

いいえ、70B モデルを実行するか、複数のモデルを同時に実行する場合。7B チャットのみの場合、RTX 4070 Ti で十分です。柔軟性を望む場合、RTX 4090 は将来に備えています。

RTX 5090 を購入するか RTX 6090 を待つべきですか?

RTX 5090 は利用可能 (2026 年初頭)。RTX 6000 Ada サーバー GPU も堅牢です。予算が無制限でない限り、RTX 5090 または 4090 は優れています。

量子化は品質にどのように影響しますか?

FP16 = 100% 品質 (ベースライン)、Q8 = 99%、Q5 = 95%、Q4 = 90-95%。ほとんどのタスクでは、Q4 は FP16 と区別がつきません。

後で GPU をアップグレードできますか?

はい。今は RTX 4070 Ti で開始し、必要に応じて 2 年後に RTX 5090 にアップグレード。GPU は最も交換可能なコンポーネント。

Apple Silicon (M1/M2/M3/M5) でローカル LLM を実行できますか?

はい。Apple Silicon は CPU と GPU 間で共有される統一メモリを使用します。M5 Pro (64GB ユニファイドメモリ、307GB/s) は 32B モデルを 25-35 token/sec で実行します。M5 Max (128GB ユニファイドメモリ、460-614GB/s) はすべての 70B モデルを簡単に実行できます。M2 Pro (16 GB) は 7B モデルを 30-50 token/sec で実行できます。

24GB VRAM (RTX 4090) に 27B または 32B モデルが収まりますか?

はい、利用可能な最高です。Qwen 3.6 27B Q4_K_M (~16 GB、77.2% SWE-bench) は最高の Dense コーディングモデルです。DeepSeek-R1 32B Q4_K_M (~19 GB) は最高の推論です。両方とも KV キャッシュおよびマルチタスク用に 5-8 GB の余裕で収まります。

ソース

NVIDIA GPU 仕様 -- nvidia.com/ja/geforce/graphics-cards/
Apple M5 ハードウェア仕様 -- apple.com/jp/mac/m5 (公式仕様、64GB および 128GB ユニファイドメモリ、307-614GB/s 帯域幅)
Llama 4 Scout モデル -- meta.com/research (MoE アーキテクチャ、17B アクティブパラメータ、109B 合計)
Qwen3 および Qwen 3.6 モデル -- huggingface.co/qwen (パフォーマンスベンチマーク、77.2% SWE-bench コーディング)
LLM VRAM 計算機 -- vram.asult.com (参照)
モデル量子化ベンチマーク -- huggingface.co/docs/transformers

ローカルLLMハードウェアガイド2026: GPU、CPU、RAM要件の説明

スライドデッキ: ローカルLLMハードウェアガイド2026: GPU、CPU、RAM要件の説明