PromptQuorumPromptQuorum
ホーム/ローカルLLM/2026年にローカルLLMを実行するのに必要なVRAMはどのくらい?
GPU Buying Guides

2026年にローカルLLMを実行するのに必要なVRAMはどのくらい?

·7分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

7B Q4量子化モデルの場合、4-5 GB VRAMが必要です--最新の8GB GPUであれば快適に実行できます。13B: 8-10 GB VRAM。70B: 35-40 GB、デュアルRTX 4090またはA100が必要です。

重要なポイント

  • 7Bモデル: 最小8 GB (Q4)、快適な10 GB (Q5)。
  • 13Bモデル: 最小12 GB (Q4)、快適な16 GB (Q5)。
  • 70Bモデル: 最小35-40 GB (Q4)。
  • Q4量子化: 完全精度比87%削減。

VRAM計算式

VRAM = (十億パラメータ × 重みあたりビット) ÷ 8 + KVキャッシュ + オーバーヘッド

Q4: 32ビット→4ビット (8倍削減)。

Q8: 32ビット→8ビット (4倍削減)、ほぼ完全精度。

モデルサイズ別VRAM

モデルサイズFP32Q8Q5Q4推奨GPU
7B28 GB7 GB4.5 GB3.5 GBRTX 4070 (12GB)
13B52 GB13 GB8 GB7 GBRTX 4080 (16GB)
70B280 GB70 GB44 GB35-40 GBデュアルRTX 4090
Qwen 3.6 35B-A3B (3B有効, MoE)*12 GB3 GB2 GB2 GBRTX 2060 6 GB または RTX 5070 12 GB
DeepSeek V4-Flash (13B有効 / 284B総パラメータ, MoE)*52 GB13 GB8 GB7 GBRTX 3060 12 GB または RTX 5070 12 GB
Llama 4 Scout (17B有効 / 109B総パラメータ, MoE)*68 GB17 GB11 GB9 GBRTX 3090 24 GB または RTX 5080 16 GB
Kimi K2.6 (42B有効 / 1T総パラメータ, MoE)*168 GB42 GB27 GB21 GB2× RTX 4090 または RTX 5090 32 GB (Q4のみ)

* MoEモデル: VRAMはアクティブパラメータのみから計算され、総モデルサイズではありません。

量子化

量子化はモデル重みを低精度に圧縮します。Q4が標準。

VRAMはモデルサイズを決定しますが、プロンプトの設計が出力品質を決定します。Chain-of-ThoughtやFew-Shotプロンプティングなどのテクニックは、小さなモデルと大きなモデルの品質差を縮めることができます。お使いのハードウェアがサポートするモデルから最大限を引き出すには、プロンプトエンジニアリング完全ツールキットをご覧ください。VRAM が 12–16 GB あり、このツールキットを試す具体的なコーディングワークロードを探しているなら、GitHub Copilot をローカル LLM で置き換えるで Continue.dev + Ollama + Qwen3-Coder のスタックがちょうどこれらの VRAM 帯にフィットする様子を解説しています。

バッチサイズ

シングルユーザー推論はbatch=1です。

オーバーヘッド

KVキャッシュ、アクティベーション、ランタイムが追加メモリを消費。

地域的背景

日本 (METI): ローカルLLM推論は主権データ管理として重要。

一般的な間違い

VRAM ≠ モデルサイズ。常に5 GB以上の余地が必要。

VRAM計算機

モデルサイズと量子化を選択してVRAM要件を推定します。

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

RTX 4060は7B Q4に十分?

ぎりぎり。RTX 4070推奨。

70B用に24 GBは?

Q4で不十分。35-40 GB必要。

関連資料

  • /local-llms/best-local-llm-models-2026?lang=ja
  • /local-llms/how-much-unified-memory-for-local-llm?lang=ja
  • /local-llms/running-70b-models-apple-silicon-m5-max?lang=ja
  • /local-llms/best-models-apple-silicon-2026?lang=ja
  • /local-llms/gpu-vs-cpu-vs-apple-silicon?lang=ja

参考資料

  • NVIDIA CUDA ドキュメント
  • Ollama ドキュメント

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

PromptQuorumで、ローカルLLMを25以上のクラウドモデルと同時に比較しましょう。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

VRAM 7B auf 8GB, 70B auf 48GB: Leitfaden 2026 | PromptQuorum