Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/VRAM目安:7B=8GB、70B=48GB(2026ガイド)
GPU Buying Guides

VRAM目安:7B=8GB、70B=48GB(2026ガイド)

·7分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

7B Q4量子化モデルの場合、4-5 GB VRAMが必要です--最新の8GB GPUであれば快適に実行できます。13B: 8-10 GB VRAM。70B: 35-40 GB、デュアルRTX 4090またはA100が必要です。

重要なポイント

  • 7Bモデル: 最小8 GB (Q4)、快適な10 GB (Q5)。
  • 13Bモデル: 最小12 GB (Q4)、快適な16 GB (Q5)。
  • 70Bモデル: 最小35-40 GB (Q4)。
  • Q4量子化: 完全精度比87%削減。

VRAM計算式

VRAM = (十億パラメータ × 重みあたりビット) ÷ 8 + KVキャッシュ + オーバーヘッド

Q4: 32ビット→4ビット (8倍削減)。

Q8: 32ビット→8ビット (4倍削減)、ほぼ完全精度。

モデルサイズ別VRAM

モデルサイズFP32Q8Q5Q4推奨GPU
7B28 GB7 GB4.5 GB3.5 GBRTX 4070 (12GB)
13B52 GB13 GB8 GB7 GBRTX 4080 (16GB)
70B280 GB70 GB44 GB35-40 GBデュアルRTX 4090
Qwen 3.6 35B-A3B (3B有効, MoE)*12 GB3 GB2 GB2 GBRTX 2060 6 GB または RTX 5070 12 GB
DeepSeek V4-Flash (13B有効 / 284B総パラメータ, MoE)*52 GB13 GB8 GB7 GBRTX 3060 12 GB または RTX 5070 12 GB
Llama 4 Scout (17B有効 / 109B総パラメータ, MoE)†436 GB109 GB68 GB55 GB2× RTX 4090 (48 GB) — 24 GBには1.78ビット時のみ収まる(~20 tok/s)
gpt-oss:20b (3.6B有効 / 21B総パラメータ, MoE)*84 GB21 GB13 GB12 GBRTX 5070 12 GB または16 GBのGPU
Kimi K2.6 (32B有効 / 1T総パラメータ, MoE)*128 GB32 GB20 GB16 GB2× RTX 4090 または RTX 5090 32 GB (Q4のみ)

* MoEモデル: VRAMはアクティブパラメータのみから計算され、総モデルサイズではありません。† Llama 4 Scoutは109Bパラメータすべてを常駐させるため、トークンあたり17Bしか有効でなくてもQ4で~55 GB必要です。

量子化

量子化はモデル重みを低精度に圧縮します。Q4が標準。

VRAMはモデルサイズを決定しますが、プロンプトの設計が出力品質を決定します。Chain-of-ThoughtやFew-Shotプロンプティングなどのテクニックは、小さなモデルと大きなモデルの品質差を縮めることができます。お使いのハードウェアがサポートするモデルから最大限を引き出すには、プロンプトエンジニアリング完全ツールキットをご覧ください。VRAM が 12–16 GB あり、このツールキットを試す具体的なコーディングワークロードを探しているなら、GitHub Copilot をローカル LLM で置き換えるで Continue.dev + Ollama + Qwen3-Coder のスタックがちょうどこれらの VRAM 帯にフィットする様子を解説しています。

バッチサイズ

シングルユーザー推論はbatch=1です。

オーバーヘッド

KVキャッシュ、アクティベーション、ランタイムが追加メモリを消費。

地域的背景

日本 (METI): ローカルLLM推論は主権データ管理として重要。

一般的な間違い

VRAM ≠ モデルサイズ。常に5 GB以上の余地が必要。

VRAM計算機

モデルサイズと量子化を選択してVRAM要件を推定します。

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

RTX 4060は7B Q4に十分?

ぎりぎり。RTX 4070推奨。

70B用に24 GBは?

Q4で不十分。35-40 GB必要。

関連資料

  • /ja/local-llms/best-local-llms-2026
  • /ja/local-llms/how-much-unified-memory-for-local-llm
  • /ja/local-llms/running-70b-models-apple-silicon-m5-max
  • /ja/local-llms/best-models-apple-silicon-2026
  • /ja/local-llms/gpu-vs-cpu-vs-apple-silicon

参考資料

  • NVIDIA CUDA ドキュメント
  • Ollama ドキュメント

VRAMの予算がわかりました。次はそれに合ったGPUを選びましょう。

ローカルLLM向けベストバジェットGPU →

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る