7B Q4量子化モデルの場合、4-5 GB VRAMが必要です--最新の8GB GPUであれば快適に実行できます。13B: 8-10 GB VRAM。70B: 35-40 GB、デュアルRTX 4090またはA100が必要です。

重要なポイント

7Bモデル: 最小8 GB (Q4)、快適な10 GB (Q5)。
13Bモデル: 最小12 GB (Q4)、快適な16 GB (Q5)。
70Bモデル: 最小35-40 GB (Q4)。
Q4量子化: 完全精度比87%削減。

VRAM計算式

VRAM = (十億パラメータ × 重みあたりビット) ÷ 8 + KVキャッシュ + オーバーヘッド

Q4: 32ビット→4ビット (8倍削減)。

Q8: 32ビット→8ビット (4倍削減)、ほぼ完全精度。

モデルサイズ別VRAM

モデルサイズ	FP32	Q8	Q5	Q4	推奨GPU
7B	28 GB	7 GB	4.5 GB	3.5 GB	RTX 4070 (12GB)
13B	52 GB	13 GB	8 GB	7 GB	RTX 4080 (16GB)
70B	280 GB	70 GB	44 GB	35-40 GB	デュアルRTX 4090
Qwen 3.6 35B-A3B (3B有効, MoE)*	12 GB	3 GB	2 GB	2 GB	RTX 2060 6 GB または RTX 5070 12 GB
DeepSeek V4-Flash (13B有効 / 284B総パラメータ, MoE)*	52 GB	13 GB	8 GB	7 GB	RTX 3060 12 GB または RTX 5070 12 GB
Llama 4 Scout (17B有効 / 109B総パラメータ, MoE)*	68 GB	17 GB	11 GB	9 GB	RTX 3090 24 GB または RTX 5080 16 GB
Kimi K2.6 (42B有効 / 1T総パラメータ, MoE)*	168 GB	42 GB	27 GB	21 GB	2× RTX 4090 または RTX 5090 32 GB (Q4のみ)

* MoEモデル: VRAMはアクティブパラメータのみから計算され、総モデルサイズではありません。

量子化

量子化はモデル重みを低精度に圧縮します。Q4が標準。

VRAMはモデルサイズを決定しますが、プロンプトの設計が出力品質を決定します。Chain-of-ThoughtやFew-Shotプロンプティングなどのテクニックは、小さなモデルと大きなモデルの品質差を縮めることができます。お使いのハードウェアがサポートするモデルから最大限を引き出すには、プロンプトエンジニアリング完全ツールキットをご覧ください。VRAM が 12–16 GB あり、このツールキットを試す具体的なコーディングワークロードを探しているなら、GitHub Copilot をローカル LLM で置き換えるで Continue.dev + Ollama + Qwen3-Coder のスタックがちょうどこれらの VRAM 帯にフィットする様子を解説しています。

バッチサイズ

シングルユーザー推論はbatch=1です。

オーバーヘッド

KVキャッシュ、アクティベーション、ランタイムが追加メモリを消費。

地域的背景

日本 (METI): ローカルLLM推論は主権データ管理として重要。

一般的な間違い

VRAM ≠ モデルサイズ。常に5 GB以上の余地が必要。

VRAM計算機

モデルサイズと量子化を選択してVRAM要件を推定します。

Popular Models

Model Size

Quantization

Context Length

Batch Size

Use Case

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

Always use the "with safety margin" figure when buying a GPU
Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
Context overhead grows with conversation length. Budget 1-3 GB for typical usage
Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

RTX 4060は7B Q4に十分?

ぎりぎり。RTX 4070推奨。

70B用に24 GBは?

Q4で不十分。35-40 GB必要。

参考資料

NVIDIA CUDA ドキュメント
Ollama ドキュメント

2026年にローカルLLMを実行するのに必要なVRAMはどのくらい?

VRAM計算式

モデルサイズ別VRAM

量子化

バッチサイズ

オーバーヘッド

地域的背景

一般的な間違い

VRAM計算機

Compatible GPUs

RTX 4060は7B Q4に十分?

70B用に24 GBは?

関連資料

参考資料

A Note on Third-Party Facts