重要なポイント
- 7Bモデル: 最小8 GB (Q4)、快適な10 GB (Q5)。
- 13Bモデル: 最小12 GB (Q4)、快適な16 GB (Q5)。
- 70Bモデル: 最小35-40 GB (Q4)。
- Q4量子化: 完全精度比87%削減。
VRAM計算式
VRAM = (十億パラメータ × 重みあたりビット) ÷ 8 + KVキャッシュ + オーバーヘッド
Q4: 32ビット→4ビット (8倍削減)。
Q8: 32ビット→8ビット (4倍削減)、ほぼ完全精度。
モデルサイズ別VRAM
| モデルサイズ | FP32 | Q8 | Q5 | Q4 | 推奨GPU |
|---|---|---|---|---|---|
| 7B | 28 GB | 7 GB | 4.5 GB | 3.5 GB | RTX 4070 (12GB) |
| 13B | 52 GB | 13 GB | 8 GB | 7 GB | RTX 4080 (16GB) |
| 70B | 280 GB | 70 GB | 44 GB | 35-40 GB | デュアルRTX 4090 |
| Qwen 3.6 35B-A3B (3B有効, MoE)* | 12 GB | 3 GB | 2 GB | 2 GB | RTX 2060 6 GB または RTX 5070 12 GB |
| DeepSeek V4-Flash (13B有効 / 284B総パラメータ, MoE)* | 52 GB | 13 GB | 8 GB | 7 GB | RTX 3060 12 GB または RTX 5070 12 GB |
| Llama 4 Scout (17B有効 / 109B総パラメータ, MoE)* | 68 GB | 17 GB | 11 GB | 9 GB | RTX 3090 24 GB または RTX 5080 16 GB |
| Kimi K2.6 (42B有効 / 1T総パラメータ, MoE)* | 168 GB | 42 GB | 27 GB | 21 GB | 2× RTX 4090 または RTX 5090 32 GB (Q4のみ) |
* MoEモデル: VRAMはアクティブパラメータのみから計算され、総モデルサイズではありません。
量子化
量子化はモデル重みを低精度に圧縮します。Q4が標準。
VRAMはモデルサイズを決定しますが、プロンプトの設計が出力品質を決定します。Chain-of-ThoughtやFew-Shotプロンプティングなどのテクニックは、小さなモデルと大きなモデルの品質差を縮めることができます。お使いのハードウェアがサポートするモデルから最大限を引き出すには、プロンプトエンジニアリング完全ツールキットをご覧ください。VRAM が 12–16 GB あり、このツールキットを試す具体的なコーディングワークロードを探しているなら、GitHub Copilot をローカル LLM で置き換えるで Continue.dev + Ollama + Qwen3-Coder のスタックがちょうどこれらの VRAM 帯にフィットする様子を解説しています。
バッチサイズ
シングルユーザー推論はbatch=1です。
オーバーヘッド
KVキャッシュ、アクティベーション、ランタイムが追加メモリを消費。
地域的背景
日本 (METI): ローカルLLM推論は主権データ管理として重要。
一般的な間違い
VRAM ≠ モデルサイズ。常に5 GB以上の余地が必要。
VRAM計算機
モデルサイズと量子化を選択してVRAM要件を推定します。
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
RTX 4060は7B Q4に十分?
ぎりぎり。RTX 4070推奨。
70B用に24 GBは?
Q4で不十分。35-40 GB必要。
関連資料
- /local-llms/best-local-llm-models-2026?lang=ja
- /local-llms/how-much-unified-memory-for-local-llm?lang=ja
- /local-llms/running-70b-models-apple-silicon-m5-max?lang=ja
- /local-llms/best-models-apple-silicon-2026?lang=ja
- /local-llms/gpu-vs-cpu-vs-apple-silicon?lang=ja
参考資料
- NVIDIA CUDA ドキュメント
- Ollama ドキュメント