重要なポイント

VRAM = （モデルサイズ × 量子化ビット数）÷ 8
FP16 = 16ビット、Q8 = 8、Q5 = 5、Q4 = 4ビット
例：Q4の13Bモデル = （13 × 4）÷ 8 = 6.5 GB
コンテキスト、システムオーバーヘッド、セーフティマージンのために常に25%のバッファーを追加する
2026年4月現在、この計算式は±10%の精度です

クイックファクト：GPUごとのVRAM要件

RTX 4090（24 GB）： Llama 3.1 7B（Q4で3.5 GB）、13B（Q5で8.1 GB）、70B（Q4でオフロードあり）
RTX 4080（16 GB）： Llama 3.1 7B（Q4で3.5 GB）、13B（Q5で8.1 GB）、32B（Q4で16 GB）
RTX 4070 Ti（12 GB）： Llama 3.1 7B（Q4で3.5 GB）、13B（Q5で8.1 GB、ギリギリ）
M5 Max Mac（36 GB統合）： Llama 3.1 13B（FP16で26 GB）、70Bは極端な量子化なしでは不可能
経験則： コンテキスト、バッチ処理、システムオーバーヘッドのために計算結果より常に25〜40%多くVRAMを確保する

一文で

必要なVRAM（GB）は、モデルパラメータ（十億単位）に量子化ビット数（FP16は16、Q8は8、Q4は4など）を掛けて8で割った値です。

わかりやすく言うと

VRAMを本棚のスペースと考えてください。大きな本（70Bなど多くのパラメータを持つモデル）はより多くのスペースを必要とします。小さな本（Q4量子化）は大きな本（FP16）よりも少ないスペースで済みます。計算式は必要な「棚の数」（GB）を正確に教えてくれます。会話、複数の同時リクエスト、システムソフトウェアのために、常に余裕の棚を確保しておいてください。

VRAM計算式とは？

VRAM要件の計算式は驚くほどシンプルです：

💡 プロのヒント： この計算式はモデルウェイトのみを計算します。コンテキスト、バッチ処理、システムオーバーヘッドにより、実際のVRAM使用量は25〜40%多くなります。常にセーフティマージンを追加してください。

bash

VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8

Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB

- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB

- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB

VRAM計算式と3つの計算例：7BモデルのQ4 = 3.5 GB、13BのQ5 = 8.1 GB、70BのQ8 = 70 GB。コンテキスト、バッチ処理、システムオーバーヘッドのために常に25〜40%のバッファーを追加してください。

インタラクティブVRAMカリキュレーター

このカリキュレーターを使用して、モデル、量子化、コンテキスト、バッチサイズの任意の組み合わせに対する正確なVRAM要件を計算してください。設定を選択して、どのGPUが適合するかを確認します。

Popular Models

Model Size

Quantization

Context Length

Batch Size

Use Case

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

Always use the "with safety margin" figure when buying a GPU
Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
Context overhead grows with conversation length. Budget 1-3 GB for typical usage
Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

量子化レベルの意味は？

🔍 重要なインサイト： 量子化はファイルサイズと品質をトレードオフします。Q5がスイートスポットです（品質95%、68%小さい）。Q4はほとんどのユーザーに許容範囲内です。Q3以下はエッジデバイスまたはVRAMが著しく制限されている場合のみ。

量子化	サイズ削減	品質	速度	用途
FP16（16ビット）	なし（ベースライン）	100%（完璧）	ベースライン	研究、ファインチューニング
Q8（8ビット）	50%	99%（識別不可能）	ベースライン	本番環境、ローカルサーバー
Q6（6ビット）	62.5%	98%（無視できる）	ベースライン	バランスの取れた使用
Q5（5ビット）	68.75%	95%（わずかな損失）	ベースライン	良好な圧縮、コンシューマー
Q4（4ビット）	75%	90〜95%（許容範囲）	ベースライン	最大圧縮
Q3（3ビット）	81%	80〜85%（顕著な損失）	高速	極端な圧縮、CPU
Q2（2ビット）	87.5%	70%（目に見える損失）	最速	小型モデル、エッジデバイス

量子化レベルの比較：FP16（品質100%）、Q8（99%）、Q5（95%、推奨）、Q4（90〜95%）、Q3（80〜85%）、Q2（70%）。Q5は7Bモデルを14 GBから4.4 GBに削減し、品質損失はわずか5%です。

クイックリファレンステーブル：モデルと量子化別のVRAM

モデル	FP16	Q8	Q5	Q4
3B	6 GB	3 GB	1.9 GB	1.5 GB
7B	14 GB	7 GB	4.4 GB	3.5 GB
13B	26 GB	13 GB	8.1 GB	6.5 GB
32B	64 GB	32 GB	20 GB	16 GB
70B	140 GB	70 GB	43.75 GB	35 GB

VRAMクイックリファレンスマトリックス：FP16、Q8、Q5、Q4量子化での3B〜70Bモデル。緑 = 12 GB GPUに収まる。黄 = 16〜24 GBが必要。赤 = 40 GB以上またはマルチGPUが必要。

実際の使用例

一般的なシナリオの実際のVRAM計算：

⚠️ 警告： これらの計算はモデルウェイトのみです。コンテキスト、バッチ処理、システムオーバーヘッドのために25〜40%を追加してください。例：13B Q5 = 8.1 GBモデル + 2〜3 GBオーバーヘッド = 実際には10〜11 GB。

RTX 4070 Ti（12 GB）：Llama 3.1 7B（Q4で3.5 GB）✓（余裕あり）。Llama 3.1 13B（Q5で8.1 GB）✓（コンテキスト/バッチなしでギリギリ動作）。
RTX 4090（24 GB）：Llama 3.1 70B（Q5で43.75 GB）✗（大きすぎ）。Llama 3.1 70B（Q4で35 GB）✗（まだ大きすぎ）。Llama 3.1 70B（Q4でオフロードあり）= 動作可（遅い、毎秒3〜5トークン）。
M5 Max Mac（36 GB）：Llama 3.1 13B（FP16で26 GB）✓（動作可）。Llama 3.1 70B = 不可能（Q2でも品質損失約70%）。

実際のGPUシナリオ：RTX 4090（24 GB）、RTX 4080（16 GB）、RTX 4070 Ti（12 GB）、M5 Max Mac（36 GB）、RTX 3060（12 GB）——各GPUがさまざまな量子化レベルで実行できるLlama 3.1モデル。

考慮すべき隠れたVRAMオーバーヘッドは？

計算式はモデルウェイトのみを計算します。 実際のVRAM使用量はいくつかの要因により高くなります。計算量を超えて25〜40%の追加予算を確保してください。

コンテキストウィンドウ（キーバリューキャッシュ）は推論中に会話履歴を保存します。4kトークンのコンテキストは7Bモデルで約2〜3 GBを使用します。

📌 重要ポイント： バッチ処理はVRAM使用量を線形的に増加させます。各追加の同時プロンプト（複数のリクエストを同時処理する場合）は500 MB〜2 GBの追加メモリを使用します。batch=4を実行する場合、単一リクエストのVRAMを4倍にしてオーバーヘッドを追加してください。

オペレーティングシステムと推論エンジンフレームワーク（Ollama、vLLM、llama.cpp）からのシステムオーバーヘッドは500 MB〜1 GBを予約します。GPU選択時に常にセーフティマージンを維持してください。

隠れたVRAMオーバーヘッドの内訳：コンテキストウィンドウ（4kトークンで2〜3 GB）、バッチ処理（batch=4の場合×4）、システムオーバーヘッド（500 MB〜1 GB）、合計25〜40%のセーフティマージン。

お使いのGPUに適合するローカルLLMは？2026ガイド

正確な適合を確認するには上のインタラクティブカリキュレーターを使用してください。以下は一般的なGPUシナリオと推奨モデルです。

RTX 3060（12 GB）： 最適モデル：Qwen2.5 7B Q5（4.4 GB）✓。代替：Llama 3.2 8B Q4（4 GB）✓。不可能：32B以上のモデル。
RTX 4070（12 GB）： 最適モデル：Qwen2.5 13B Q4（6.5 GB）✓。余裕あり：Llama 3.2 8B Q5（5 GB）✓。不可能：32Bモデル。
RTX 4070 Ti（12 GB）： 最適モデル：Qwen2.5 13B Q5（8.1 GB）✓。ギリギリ：Llama 3.3 13B Q4（6.5 GB）✓。非推奨：バッチ処理。
RTX 4080（16 GB）： 最適モデル：Qwen2.5 32B Q4（16 GB）✓ギリギリ。余裕あり：Mistral 3.1 24B Q5（15 GB）✓。推奨：Llama 3.3 13B Q8（13 GB）✓。
RTX 4090（24 GB）： 最適モデル：Qwen2.5 32B Q5（20 GB）✓。オフロードあり：Llama 3.3 70B Q4（35 GB—オフロード必要）。余裕あり：Q5/Q8の任意の32Bモデル。
RTX 5090（32 GB、発売予定）： 最適モデル：Llama 3.3 70B Q4（35 GB—ギリギリ）。より良い：Qwen2.5 72B Q3（27 GB）✓。余裕あり：バッチ処理付きQ5以上の70Bモデル。

計算式の精度は？

計算式はほとんどの場合±10%の精度です。 実際のVRAM使用量は実装、モデルアーキテクチャ、推論エンジンの最適化によって異なります。

変動の原因には、異なる量子化形式（GGUF対safetensors対AWQ）、モデルアーキテクチャ（Transformer対非Transformer）、推論エンジン固有の最適化（vLLM、llama.cpp、Ollama）が含まれます。

2026年4月現在、計算式を保守的な推定値として扱ってください。コンテキストオーバーヘッド、バッチ処理、システムプロセスを考慮するために、GPUを購入する際は常に25%のセーフティマージンを追加してください。

VRAM計算式の精度±10%：量子化形式（GGUF対GPTQ対AWQ）、モデルアーキテクチャ（Transformer対MoE）、推論エンジン（vLLM対llama.cpp対Ollama）による変動。

VRAM計算でよくある間違い

コンテキストオーバーヘッドを忘れること。 Q4の7Bモデルは3.5 GBですが、4kコンテキストでは合計5〜6 GBが必要です。
量子化を考慮せずにHuggingFaceのモデルサイズを使用すること。 70Bは700億パラメータを意味し、70 GB VRAMではありません。
システムオーバーヘッドを考慮しないこと。 モデルはGPU VRAMの全容量を使用できません。OSと推論エンジンのために1〜2 GBを予約してください。
計算サイズぴったりのGPUを購入すること。 常に25%多く購入してください。18 GBが必要な計算結果 = 24 GB GPUを購入してください。

VRAMでよくある4つの間違い：コンテキストオーバーヘッドを忘れる（1.5〜3 GBが追加される）、70Bパラメータと70 GB VRAMを混同する、1〜2 GBのシステムオーバーヘッドを無視する、25%マージンなしで計算サイズぴったりのGPUを購入する。

地域別デプロイの考慮事項

日本（METI・APPI）： 経済産業省（METI）のAIガバナンス2024ガイドラインは、企業のAIシステムに対してデータ管理の透明性と説明責任を要求しています。個人情報保護法（APPI）の下、個人データの取り扱いには慎重な管理が必要です。ローカルLLM推論はデータを日本国内に保持し、日本の企業デプロイに適したコンプライアンスを実現します。このVRAMカリキュレーターはMETI準拠のオンプレミスシステムのサイジングに役立ちます。

アジア太平洋地域（データ越境移転）： APACでは多くの国でデータ越境移転規制が強化されています。シンガポール（PDPA）、韓国（PIPA）、オーストラリア（Privacy Act）はいずれもデータ処理に関する厳格な要件を持っています。ローカル推論はデータをオンプレミスに保持し、越境データフローの規制を回避します。

グローバル展開： すべての地域で、ローカル推論はクラウドAPIよりも強力なデータプライバシー保証を提供します。このVRAMカリキュレーターはコンプライアンスに準拠したプライバシー優先AIシステムの設計に不可欠です。

FAQ：VRAMとGPU要件

この計算式はすべてのモデルタイプに対応していますか？

はい。計算式（モデルの十億パラメータ × 量子化ビット数）÷ 8は、すべてのTransformerベースのモデル（Llama、Qwen、Mistral、Claudeなど）に適用されます。非Transformerアーキテクチャ（RNNなど）はまれで、調整が必要な場合があります。

どの量子化レベルを使用すべきですか？

ほとんどの用途：Q5が最適なバランスを提供します（品質95%、サイズ68%削減）。コンシューマーGPU：Q4が標準です（品質90〜95%、75%削減）。本番環境：VRAMが許せばQ8（品質99%）。選択肢がない限り、Q3以下は避けてください。

システムRAMはどのくらい必要ですか？

オフロードには最低16 GB。VRAMオフロード（CPUスピルオーバー）を使用する場合、システムRAMがフォールバックになります。バッチ処理には、モデルオフロード要件を超えて8〜16 GBのシステムRAMを追加してください。単一ユーザーチャットには16 GBで十分です。

バッチサイズはVRAM計算に影響しますか？

はい。計算式は単一リクエストのVRAMを計算します。バッチサイズはVRAMを線形的に追加します：各同時リクエストがコンテキスト長に応じて約500 MB〜2 GBを追加します。batch=4を実行する場合、計算量に2〜8 GBを追加してください。

12 GB GPUで70Bモデルを実行できますか？

極端な量子化（Q2、品質損失約70%）とCPUオフロード（非常に遅い、毎秒1〜3トークン）を使用した場合のみ可能です。実用的ではありません。より良い選択肢：Q4の13Bモデルを使用してください（同じVRAM、はるかに高速で品質も優れています）。

実際のVRAM使用量が計算値より低い場合はどうなりますか？

計算式は保守的で、オーバーヘッドが含まれています。実際の使用量が低い場合は、バッチ処理、より長いコンテキスト、またはセーフティマージンのためのヘッドルームが増えます。nvidia-smiを使用して実際の使用量を測定し、モデルをベンチマークしてパフォーマンスを確認してください。

ソース

GGUF仕様 -- 量子化ファイル形式に関するggerganov/ggmlドキュメント。
Transformers量子化ドキュメント -- 量子化メソッドに関するHugging Face公式ガイド。
Ollamaドキュメント -- モデル管理に関する公式Ollamaガイド。
vLLMパフォーマンスガイド -- vLLMフレームワーク最適化ドキュメント。

VRAMカリキュレーター2026：7B/13B/70B LLMのGPU要件（Q4、Q5、Q8）

スライドデッキ: VRAMカリキュレーター2026：7B/13B/70B LLMのGPU要件（Q4、Q5、Q8）

クイックファクト：GPUごとのVRAM要件

一文で

わかりやすく言うと

VRAM計算式とは？