重要なポイント
- VRAM = (モデルサイズ × 量子化ビット数)÷ 8
- FP16 = 16ビット、Q8 = 8、Q5 = 5、Q4 = 4ビット
- 例:Q4の13Bモデル = (13 × 4)÷ 8 = 6.5 GB
- コンテキスト、システムオーバーヘッド、セーフティマージンのために常に25%のバッファーを追加する
- 2026年4月現在、この計算式は±10%の精度です
クイックファクト:GPUごとのVRAM要件
- RTX 4090(24 GB): Llama 3.1 7B(Q4で3.5 GB)、13B(Q5で8.1 GB)、70B(Q4でオフロードあり)
- RTX 4080(16 GB): Llama 3.1 7B(Q4で3.5 GB)、13B(Q5で8.1 GB)、32B(Q4で16 GB)
- RTX 4070 Ti(12 GB): Llama 3.1 7B(Q4で3.5 GB)、13B(Q5で8.1 GB、ギリギリ)
- M5 Max Mac(36 GB統合): Llama 3.1 13B(FP16で26 GB)、70Bは極端な量子化なしでは不可能
- 経験則: コンテキスト、バッチ処理、システムオーバーヘッドのために計算結果より常に25〜40%多くVRAMを確保する
一文で
必要なVRAM(GB)は、モデルパラメータ(十億単位)に量子化ビット数(FP16は16、Q8は8、Q4は4など)を掛けて8で割った値です。
わかりやすく言うと
VRAMを本棚のスペースと考えてください。大きな本(70Bなど多くのパラメータを持つモデル)はより多くのスペースを必要とします。小さな本(Q4量子化)は大きな本(FP16)よりも少ないスペースで済みます。計算式は必要な「棚の数」(GB)を正確に教えてくれます。会話、複数の同時リクエスト、システムソフトウェアのために、常に余裕の棚を確保しておいてください。
VRAM計算式とは?
VRAM要件の計算式は驚くほどシンプルです:
💡 プロのヒント: この計算式はモデルウェイトのみを計算します。コンテキスト、バッチ処理、システムオーバーヘッドにより、実際のVRAM使用量は25〜40%多くなります。常にセーフティマージンを追加してください。
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8
Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB
- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB
- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GBインタラクティブVRAMカリキュレーター
このカリキュレーターを使用して、モデル、量子化、コンテキスト、バッチサイズの任意の組み合わせに対する正確なVRAM要件を計算してください。設定を選択して、どのGPUが適合するかを確認します。
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
量子化レベルの意味は?
🔍 重要なインサイト: 量子化はファイルサイズと品質をトレードオフします。Q5がスイートスポットです(品質95%、68%小さい)。Q4はほとんどのユーザーに許容範囲内です。Q3以下はエッジデバイスまたはVRAMが著しく制限されている場合のみ。
| 量子化 | サイズ削減 | 品質 | 速度 | 用途 |
|---|---|---|---|---|
| FP16(16ビット) | なし(ベースライン) | 100%(完璧) | ベースライン | 研究、ファインチューニング |
| Q8(8ビット) | 50% | 99%(識別不可能) | ベースライン | 本番環境、ローカルサーバー |
| Q6(6ビット) | 62.5% | 98%(無視できる) | ベースライン | バランスの取れた使用 |
| Q5(5ビット) | 68.75% | 95%(わずかな損失) | ベースライン | 良好な圧縮、コンシューマー |
| Q4(4ビット) | 75% | 90〜95%(許容範囲) | ベースライン | 最大圧縮 |
| Q3(3ビット) | 81% | 80〜85%(顕著な損失) | 高速 | 極端な圧縮、CPU |
| Q2(2ビット) | 87.5% | 70%(目に見える損失) | 最速 | 小型モデル、エッジデバイス |
クイックリファレンステーブル:モデルと量子化別のVRAM
| モデル | FP16 | Q8 | Q5 | Q4 |
|---|---|---|---|---|
| 3B | 6 GB | 3 GB | 1.9 GB | 1.5 GB |
| 7B | 14 GB | 7 GB | 4.4 GB | 3.5 GB |
| 13B | 26 GB | 13 GB | 8.1 GB | 6.5 GB |
| 32B | 64 GB | 32 GB | 20 GB | 16 GB |
| 70B | 140 GB | 70 GB | 43.75 GB | 35 GB |
実際の使用例
一般的なシナリオの実際のVRAM計算:
⚠️ 警告: これらの計算はモデルウェイトのみです。コンテキスト、バッチ処理、システムオーバーヘッドのために25〜40%を追加してください。例:13B Q5 = 8.1 GBモデル + 2〜3 GBオーバーヘッド = 実際には10〜11 GB。
- RTX 4070 Ti(12 GB):Llama 3.1 7B(Q4で3.5 GB)✓(余裕あり)。Llama 3.1 13B(Q5で8.1 GB)✓(コンテキスト/バッチなしでギリギリ動作)。
- RTX 4090(24 GB):Llama 3.1 70B(Q5で43.75 GB)✗(大きすぎ)。Llama 3.1 70B(Q4で35 GB)✗(まだ大きすぎ)。Llama 3.1 70B(Q4でオフロードあり)= 動作可(遅い、毎秒3〜5トークン)。
- M5 Max Mac(36 GB):Llama 3.1 13B(FP16で26 GB)✓(動作可)。Llama 3.1 70B = 不可能(Q2でも品質損失約70%)。
お使いのGPUに適合するローカルLLMは?2026ガイド
正確な適合を確認するには上のインタラクティブカリキュレーターを使用してください。以下は一般的なGPUシナリオと推奨モデルです。
- RTX 3060(12 GB): 最適モデル:Qwen2.5 7B Q5(4.4 GB)✓。代替:Llama 3.2 8B Q4(4 GB)✓。不可能:32B以上のモデル。
- RTX 4070(12 GB): 最適モデル:Qwen2.5 13B Q4(6.5 GB)✓。余裕あり:Llama 3.2 8B Q5(5 GB)✓。不可能:32Bモデル。
- RTX 4070 Ti(12 GB): 最適モデル:Qwen2.5 13B Q5(8.1 GB)✓。ギリギリ:Llama 3.3 13B Q4(6.5 GB)✓。非推奨:バッチ処理。
- RTX 4080(16 GB): 最適モデル:Qwen2.5 32B Q4(16 GB)✓ギリギリ。余裕あり:Mistral 3.1 24B Q5(15 GB)✓。推奨:Llama 3.3 13B Q8(13 GB)✓。
- RTX 4090(24 GB): 最適モデル:Qwen2.5 32B Q5(20 GB)✓。オフロードあり:Llama 3.3 70B Q4(35 GB—オフロード必要)。余裕あり:Q5/Q8の任意の32Bモデル。
- RTX 5090(32 GB、発売予定): 最適モデル:Llama 3.3 70B Q4(35 GB—ギリギリ)。より良い:Qwen2.5 72B Q3(27 GB)✓。余裕あり:バッチ処理付きQ5以上の70Bモデル。
計算式の精度は?
計算式はほとんどの場合±10%の精度です。 実際のVRAM使用量は実装、モデルアーキテクチャ、推論エンジンの最適化によって異なります。
変動の原因には、異なる量子化形式(GGUF対safetensors対AWQ)、モデルアーキテクチャ(Transformer対非Transformer)、推論エンジン固有の最適化(vLLM、llama.cpp、Ollama)が含まれます。
2026年4月現在、計算式を保守的な推定値として扱ってください。コンテキストオーバーヘッド、バッチ処理、システムプロセスを考慮するために、GPUを購入する際は常に25%のセーフティマージンを追加してください。
VRAM計算でよくある間違い
- コンテキストオーバーヘッドを忘れること。 Q4の7Bモデルは3.5 GBですが、4kコンテキストでは合計5〜6 GBが必要です。
- 量子化を考慮せずにHuggingFaceのモデルサイズを使用すること。 70Bは700億パラメータを意味し、70 GB VRAMではありません。
- システムオーバーヘッドを考慮しないこと。 モデルはGPU VRAMの全容量を使用できません。OSと推論エンジンのために1〜2 GBを予約してください。
- 計算サイズぴったりのGPUを購入すること。 常に25%多く購入してください。18 GBが必要な計算結果 = 24 GB GPUを購入してください。
地域別デプロイの考慮事項
日本(METI・APPI): 経済産業省(METI)のAIガバナンス2024ガイドラインは、企業のAIシステムに対してデータ管理の透明性と説明責任を要求しています。個人情報保護法(APPI)の下、個人データの取り扱いには慎重な管理が必要です。ローカルLLM推論はデータを日本国内に保持し、日本の企業デプロイに適したコンプライアンスを実現します。このVRAMカリキュレーターはMETI準拠のオンプレミスシステムのサイジングに役立ちます。
アジア太平洋地域(データ越境移転): APACでは多くの国でデータ越境移転規制が強化されています。シンガポール(PDPA)、韓国(PIPA)、オーストラリア(Privacy Act)はいずれもデータ処理に関する厳格な要件を持っています。ローカル推論はデータをオンプレミスに保持し、越境データフローの規制を回避します。
グローバル展開: すべての地域で、ローカル推論はクラウドAPIよりも強力なデータプライバシー保証を提供します。このVRAMカリキュレーターはコンプライアンスに準拠したプライバシー優先AIシステムの設計に不可欠です。
FAQ:VRAMとGPU要件
この計算式はすべてのモデルタイプに対応していますか?
はい。計算式(モデルの十億パラメータ × 量子化ビット数)÷ 8は、すべてのTransformerベースのモデル(Llama、Qwen、Mistral、Claudeなど)に適用されます。非Transformerアーキテクチャ(RNNなど)はまれで、調整が必要な場合があります。
どの量子化レベルを使用すべきですか?
ほとんどの用途:Q5が最適なバランスを提供します(品質95%、サイズ68%削減)。コンシューマーGPU:Q4が標準です(品質90〜95%、75%削減)。本番環境:VRAMが許せばQ8(品質99%)。選択肢がない限り、Q3以下は避けてください。
システムRAMはどのくらい必要ですか?
オフロードには最低16 GB。VRAMオフロード(CPUスピルオーバー)を使用する場合、システムRAMがフォールバックになります。バッチ処理には、モデルオフロード要件を超えて8〜16 GBのシステムRAMを追加してください。単一ユーザーチャットには16 GBで十分です。
バッチサイズはVRAM計算に影響しますか?
はい。計算式は単一リクエストのVRAMを計算します。バッチサイズはVRAMを線形的に追加します:各同時リクエストがコンテキスト長に応じて約500 MB〜2 GBを追加します。batch=4を実行する場合、計算量に2〜8 GBを追加してください。
12 GB GPUで70Bモデルを実行できますか?
極端な量子化(Q2、品質損失約70%)とCPUオフロード(非常に遅い、毎秒1〜3トークン)を使用した場合のみ可能です。実用的ではありません。より良い選択肢:Q4の13Bモデルを使用してください(同じVRAM、はるかに高速で品質も優れています)。
実際のVRAM使用量が計算値より低い場合はどうなりますか?
計算式は保守的で、オーバーヘッドが含まれています。実際の使用量が低い場合は、バッチ処理、より長いコンテキスト、またはセーフティマージンのためのヘッドルームが増えます。nvidia-smiを使用して実際の使用量を測定し、モデルをベンチマークしてパフォーマンスを確認してください。
ソース
- GGUF仕様 -- 量子化ファイル形式に関するggerganov/ggmlドキュメント。
- Transformers量子化ドキュメント -- 量子化メソッドに関するHugging Face公式ガイド。
- Ollamaドキュメント -- モデル管理に関する公式Ollamaガイド。
- vLLMパフォーマンスガイド -- vLLMフレームワーク最適化ドキュメント。