Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/VRAMカリキュレーター2026:7B/13B/70B LLMのGPU要件(Q4、Q5、Q8)
ハードウェアとパフォーマンス

VRAMカリキュレーター2026:7B/13B/70B LLMのGPU要件(Q4、Q5、Q8)

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

このガイドでは、任意のモデルとハードウェアの組み合わせに対して正確なVRAM要件を計算する方法を説明します。計算式はシンプルです:(モデルサイズGB × 量子化ビット数)÷ 8 = 必要VRAM。

ローカルLLM向けインタラクティブVRAMカリキュレーター。モデルサイズ、量子化、コンテキスト長、バッチサイズを入力して、GPU VRAMの正確な必要量を計算します。1B〜405BモデルのFP16、Q8、Q5、Q4量子化に対応。2026年4月更新:RTX 4090、4080、3060の適合分析とオーバーヘッド計算を含む。

スライドデッキ: VRAMカリキュレーター2026:7B/13B/70B LLMのGPU要件(Q4、Q5、Q8)

下のスライドデッキでは以下を解説します:VRAM計算式(モデルの十億パラメータ × 量子化ビット数)÷ 8、Q2〜FP16の量子化レベルと品質トレードオフ、クイックリファレンステーブル(3B〜70Bモデル)、実際のGPUシナリオ(RTX 4090、4080、M5 Max)、地域別コンプライアンス(EU GDPR、日本APPI、中国データセキュリティ法)。VRAMカリキュレーターリファレンスカードとしてPDFをダウンロードしてください。

以下のスライドを閲覧するか、PDFとしてダウンロードしてください。 リファレンスカードをダウンロード(PDF)

重要なポイント

  • VRAM = (モデルサイズ × 量子化ビット数)÷ 8
  • FP16 = 16ビット、Q8 = 8、Q5 = 5、Q4 = 4ビット
  • 例:Q4の13Bモデル = (13 × 4)÷ 8 = 6.5 GB
  • コンテキスト、システムオーバーヘッド、セーフティマージンのために常に25%のバッファーを追加する
  • 2026年4月現在、この計算式は±10%の精度です

クイックファクト:GPUごとのVRAM要件

  • RTX 4090(24 GB): Llama 3.3 7B(Q4で3.5 GB)、13B(Q5で8.1 GB)、70B(Q4でオフロードあり)
  • RTX 4080(16 GB): Llama 3.3 7B(Q4で3.5 GB)、13B(Q5で8.1 GB)、32B(Q4で16 GB)
  • RTX 4070 Ti(12 GB): Llama 3.3 7B(Q4で3.5 GB)、13B(Q5で8.1 GB、ギリギリ)
  • M5 Max Mac(36 GB統合): Llama 3.3 13B(FP16で26 GB)、70Bは極端な量子化なしでは不可能
  • 経験則: コンテキスト、バッチ処理、システムオーバーヘッドのために計算結果より常に25〜40%多くVRAMを確保する

一文で

必要なVRAM(GB)は、モデルパラメータ(十億単位)に量子化ビット数(FP16は16、Q8は8、Q4は4など)を掛けて8で割った値です。

わかりやすく言うと

VRAMを本棚のスペースと考えてください。大きな本(70Bなど多くのパラメータを持つモデル)はより多くのスペースを必要とします。小さな本(Q4量子化)は大きな本(FP16)よりも少ないスペースで済みます。計算式は必要な「棚の数」(GB)を正確に教えてくれます。会話、複数の同時リクエスト、システムソフトウェアのために、常に余裕の棚を確保しておいてください。

VRAM計算式とは?

VRAM要件の計算式は驚くほどシンプルです:

💡 プロのヒント: この計算式はモデルウェイトのみを計算します。コンテキスト、バッチ処理、システムオーバーヘッドにより、実際のVRAM使用量は25〜40%多くなります。常にセーフティマージンを追加してください。

bash
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8

Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB

- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB

- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB
VRAM計算式と3つの計算例:7BモデルのQ4 = 3.5 GB、13BのQ5 = 8.1 GB、70BのQ8 = 70 GB。コンテキスト、バッチ処理、システムオーバーヘッドのために常に25〜40%のバッファーを追加してください。
VRAM計算式と3つの計算例:7BモデルのQ4 = 3.5 GB、13BのQ5 = 8.1 GB、70BのQ8 = 70 GB。コンテキスト、バッチ処理、システムオーバーヘッドのために常に25〜40%のバッファーを追加してください。

インタラクティブVRAMカリキュレーター

このカリキュレーターを使用して、モデル、量子化、コンテキスト、バッチサイズの任意の組み合わせに対する正確なVRAM要件を計算してください。設定を選択して、どのGPUが適合するかを確認します。

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

量子化レベルの意味は?

🔍 重要なインサイト: 量子化はファイルサイズと品質をトレードオフします。Q5がスイートスポットです(品質95%、68%小さい)。Q4はほとんどのユーザーに許容範囲内です。Q3以下はエッジデバイスまたはVRAMが著しく制限されている場合のみ。

量子化サイズ削減品質速度用途
FP16(16ビット)なし(ベースライン)100%(完璧)ベースライン研究、ファインチューニング
Q8(8ビット)50%99%(識別不可能)ベースライン本番環境、ローカルサーバー
Q6(6ビット)62.5%98%(無視できる)ベースラインバランスの取れた使用
Q5(5ビット)68.75%95%(わずかな損失)ベースライン良好な圧縮、コンシューマー
Q4(4ビット)75%90〜95%(許容範囲)ベースライン最大圧縮
Q3(3ビット)81%80〜85%(顕著な損失)高速極端な圧縮、CPU
Q2(2ビット)87.5%70%(目に見える損失)最速小型モデル、エッジデバイス
量子化レベルの比較:FP16(品質100%)、Q8(99%)、Q5(95%、推奨)、Q4(90〜95%)、Q3(80〜85%)、Q2(70%)。Q5は7Bモデルを14 GBから4.4 GBに削減し、品質損失はわずか5%です。
量子化レベルの比較:FP16(品質100%)、Q8(99%)、Q5(95%、推奨)、Q4(90〜95%)、Q3(80〜85%)、Q2(70%)。Q5は7Bモデルを14 GBから4.4 GBに削減し、品質損失はわずか5%です。

クイックリファレンステーブル:モデルと量子化別のVRAM

モデルFP16Q8Q5Q4
3B6 GB3 GB1.9 GB1.5 GB
7B14 GB7 GB4.4 GB3.5 GB
13B26 GB13 GB8.1 GB6.5 GB
32B64 GB32 GB20 GB16 GB
70B140 GB70 GB43.75 GB35 GB
VRAMクイックリファレンスマトリックス:FP16、Q8、Q5、Q4量子化での3B〜70Bモデル。緑 = 12 GB GPUに収まる。黄 = 16〜24 GBが必要。赤 = 40 GB以上またはマルチGPUが必要。
VRAMクイックリファレンスマトリックス:FP16、Q8、Q5、Q4量子化での3B〜70Bモデル。緑 = 12 GB GPUに収まる。黄 = 16〜24 GBが必要。赤 = 40 GB以上またはマルチGPUが必要。

実際の使用例

一般的なシナリオの実際のVRAM計算:

⚠️ 警告: これらの計算はモデルウェイトのみです。コンテキスト、バッチ処理、システムオーバーヘッドのために25〜40%を追加してください。例:13B Q5 = 8.1 GBモデル + 2〜3 GBオーバーヘッド = 実際には10〜11 GB。

  • RTX 4070 Ti(12 GB):Llama 3.3 7B(Q4で3.5 GB)✓(余裕あり)。Llama 3.3 13B(Q5で8.1 GB)✓(コンテキスト/バッチなしでギリギリ動作)。
  • RTX 4090(24 GB):Llama 3.3 70B(Q5で43.75 GB)✗(大きすぎ)。Llama 3.3 70B(Q4で35 GB)✗(まだ大きすぎ)。Llama 3.3 70B(Q4でオフロードあり)= 動作可(遅い、毎秒3〜5トークン)。
  • M5 Max Mac(36 GB):Llama 3.3 13B(FP16で26 GB)✓(動作可)。Llama 3.3 70B = 不可能(Q2でも品質損失約70%)。
実際のGPUシナリオ:RTX 4090(24 GB)、RTX 4080(16 GB)、RTX 4070 Ti(12 GB)、M5 Max Mac(36 GB)、RTX 3060(12 GB)——各GPUがさまざまな量子化レベルで実行できるLlama 3.3モデル。
実際のGPUシナリオ:RTX 4090(24 GB)、RTX 4080(16 GB)、RTX 4070 Ti(12 GB)、M5 Max Mac(36 GB)、RTX 3060(12 GB)——各GPUがさまざまな量子化レベルで実行できるLlama 3.3モデル。

考慮すべき隠れたVRAMオーバーヘッドは?

計算式はモデルウェイトのみを計算します。 実際のVRAM使用量はいくつかの要因により高くなります。計算量を超えて25〜40%の追加予算を確保してください。

コンテキストウィンドウ(キーバリューキャッシュ)は推論中に会話履歴を保存します。4kトークンのコンテキストは7Bモデルで約2〜3 GBを使用します。

📌 重要ポイント: バッチ処理はVRAM使用量を線形的に増加させます。各追加の同時プロンプト(複数のリクエストを同時処理する場合)は500 MB〜2 GBの追加メモリを使用します。batch=4を実行する場合、単一リクエストのVRAMを4倍にしてオーバーヘッドを追加してください。

オペレーティングシステムと推論エンジンフレームワーク(Ollama、vLLM、llama.cpp)からのシステムオーバーヘッドは500 MB〜1 GBを予約します。GPU選択時に常にセーフティマージンを維持してください。

隠れたVRAMオーバーヘッドの内訳:コンテキストウィンドウ(4kトークンで2〜3 GB)、バッチ処理(batch=4の場合×4)、システムオーバーヘッド(500 MB〜1 GB)、合計25〜40%のセーフティマージン。
隠れたVRAMオーバーヘッドの内訳:コンテキストウィンドウ(4kトークンで2〜3 GB)、バッチ処理(batch=4の場合×4)、システムオーバーヘッド(500 MB〜1 GB)、合計25〜40%のセーフティマージン。

お使いのGPUに適合するローカルLLMは?2026ガイド

正確な適合を確認するには上のインタラクティブカリキュレーターを使用してください。以下は一般的なGPUシナリオと推奨モデルです。

  • RTX 3060(12 GB): 最適モデル:Qwen3 7B Q5(4.4 GB)✓。代替:Llama 3.2 8B Q4(4 GB)✓。不可能:32B以上のモデル。
  • RTX 4070(12 GB): 最適モデル:Qwen3 13B Q4(6.5 GB)✓。余裕あり:Llama 3.2 8B Q5(5 GB)✓。不可能:32Bモデル。
  • RTX 4070 Ti(12 GB): 最適モデル:Qwen3 13B Q5(8.1 GB)✓。ギリギリ:Llama 3.3 13B Q4(6.5 GB)✓。非推奨:バッチ処理。
  • RTX 4080(16 GB): 最適モデル:Qwen3 32B Q4(16 GB)✓ギリギリ。余裕あり:Mistral 3.1 24B Q5(15 GB)✓。推奨:Llama 3.3 13B Q8(13 GB)✓。
  • RTX 4090(24 GB): 最適モデル:Qwen3 32B Q5(20 GB)✓。オフロードあり:Llama 3.3 70B Q4(35 GB—オフロード必要)。余裕あり:Q5/Q8の任意の32Bモデル。
  • RTX 5090(32 GB、発売予定): 最適モデル:Llama 3.3 70B Q4(35 GB—ギリギリ)。より良い:Qwen3 72B Q3(27 GB)✓。余裕あり:バッチ処理付きQ5以上の70Bモデル。

計算式の精度は?

計算式はほとんどの場合±10%の精度です。 実際のVRAM使用量は実装、モデルアーキテクチャ、推論エンジンの最適化によって異なります。

変動の原因には、異なる量子化形式(GGUF対safetensors対AWQ)、モデルアーキテクチャ(Transformer対非Transformer)、推論エンジン固有の最適化(vLLM、llama.cpp、Ollama)が含まれます。

2026年4月現在、計算式を保守的な推定値として扱ってください。コンテキストオーバーヘッド、バッチ処理、システムプロセスを考慮するために、GPUを購入する際は常に25%のセーフティマージンを追加してください。

VRAM計算式の精度±10%:量子化形式(GGUF対GPTQ対AWQ)、モデルアーキテクチャ(Transformer対MoE)、推論エンジン(vLLM対llama.cpp対Ollama)による変動。
VRAM計算式の精度±10%:量子化形式(GGUF対GPTQ対AWQ)、モデルアーキテクチャ(Transformer対MoE)、推論エンジン(vLLM対llama.cpp対Ollama)による変動。

VRAM計算でよくある間違い

  • コンテキストオーバーヘッドを忘れること。 Q4の7Bモデルは3.5 GBですが、4kコンテキストでは合計5〜6 GBが必要です。
  • 量子化を考慮せずにHuggingFaceのモデルサイズを使用すること。 70Bは700億パラメータを意味し、70 GB VRAMではありません。
  • システムオーバーヘッドを考慮しないこと。 モデルはGPU VRAMの全容量を使用できません。OSと推論エンジンのために1〜2 GBを予約してください。
  • 計算サイズぴったりのGPUを購入すること。 常に25%多く購入してください。18 GBが必要な計算結果 = 24 GB GPUを購入してください。
VRAMでよくある4つの間違い:コンテキストオーバーヘッドを忘れる(1.5〜3 GBが追加される)、70Bパラメータと70 GB VRAMを混同する、1〜2 GBのシステムオーバーヘッドを無視する、25%マージンなしで計算サイズぴったりのGPUを購入する。
VRAMでよくある4つの間違い:コンテキストオーバーヘッドを忘れる(1.5〜3 GBが追加される)、70Bパラメータと70 GB VRAMを混同する、1〜2 GBのシステムオーバーヘッドを無視する、25%マージンなしで計算サイズぴったりのGPUを購入する。

地域別デプロイの考慮事項

日本(METI・APPI): 経済産業省(METI)のAIガバナンス2024ガイドラインは、企業のAIシステムに対してデータ管理の透明性と説明責任を要求しています。個人情報保護法(APPI)の下、個人データの取り扱いには慎重な管理が必要です。ローカルLLM推論はデータを日本国内に保持し、日本の企業デプロイに適したコンプライアンスを実現します。このVRAMカリキュレーターはMETI準拠のオンプレミスシステムのサイジングに役立ちます。

アジア太平洋地域(データ越境移転): APACでは多くの国でデータ越境移転規制が強化されています。シンガポール(PDPA)、韓国(PIPA)、オーストラリア(Privacy Act)はいずれもデータ処理に関する厳格な要件を持っています。ローカル推論はデータをオンプレミスに保持し、越境データフローの規制を回避します。

グローバル展開: すべての地域で、ローカル推論はクラウドAPIよりも強力なデータプライバシー保証を提供します。このVRAMカリキュレーターはコンプライアンスに準拠したプライバシー優先AIシステムの設計に不可欠です。

FAQ:VRAMとGPU要件

この計算式はすべてのモデルタイプに対応していますか?

はい。計算式(モデルの十億パラメータ × 量子化ビット数)÷ 8は、すべてのTransformerベースのモデル(Llama、Qwen、Mistral、Claudeなど)に適用されます。非Transformerアーキテクチャ(RNNなど)はまれで、調整が必要な場合があります。

どの量子化レベルを使用すべきですか?

ほとんどの用途:Q5が最適なバランスを提供します(品質95%、サイズ68%削減)。コンシューマーGPU:Q4が標準です(品質90〜95%、75%削減)。本番環境:VRAMが許せばQ8(品質99%)。選択肢がない限り、Q3以下は避けてください。

システムRAMはどのくらい必要ですか?

オフロードには最低16 GB。VRAMオフロード(CPUスピルオーバー)を使用する場合、システムRAMがフォールバックになります。バッチ処理には、モデルオフロード要件を超えて8〜16 GBのシステムRAMを追加してください。単一ユーザーチャットには16 GBで十分です。

バッチサイズはVRAM計算に影響しますか?

はい。計算式は単一リクエストのVRAMを計算します。バッチサイズはVRAMを線形的に追加します:各同時リクエストがコンテキスト長に応じて約500 MB〜2 GBを追加します。batch=4を実行する場合、計算量に2〜8 GBを追加してください。

12 GB GPUで70Bモデルを実行できますか?

極端な量子化(Q2、品質損失約70%)とCPUオフロード(非常に遅い、毎秒1〜3トークン)を使用した場合のみ可能です。実用的ではありません。より良い選択肢:Q4の13Bモデルを使用してください(同じVRAM、はるかに高速で品質も優れています)。

実際のVRAM使用量が計算値より低い場合はどうなりますか?

計算式は保守的で、オーバーヘッドが含まれています。実際の使用量が低い場合は、バッチ処理、より長いコンテキスト、またはセーフティマージンのためのヘッドルームが増えます。nvidia-smiを使用して実際の使用量を測定し、モデルをベンチマークしてパフォーマンスを確認してください。

ソース

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る