ローカルLLMに必要なVRAM量は？

Quantization & VRAM

重要なポイント

✓4 GB VRAMでPhi-4 Mini Q4とGemma 2 2Bが快適に動作します
✓6 GBは最も人気のあるローカルモデルLlama 3 8B Q4_K_Mの最小ラインです
✓12 GBでQwen 14B Q4が解放され、最高のコスト対品質ティアになります
✓70Bモデルには40+ GBが必要です — デュアルRTX 3090か、大容量ユニファイドメモリを持つApple M-seriesを検討してください

モデルサイズ別のVRAM要件

2026年5月現在、モデルのVRAM要件は単純な計算式に従います：パラメータ数（十億単位）× 0.7 = Q4量化での概算GB。7Bモデルは重みに~4.9 GB、加えてコンテキストオーバーヘッドに0.5–1 GBが必要です。これが7–8Bティアの最小が6 GBである理由であり、12 GBが余裕を持って14Bティアを解放する理由です。

以下の表を素早い決定リファレンスとして使用してください。「速度」列はデフォルトコンテキスト（2048トークン）で動作するデスクトップGPU上のOllamaを前提としています。

モデルの必要VRAMより常に1–2 GB多くの空き容量を確保してください。OSや、ブラウザタブ、Ollamaのランタイムは、モデルを読み込んでいない状態でも500 MB–1 GBを消費します。5.5 GBのモデルを動かす6 GBカードには500 MBしか余裕がなく、--num-ctxを2048トークン超に増やした瞬間にメモリ不足エラーが発生します。安全な余裕のある6 GBティアについては、6 GB VRAM向け最良ローカルLLMを参照してください。

VRAM	Q4_K_Mでの最良モデル	速度
4 GB	Phi-4 Mini Q4	~25 tok/s
6 GB	Llama 3 8B Q4_K_M	~20 tok/s
8 GB	Mistral 7B Q5_K_M	~18 tok/s
12 GB	Qwen 14B Q4_K_M	~15 tok/s
16+ GB	Qwen 32B Q4またはLlama 70B部分実行	~8 tok/s

VRAMが不足している場合の対処法

モデルがVRAMを超える場合、3つの選択肢があります：量化を下げる（Q5の代わりにQ4_K_M）、--num-ctx 2048でコンテキストウィンドウを縮小する、またはOllamaにレイヤーをシステムRAMにオフロードさせる。

CPUオフロードは機能しますが低速です — RAMに移動された各レイヤーがレイテンシを増加させます。インタラクティブな使用では、GPUのVRAM制限内に収めてください。コンテキストを4096から2048トークンに削減すると、7Bモデルで約2 GBを節約できます。

モデルサイズの完全な内訳とVRAM推定の計算については、ローカルLLMの完全VRAMガイドを参照してください。7Bティアについては、7Bモデルに必要なRAM量を参照してください。

VRAMに関するよくある質問

8 GB VRAMはローカルLLMに十分ですか？▾

はい。8 GBはLlama 3 8BをQ5_K_Mで毎秒約18トークン、またはMistral 7BをQ5_K_Mで余裕を持って動作させられます。このティアでは日常的なチャットやコーディングタスクのほとんどに対応できます。

4 GB VRAMで7Bモデルを動かせますか？▾

いいえ。Q4の7BモデルにはVRAM 5–6 GBが必要です。最小の使用可能な量化でも4 GBを超えます。完全な内訳については7Bモデルに必要なRAM量を参照してください。

コンテキストウィンドウのサイズはVRAM使用量に影響しますか？▾

はい。7Bモデルでは追加1,000コンテキストトークンごとに約250 MB VRAMを使用します。デフォルトの2048トークンコンテキストは~0.5 GB、16,384トークンはモデルウェイトに加えて~4 GBを使用します。

モデルが予想より多くのVRAMを使用している場合はどうすればいいですか？▾

Ollamaコマンドに--num-ctx 2048を設定してください。これにより、モデルファイルを変更せずに7Bモデルで最大2 GBのVRAMを削減できます。

← Prompt Bites に戻る