PromptQuorumPromptQuorum

ローカルLLMに必要なVRAM量は?

Quantization & VRAM

重要なポイント

  • 4 GB VRAMでPhi-4 Mini Q4とGemma 2 2Bが快適に動作します
  • 6 GBは最も人気のあるローカルモデルLlama 3 8B Q4_K_Mの最小ラインです
  • 12 GBでQwen 14B Q4が解放され、最高のコスト対品質ティアになります
  • 70Bモデルには40+ GBが必要です — デュアルRTX 3090か、大容量ユニファイドメモリを持つApple M-seriesを検討してください

モデルサイズ別のVRAM要件

2026年5月現在、モデルのVRAM要件は単純な計算式に従います:パラメータ数(十億単位)× 0.7 = Q4量化での概算GB。7Bモデルは重みに~4.9 GB、加えてコンテキストオーバーヘッドに0.5–1 GBが必要です。これが7–8Bティアの最小が6 GBである理由であり、12 GBが余裕を持って14Bティアを解放する理由です。

以下の表を素早い決定リファレンスとして使用してください。「速度」列はデフォルトコンテキスト(2048トークン)で動作するデスクトップGPU上のOllamaを前提としています。

モデルの必要VRAMより常に1–2 GB多くの空き容量を確保してください。OSや、ブラウザタブ、Ollamaのランタイムは、モデルを読み込んでいない状態でも500 MB–1 GBを消費します。5.5 GBのモデルを動かす6 GBカードには500 MBしか余裕がなく、--num-ctxを2048トークン超に増やした瞬間にメモリ不足エラーが発生します。安全な余裕のある6 GBティアについては、6 GB VRAM向け最良ローカルLLMを参照してください。

VRAMQ4_K_Mでの最良モデル速度
4 GBPhi-4 Mini Q4~25 tok/s
6 GBLlama 3 8B Q4_K_M~20 tok/s
8 GBMistral 7B Q5_K_M~18 tok/s
12 GBQwen 14B Q4_K_M~15 tok/s
16+ GBQwen 32B Q4またはLlama 70B部分実行~8 tok/s

VRAMが不足している場合の対処法

モデルがVRAMを超える場合、3つの選択肢があります:量化を下げる(Q5の代わりにQ4_K_M)、--num-ctx 2048でコンテキストウィンドウを縮小する、またはOllamaにレイヤーをシステムRAMにオフロードさせる。

CPUオフロードは機能しますが低速です — RAMに移動された各レイヤーがレイテンシを増加させます。インタラクティブな使用では、GPUのVRAM制限内に収めてください。コンテキストを4096から2048トークンに削減すると、7Bモデルで約2 GBを節約できます。

モデルサイズの完全な内訳とVRAM推定の計算については、ローカルLLMの完全VRAMガイドを参照してください。7Bティアについては、7Bモデルに必要なRAM量を参照してください。

VRAMに関するよくある質問

8 GB VRAMはローカルLLMに十分ですか?
はい。8 GBはLlama 3 8BをQ5_K_Mで毎秒約18トークン、またはMistral 7BをQ5_K_Mで余裕を持って動作させられます。このティアでは日常的なチャットやコーディングタスクのほとんどに対応できます。
4 GB VRAMで7Bモデルを動かせますか?
いいえ。Q4の7BモデルにはVRAM 5–6 GBが必要です。最小の使用可能な量化でも4 GBを超えます。完全な内訳については7Bモデルに必要なRAM量を参照してください。
コンテキストウィンドウのサイズはVRAM使用量に影響しますか?
はい。7Bモデルでは追加1,000コンテキストトークンごとに約250 MB VRAMを使用します。デフォルトの2048トークンコンテキストは~0.5 GB、16,384トークンはモデルウェイトに加えて~4 GBを使用します。
モデルが予想より多くのVRAMを使用している場合はどうすればいいですか?
Ollamaコマンドに--num-ctx 2048を設定してください。これにより、モデルファイルを変更せずに7Bモデルで最大2 GBのVRAMを削減できます。