重要なポイント
2026年5月現在、モデルのVRAM要件は単純な計算式に従います:パラメータ数(十億単位)× 0.7 = Q4量化での概算GB。7Bモデルは重みに~4.9 GB、加えてコンテキストオーバーヘッドに0.5–1 GBが必要です。これが7–8Bティアの最小が6 GBである理由であり、12 GBが余裕を持って14Bティアを解放する理由です。
以下の表を素早い決定リファレンスとして使用してください。「速度」列はデフォルトコンテキスト(2048トークン)で動作するデスクトップGPU上のOllamaを前提としています。
モデルの必要VRAMより常に1–2 GB多くの空き容量を確保してください。OSや、ブラウザタブ、Ollamaのランタイムは、モデルを読み込んでいない状態でも500 MB–1 GBを消費します。5.5 GBのモデルを動かす6 GBカードには500 MBしか余裕がなく、--num-ctxを2048トークン超に増やした瞬間にメモリ不足エラーが発生します。安全な余裕のある6 GBティアについては、6 GB VRAM向け最良ローカルLLMを参照してください。
| VRAM | Q4_K_Mでの最良モデル | 速度 |
|---|---|---|
| 4 GB | Phi-4 Mini Q4 | ~25 tok/s |
| 6 GB | Llama 3 8B Q4_K_M | ~20 tok/s |
| 8 GB | Mistral 7B Q5_K_M | ~18 tok/s |
| 12 GB | Qwen 14B Q4_K_M | ~15 tok/s |
| 16+ GB | Qwen 32B Q4またはLlama 70B部分実行 | ~8 tok/s |
モデルがVRAMを超える場合、3つの選択肢があります:量化を下げる(Q5の代わりにQ4_K_M)、--num-ctx 2048でコンテキストウィンドウを縮小する、またはOllamaにレイヤーをシステムRAMにオフロードさせる。
CPUオフロードは機能しますが低速です — RAMに移動された各レイヤーがレイテンシを増加させます。インタラクティブな使用では、GPUのVRAM制限内に収めてください。コンテキストを4096から2048トークンに削減すると、7Bモデルで約2 GBを節約できます。
モデルサイズの完全な内訳とVRAM推定の計算については、ローカルLLMの完全VRAMガイドを参照してください。7Bティアについては、7Bモデルに必要なRAM量を参照してください。
--num-ctx 2048を設定してください。これにより、モデルファイルを変更せずに7Bモデルで最大2 GBのVRAMを削減できます。