クイック回答
Q4_K_M が最適なポイント — 7B/8B モデルは Q4_K_M で 4.7〜4.9 GB を使用し、KV キャッシュに 1.1 GB 残ります。Q5_K_M は収まりますが、コンテキストを 2k トークンに制限する必要があります。Q6_K 以上は 6 GB を超えます。
更新: 2026-05
重要なポイント
量子化レベルはモデルが使用する VRAM を直接制御します。6 GB GPU に収まる最大クラスである 7B および 8B パラメータモデルでは、実用的な選択肢は Q3_K_M から Q5_K_M の範囲です。Q2_K は収まりますが品質が実用水準以下に低下します;Q6_K 以上は 6 GB の上限を超えます。
Q4_K_M が推奨デフォルトです:7B モデルはこの量子化で約 4.7 GB、8B モデルは 4.9 GB を使用します。これにより Ollama がコンテキストウィンドウに割り当てる KV キャッシュ用に 1.1 GB が残ります。デフォルトの 2048 トークンコンテキストでは十分です。コンテキストを 4096 トークンに増やすと 7B モデルで約 0.5 GB の追加 KV キャッシュが必要になりますが、ほとんどの 6 GB カードでも予算内です。
Q5_K_M は次のステップです。Q5_K_M の 8B モデルは約 5.7 GB を使用し、わずか 300 MB しか残りません。非常に短いコンテキスト(512〜2048 トークン)には十分ですが、より長い会話やシステムプロンプトでは OOM エラーが発生します。`num_ctx` を 2048 以下に保つ場合のみ Q5_K_M を使用してください。
| 量子化 | 7B VRAM | 8B VRAM | 6 GB に収まるか | 最大コンテキスト(概算) |
|---|---|---|---|---|
| Q2_K | ~2.8 GB | ~3.0 GB | ✓(品質が低い) | 8k+ |
| Q3_K_M | ~3.5 GB | ~3.7 GB | ✓(許容範囲) | 8k+ |
| Q4_K_M | ~4.7 GB | ~4.9 GB | ✓ 推奨 | 4k |
| Q5_K_M | ~5.5 GB | ~5.7 GB | ⚠ ギリギリ(2k コンテキストのみ) | 2k |
| Q6_K | ~6.4 GB | ~6.6 GB | ✗ OOM | — |
| Q8_0 | ~7.5 GB | ~7.7 GB | ✗ OOM | — |
6 GB カードで Q4_K_M を使う 7B/8B モデルの中で 3 つが際立ちます。Qwen 2.5 7B Instruct は最もバランスが取れたモデル — 強力なコーディング能力(HumanEval 約 60%)、多言語対応、128k コンテキストアーキテクチャ(ただし VRAM の制約により 4k で運用)。`ollama run qwen2.5:7b` で起動できます。
Llama 3.1 8B は最速の選択肢です。Q4_K_M では RTX 3060 6 GB で毎秒約 25 トークンで動作し、一般的なチャットと指示への従い方を確実にこなします。MMLU スコアの 66.6% は Qwen 2.5 7B より低いですが、速度の優位性によりインタラクティブなセッションにはより適しています。
Phi-4 Mini(3.8B)はダークホースです。Q8_0 で約 4.1 GB に収まり — 6 GB に余裕で収まります — サイズ比でのベンチマーク性能が優秀です。5 GB 未満の使用量で古い 7B モデルより優れた推論が必要な場合に使用してください。`ollama run phi4-mini` で起動できます。
6 GB で 14B モデルは試みないでください。Qwen 2.5 14B は Q4_K_M で 9.3 GB が必要です。Q2_K で約 5.5 GB になりますが、パープレキシティのペナルティが深刻で、出力品質が著しく低下します。7B/8B の Q4_K_M か 3B/4B の Q8_0 に留めてください。