PromptQuorumPromptQuorum

6 GB VRAM に最適な量子化レベルは?

クイック回答

Q4_K_M が最適なポイント — 7B/8B モデルは Q4_K_M で 4.7〜4.9 GB を使用し、KV キャッシュに 1.1 GB 残ります。Q5_K_M は収まりますが、コンテキストを 2k トークンに制限する必要があります。Q6_K 以上は 6 GB を超えます。

  • Llama 3.1 8B / Mistral 7B / Qwen 2.5 7B (Q4_K_M):4.7〜4.9 GB — 4k コンテキストで 6 GB に安全に収まる
  • Q5_K_M は約 5.7 GB — 収まりますが OOM を避けるためコンテキストを 2k に制限
  • 14B モデル (Q4_K_M) は 9.3 GB 必要 — 6 GB では実用的な量子化なし

更新: 2026-05

Quantization & VRAM

重要なポイント

  • 6 GB VRAM カード(RTX 3060 6 GB、RTX 3050 6 GB、GTX 1660 Ti 6 GB)では:Q4_K_M が 7B および 8B モデルの正しい量子化
  • Q4_K_M は 1.1 GB を空けます — Ollama のデフォルトコンテキストサイズ 2048 での 4k トークン KV キャッシュに十分
  • Q5_K_M はパープレキシティを約 1 ポイント改善しますが 5.7 GB を使用します;OOM エラーを避けるため `--ctx-size` を 2048 に下げてください
  • 14B モデル(Qwen 2.5 14B、Llama 3.1 13B)は Q4_K_M で 9.3 GB が必要 — どの量子化段階も 6 GB で実用的にはなりません

6 GB 上の 7B/8B モデルにおける量子化の VRAM 使用量

量子化レベルはモデルが使用する VRAM を直接制御します。6 GB GPU に収まる最大クラスである 7B および 8B パラメータモデルでは、実用的な選択肢は Q3_K_M から Q5_K_M の範囲です。Q2_K は収まりますが品質が実用水準以下に低下します;Q6_K 以上は 6 GB の上限を超えます。

Q4_K_M が推奨デフォルトです:7B モデルはこの量子化で約 4.7 GB、8B モデルは 4.9 GB を使用します。これにより Ollama がコンテキストウィンドウに割り当てる KV キャッシュ用に 1.1 GB が残ります。デフォルトの 2048 トークンコンテキストでは十分です。コンテキストを 4096 トークンに増やすと 7B モデルで約 0.5 GB の追加 KV キャッシュが必要になりますが、ほとんどの 6 GB カードでも予算内です。

Q5_K_M は次のステップです。Q5_K_M の 8B モデルは約 5.7 GB を使用し、わずか 300 MB しか残りません。非常に短いコンテキスト(512〜2048 トークン)には十分ですが、より長い会話やシステムプロンプトでは OOM エラーが発生します。`num_ctx` を 2048 以下に保つ場合のみ Q5_K_M を使用してください。

量子化7B VRAM8B VRAM6 GB に収まるか最大コンテキスト(概算)
Q2_K~2.8 GB~3.0 GB✓(品質が低い)8k+
Q3_K_M~3.5 GB~3.7 GB✓(許容範囲)8k+
Q4_K_M~4.7 GB~4.9 GB✓ 推奨4k
Q5_K_M~5.5 GB~5.7 GB⚠ ギリギリ(2k コンテキストのみ)2k
Q6_K~6.4 GB~6.6 GB✗ OOM
Q8_0~7.5 GB~7.7 GB✗ OOM

6 GB VRAM で Q4_K_M を使う最適モデル

6 GB カードで Q4_K_M を使う 7B/8B モデルの中で 3 つが際立ちます。Qwen 2.5 7B Instruct は最もバランスが取れたモデル — 強力なコーディング能力(HumanEval 約 60%)、多言語対応、128k コンテキストアーキテクチャ(ただし VRAM の制約により 4k で運用)。`ollama run qwen2.5:7b` で起動できます。

Llama 3.1 8B は最速の選択肢です。Q4_K_M では RTX 3060 6 GB で毎秒約 25 トークンで動作し、一般的なチャットと指示への従い方を確実にこなします。MMLU スコアの 66.6% は Qwen 2.5 7B より低いですが、速度の優位性によりインタラクティブなセッションにはより適しています。

Phi-4 Mini(3.8B)はダークホースです。Q8_0 で約 4.1 GB に収まり — 6 GB に余裕で収まります — サイズ比でのベンチマーク性能が優秀です。5 GB 未満の使用量で古い 7B モデルより優れた推論が必要な場合に使用してください。`ollama run phi4-mini` で起動できます。

6 GB で 14B モデルは試みないでください。Qwen 2.5 14B は Q4_K_M で 9.3 GB が必要です。Q2_K で約 5.5 GB になりますが、パープレキシティのペナルティが深刻で、出力品質が著しく低下します。7B/8B の Q4_K_M か 3B/4B の Q8_0 に留めてください。

6 GB VRAM での量子化に関するよくある質問

14B モデルを 6 GB VRAM で動かせますか?
実用的な方法はありません。Qwen 2.5 14B は Q4_K_M で 9.3 GB が必要です。Q2_K に下げると約 5.5 GB になりますが、品質の劣化が深刻で出力が著しく不整合になります。6 GB VRAM に適切なモデルは Q4_K_M の 7B または 8B モデルです。
6 GB VRAM には Q4_K_M と Q4_K_S どちらが良いですか?
Q4_K_M です。Q4_K_S バリアントは Q4_K_M より約 200 MB 節約できますが、より大きなパープレキシティのペナルティを伴います。6 GB カードでは Q4_K_M はすでに 1.1 GB の余裕があります — Q4_K_S による 200 MB の節約は必要なく、品質トレードオフは割に合いません。
6 GB VRAM で Q4_K_M の代わりに Q5_K_M を使うべきですか?
コンテキストを厳密に 2k トークンに制限する場合のみです。Q5_K_M は Q4_K_M より約 1〜1.5 ポイントパープレキシティを改善しますが、8B モデルで 5.7 GB を使用し、KV キャッシュには 300 MB しか残りません。セッション途中の OOM を避けるため、Modelfile または Ollama パラメータで `num_ctx 2048` を設定してください。
モデルが 6 GB VRAM を超えるとどうなりますか?
Ollama は超過したレイヤーを CPU RAM にオフロードします(llama.cpp のレイヤーオフロードを使用)。これにより速度が劇的に低下します — GPU のみの約 25 tok/s から、部分的な CPU オフロードで 3〜5 tok/s に。"n_gpu_layers" の警告が表示される場合や 1 秒あたりのトークン数が 5 を下回る場合、選択した量子化でのモデルが VRAM に対して大きすぎます。