快速回答
Q4_K_M 是最佳选择——7B/8B 模型在 Q4_K_M 下使用 4.7–4.9 GB,为 KV 缓存留出 1.1 GB。Q5_K_M 可以容纳但需将上下文限制在 2k tokens。Q6_K 及以上超出 6 GB。
更新于: 2026-05
关键要点
量化等级直接控制模型占用多少显存。对于 7B 和 8B 参数模型——适合 6 GB GPU 的最大类别——实际可选范围是 Q3_K_M 到 Q5_K_M。Q2_K 能放入但质量下降到不实用的程度;Q6_K 及以上超出 6 GB 上限。
Q4_K_M 是推荐默认值:7B 模型在此量化下使用约 4.7 GB,8B 模型使用 4.9 GB。这为 Ollama 分配给上下文窗口的 KV 缓存留出 1.1 GB。在默认的 2048 token 上下文下已经足够。将上下文增加到 4096 token 在 7B 模型上大约需要额外 0.5 GB 的 KV 缓存——在大多数 6 GB 显卡上仍在预算内。
Q5_K_M 是下一个选项。Q5_K_M 下的 8B 模型使用约 5.7 GB,仅剩 300 MB 空闲。这对于非常短的上下文(512–2048 tokens)足够,但在较长的对话或系统提示词中会导致 OOM 错误。仅在将 `num_ctx` 保持在 2048 或以下时才使用 Q5_K_M。
| 量化等级 | 7B 显存 | 8B 显存 | 适合 6 GB? | 最大上下文(约) |
|---|---|---|---|---|
| Q2_K | ~2.8 GB | ~3.0 GB | ✓(质量差) | 8k+ |
| Q3_K_M | ~3.5 GB | ~3.7 GB | ✓(可接受) | 8k+ |
| Q4_K_M | ~4.7 GB | ~4.9 GB | ✓ 推荐 | 4k |
| Q5_K_M | ~5.5 GB | ~5.7 GB | ⚠ 勉强(仅 2k 上下文) | 2k |
| Q6_K | ~6.4 GB | ~6.6 GB | ✗ OOM | — |
| Q8_0 | ~7.5 GB | ~7.7 GB | ✗ OOM | — |
三款 7B/8B 模型在 6 GB 显卡上以 Q4_K_M 运行时表现突出。Qwen 2.5 7B Instruct 是最全面的选择——强大的编程能力(HumanEval 约 60%)、多语言支持和 128k 上下文架构(尽管由于显存限制将在 4k 下运行)。使用 `ollama run qwen2.5:7b` 运行。
Llama 3.1 8B 是最快的选项。在 Q4_K_M 下,它在 RTX 3060 6 GB 上以每秒约 25 个 token 的速度运行,可靠地处理通用聊天和指令跟随。MMLU 得分 66.6% 低于 Qwen 2.5 7B,但速度优势使其成为交互式会话的更好选择。
Phi-4 Mini(3.8B)是意外之选。在 Q8_0 下约占 4.1 GB——在 6 GB 内绰绰有余——其推理基准测试性能超出了其规模预期。在需要低于 5 GB 占用且推理能力优于旧版 7B 模型时使用。使用 `ollama run phi4-mini` 运行。
不要在 6 GB 上尝试 14B 模型。Qwen 2.5 14B 在 Q4_K_M 下需要 9.3 GB。Q2_K 将其降至约 5.5 GB,但困惑度损失非常严重——模型产生明显退化的输出。坚持使用 Q4_K_M 的 7B/8B 或 Q8_0 的 3B/4B 模型。