Q4_K_M量化是什么？

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Quantization & VRAM

关键要点

✓Q4_K_M = 中等质量K-Quant压缩的4位量化——相同文件大小下质量优于Q4_0
✓Q4_K_M的7B模型磁盘占用约4.1 GB，运行需要约5.5 GB显存
✓将Q4_K_M作为默认格式——在大多数显存预算下提供最佳质量/GB比

Q4_K_M中每个字母的含义

截至2026年5月，Q4_K_M的出现是因为旧有的4位格式（Q4_0）在关键权重上损失了过多质量。K-Quant压缩通过为影响输出最大的权重分配更多位、为影响较小的权重分配更少位来解决这个问题。结果：相同文件大小下比Q4_0质量提升5–8%。

「K」是核心区别。K-Quant压缩采用非均匀位分配——关键权重获得更多位，较不重要的权重获得更少位。与相同文件大小的旧Q4_0格式相比，可恢复5–8%的质量。

「M」是K-Quant内的质量设置。Q4_K_S（small）体积略小但质量略低。Q4_K_M（medium）是最佳平衡点。Q4_K_L（large）质量略高但额外体积通常不值得。

K-Quant通过对权重进行聚类并按重要性分配位数来工作。最重要的簇每个权重获得6位。中间级别的簇获得4位。低重要性的簇获得3位。「M」层的平均值为每权重4.5位——这解释了为什么Q4_K_M在大小和质量上都介于Q4_K_S和Q5_K_M之间。当M层不够用时，请参阅Q4_K_M与Q8_0的对比。

Q4_K_M与其他量化格式的比较

下表显示了7B模型的权衡情况。质量相对于完整精度的Q8_0基准。除非您有12+ GB显存，否则Q4_K_M提供最佳的质量/GB比。

关于Q4_K_M与Q8_0的直接比较，请参阅Q4_K_M vs Q8_0决策指南。完整的量化参考请查看量化级别比较。

格式	文件大小（7B）	对比Q8_0的质量
Q4_0	3.8 GB	基准（~87%）
Q4_K_M	4.1 GB	~92%（+5%）
Q5_K_M	5.0 GB	~95%（+3%）
Q8_0	7.7 GB	100%（参照）

关于量化的常见问题

Q4_K_M和Q4_0是一样的吗？▾

不一样。Q4_K_M使用K-Quant压缩，在相同位深下比Q4_0恢复5–8%的质量。始终优先选择Q4_K_M而非Q4_0。何时需要更高格式请参阅Q4_K_M vs Q8_0指南。

8 GB显存应该使用哪种量化？▾

7B模型使用Q4_K_M（5.5 GB显存）。如果想要更好质量且有余量，Q5_K_M使用6.5 GB并增加约3%质量。两者都能舒适地装进8 GB。

Q4_K_M中的"M"代表什么？▾

Medium（中等）——指K-Quant压缩内的质量层级。Q4_K_S是小型（较低质量）变体，Q4_K_M是中等（推荐），Q4_K_L是大型（相比M改善有限）。

Ollama上哪些模型默认使用Q4_K_M？▾

大多数模型——Llama 3、Mistral、Qwen、Phi和Gemma都默认使用Q4_K_M标签。在模型标签中指定:q5_K_M或:q8_0可切换量化格式。

← 返回提示词速答