PromptQuorumPromptQuorum

Q4_K_M量化是什么?

Quantization & VRAM

关键要点

  • Q4_K_M = 中等质量K-Quant压缩的4位量化——相同文件大小下质量优于Q4_0
  • Q4_K_M的7B模型磁盘占用约4.1 GB,运行需要约5.5 GB显存
  • 将Q4_K_M作为默认格式——在大多数显存预算下提供最佳质量/GB比

Q4_K_M中每个字母的含义

截至2026年5月,Q4_K_M的出现是因为旧有的4位格式(Q4_0)在关键权重上损失了过多质量。K-Quant压缩通过为影响输出最大的权重分配更多位、为影响较小的权重分配更少位来解决这个问题。结果:相同文件大小下比Q4_0质量提升5–8%。

「K」是核心区别。K-Quant压缩采用非均匀位分配——关键权重获得更多位,较不重要的权重获得更少位。与相同文件大小的旧Q4_0格式相比,可恢复5–8%的质量。

「M」是K-Quant内的质量设置。Q4_K_S(small)体积略小但质量略低。Q4_K_M(medium)是最佳平衡点。Q4_K_L(large)质量略高但额外体积通常不值得。

K-Quant通过对权重进行聚类并按重要性分配位数来工作。最重要的簇每个权重获得6位。中间级别的簇获得4位。低重要性的簇获得3位。「M」层的平均值为每权重4.5位——这解释了为什么Q4_K_M在大小和质量上都介于Q4_K_S和Q5_K_M之间。当M层不够用时,请参阅Q4_K_M与Q8_0的对比

Q4_K_M与其他量化格式的比较

下表显示了7B模型的权衡情况。质量相对于完整精度的Q8_0基准。除非您有12+ GB显存,否则Q4_K_M提供最佳的质量/GB比。

关于Q4_K_M与Q8_0的直接比较,请参阅Q4_K_M vs Q8_0决策指南。完整的量化参考请查看量化级别比较

格式文件大小(7B)对比Q8_0的质量
Q4_03.8 GB基准(~87%)
Q4_K_M4.1 GB~92%(+5%)
Q5_K_M5.0 GB~95%(+3%)
Q8_07.7 GB100%(参照)

关于量化的常见问题

Q4_K_M和Q4_0是一样的吗?
不一样。Q4_K_M使用K-Quant压缩,在相同位深下比Q4_0恢复5–8%的质量。始终优先选择Q4_K_M而非Q4_0。何时需要更高格式请参阅Q4_K_M vs Q8_0指南
8 GB显存应该使用哪种量化?
7B模型使用Q4_K_M(5.5 GB显存)。如果想要更好质量且有余量,Q5_K_M使用6.5 GB并增加约3%质量。两者都能舒适地装进8 GB。
Q4_K_M中的"M"代表什么?
Medium(中等)——指K-Quant压缩内的质量层级。Q4_K_S是小型(较低质量)变体,Q4_K_M是中等(推荐),Q4_K_L是大型(相比M改善有限)。
Ollama上哪些模型默认使用Q4_K_M?
大多数模型——Llama 3、Mistral、Qwen、Phi和Gemma都默认使用Q4_K_M标签。在模型标签中指定:q5_K_M:q8_0可切换量化格式。