关键要点
截至2026年5月,Q4_K_M的出现是因为旧有的4位格式(Q4_0)在关键权重上损失了过多质量。K-Quant压缩通过为影响输出最大的权重分配更多位、为影响较小的权重分配更少位来解决这个问题。结果:相同文件大小下比Q4_0质量提升5–8%。
「K」是核心区别。K-Quant压缩采用非均匀位分配——关键权重获得更多位,较不重要的权重获得更少位。与相同文件大小的旧Q4_0格式相比,可恢复5–8%的质量。
「M」是K-Quant内的质量设置。Q4_K_S(small)体积略小但质量略低。Q4_K_M(medium)是最佳平衡点。Q4_K_L(large)质量略高但额外体积通常不值得。
K-Quant通过对权重进行聚类并按重要性分配位数来工作。最重要的簇每个权重获得6位。中间级别的簇获得4位。低重要性的簇获得3位。「M」层的平均值为每权重4.5位——这解释了为什么Q4_K_M在大小和质量上都介于Q4_K_S和Q5_K_M之间。当M层不够用时,请参阅Q4_K_M与Q8_0的对比。
下表显示了7B模型的权衡情况。质量相对于完整精度的Q8_0基准。除非您有12+ GB显存,否则Q4_K_M提供最佳的质量/GB比。
关于Q4_K_M与Q8_0的直接比较,请参阅Q4_K_M vs Q8_0决策指南。完整的量化参考请查看量化级别比较。
| 格式 | 文件大小(7B) | 对比Q8_0的质量 |
|---|---|---|
| Q4_0 | 3.8 GB | 基准(~87%) |
| Q4_K_M | 4.1 GB | ~92%(+5%) |
| Q5_K_M | 5.0 GB | ~95%(+3%) |
| Q8_0 | 7.7 GB | 100%(参照) |
:q5_K_M或:q8_0可切换量化格式。