关键要点
截至2026年5月,Q8_0约为完整精度质量的99%。Q4_K_M约为92%。这7个百分点的差距在聊天、编程和摘要中是不可见的——这三个任务涵盖了95%的本地LLM使用场景。Q8_0只在长篇事实回忆、多步数学推理以及需要500行以上精确语法的代码生成上表现更好。
Q4_K_M是正确的默认选择,因为Q8_0的额外质量仅在边缘情况下出现:需要精确事实回忆的长篇生成,或需要更高精度的数学推理。对于其他所有情况,Q4_K_M在实践中与Q8_0持平。
如果您已经在使用Q4_K_M但结果感觉不对,问题几乎从不在于量化——而在于模型大小或提示词结构。
下表比较了7B模型的Q4_K_M和Q8_0。两种格式都可与Ollama、LM Studio和llama.cpp配合使用,无需特殊配置。
关于Q4_K_M的含义和k-quant压缩原理,请参阅Q4_K_M详解指南。完整量化参考请查看量化级别比较。
三个任务揭示了Q4_K_M的质量差距:长文档回忆(50页以上)、带中间状态的多步数学推理,以及超过300行的代码生成。对于这些任务,Q8_0的额外精度可防止在长输出中累积的小误差漂移。对于其他所有情况——聊天、200行以内的代码、问答、摘要——差距是不可见的。决策前的回顾请参阅Q4_K_M的含义。
| 指标 | Q4_K_M | Q8_0 |
|---|---|---|
| 文件大小(7B模型) | ~4.1 GB | ~7.7 GB |
| 所需显存(7B) | 5–6 GB | 8–9 GB |
| 对比完整精度的质量 | ~92% | ~99% |
| 最适合 | 6–8 GB显存 | 12+ GB显存 |
ollama pull llama3:8b-q4_K_M和ollama pull llama3:8b-q8_0是独立的下载。通过在ollama run中指定标签来切换。