Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/Q4 vs Q5 vs Q8: 应该使用哪个量子化级别?
按用途分类的模型

Q4 vs Q5 vs Q8: 应该使用哪个量子化级别?

·8分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

Q4(4比特)是最佳平衡: 节省87% VRAM,质量损失不可感知。截至2026年6月,Q5不必要(仅5%质量改进,与Q4相同VRAM成本),Q8适合拥有剩余VRAM的完美主义者。

Q4(4比特)是最佳平衡: 节省87% VRAM,质量损失不可感知。 截至2026年6月,Q5不必要(仅5%质量改进,与Q4相同VRAM成本),Q8适合拥有剩余VRAM的完美主义者。FP32(完整精度)永远不需要消费级硬件推理。

关键要点

  • Q4(4比特)标准选择: VRAM节省87%,质量损失最小。
  • Q5不必要: 与Q4相同内存成本,仅5%质量改进。
  • Q8: 拥有剩余VRAM的完美主义者。3%质量改进,VRAM增加3倍。
  • Q2/Q3: 极低内存(7B模型1GB)但质量严重下降。
  • FP32/FP16: 消费级硬件不需要。仅生产使用。
  • 推荐: Llama 3 70B → Q4 (20GB)。Mistral Small → Q4 (3.5GB)。

量子化是什么?

量子化是将神经网络权重减少到低精度比特表示的过程。从FP32(32比特浮点)减少到Q4(4比特整数)会导致内存减少8倍,推理速度提高。

  • FP32(完整精度): 每个权重32比特。内存多。精度最高。不适合消费级硬件。
  • FP16(半精度): 每个权重16比特。内存减少50%。质量损失微小。
  • Q8(8比特): 每个权重8比特。内存减少75%。质量损失微小(<1%)。
  • Q6(6比特): 每个权重6比特。内存减少81%。质量损失(<2%)。
  • Q5(5比特): 每个权重5比特。内存减少84%。质量损失(<3%)。与Q4无差异。
  • Q4(4比特): 每个权重4比特。内存减少87%。质量损失(<5%)。标准选择。
  • Q3(3比特): 每个权重3比特。内存减少90%。质量损失(10-15%)。极限用途。
  • Q2(2比特): 每个权重2比特。内存减少93%。质量严重下降(30%+)。实验性。

量子化级别比较表

基于Llama 3 70B(FP16基准140GB),内存和速度为估计值。

级别内存(GB)内存节省Token/s质量损失推荐用途
FP322800%80%研究/精密计算
FP1614050%12<1%高精度必需
Q83575%25<1%VRAM充足
Q62781%28<2%平衡型
Q52284%30<3%与Q4相同
Q41887%32<5%标准选择
Q31490%3510-15%低内存
Q21193%3830%+极限

应该选择哪个级别?

  • Q4推荐(标准): Llama 3/4 70B、Mistral 12B+、Qwen 14B+。内存节省和质量平衡最佳。
  • Q8选择: RTX 4090(24GB)有余裕,注重质量。Llama 3 70B则35GB仍有余裕。
  • Q6选择: RTX 4080(12GB)用27GB几乎满载。避免推荐。
  • Q5选择: 与Q4(18GB)相同质量,内存22GB。无选择理由。使用Q4。
  • Q3选择: RTX 4060(8GB)压缩7B模型。质量下降(10-15%)可接受时。
  • Q2选择: 1GB内存老旧PC实验。质量下降(30%)严重但可"运行"验证。
  • FP16选择: 高精度必需(医疗、法律),内存充足(140GB+)。RTX 5090双卡。

常见问题

Q4和Q5,选择哪个?

选Q4。Q5内存(22GB)更多,质量改进(5%)微小。成本效益差。

Q4质量损失能感知吗?

几乎不能。用户测试Q4/Q6评价相同。文本生成5%质量损失难以察觉。

Q3真的能用吗?

7B轻型模型可以(1.7GB)。70B质量下降(10-15%)严重,文本中途崩溃风险。

Ollama Q4_K_M vs Q4_0区别?

Q4_K_M: 更好量子化。推荐。Q4_0: 快速但质量低。新GGUF用K_M。

FP32/FP16何时必需?

几乎不需要。仅研究论文、医疗诊断、法律。业余使用Q4足够。

量子化可逆吗?

否。Q4压缩后无法恢复原精度。需要保留FP16原模型。

显卡GPU能量子化吗?

否。量子化仅权重。GPU(RTX)不变。这是CPU/内存节省问题。

本地量子化工具用什么?

llama.cpp标准。Ollama也简便。custom-gptq已过时。推荐llama.cpp。

Q4和FP16推理速度差?

约2-3倍快(Q4)。内存带宽窄(4比特),缓存效率好。

资源

  • llama.cpp GGUF量子化文档
  • Meta Llama 3/4官方模型卡
  • GPTQ量子化研究论文 (Xiao et al., 2023)

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM