PromptQuorumPromptQuorum
主页/本地LLM/Q4 vs Q5 vs Q8: 应该使用哪个量子化级别?
按用途分类的模型

Q4 vs Q5 vs Q8: 应该使用哪个量子化级别?

·8分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

Q4(4比特)是最佳平衡: 节省87% VRAM,质量损失不可感知。截至2026年4月,Q5不必要(仅5%质量改进,与Q4相同VRAM成本),Q8适合拥有剩余VRAM的完美主义者。

Q4(4比特)是最佳平衡: 节省87% VRAM,质量损失不可感知。 截至2026年4月,Q5不必要(仅5%质量改进,与Q4相同VRAM成本),Q8适合拥有剩余VRAM的完美主义者。FP32(完整精度)永远不需要消费级硬件推理。

关键要点

  • Q4(4比特)标准选择: VRAM节省87%,质量损失最小。
  • Q5不必要: 与Q4相同内存成本,仅5%质量改进。
  • Q8: 拥有剩余VRAM的完美主义者。3%质量改进,VRAM增加3倍。
  • Q2/Q3: 极低内存(7B模型1GB)但质量严重下降。
  • FP32/FP16: 消费级硬件不需要。仅生产使用。
  • 推荐: Llama 3 70B → Q4 (20GB)。Mistral 7B → Q4 (3.5GB)。

量子化是什么?

量子化是将神经网络权重减少到低精度比特表示的过程。从FP32(32比特浮点)减少到Q4(4比特整数)会导致内存减少8倍,推理速度提高。

  • FP32(完整精度): 每个权重32比特。内存多。精度最高。不适合消费级硬件。
  • FP16(半精度): 每个权重16比特。内存减少50%。质量损失微小。
  • Q8(8比特): 每个权重8比特。内存减少75%。质量损失微小(<1%)。
  • Q6(6比特): 每个权重6比特。内存减少81%。质量损失(<2%)。
  • Q5(5比特): 每个权重5比特。内存减少84%。质量损失(<3%)。与Q4无差异。
  • Q4(4比特): 每个权重4比特。内存减少87%。质量损失(<5%)。标准选择。
  • Q3(3比特): 每个权重3比特。内存减少90%。质量损失(10-15%)。极限用途。
  • Q2(2比特): 每个权重2比特。内存减少93%。质量严重下降(30%+)。实验性。

量子化级别比较表

基于Llama 3 70B(FP16基准140GB),内存和速度为估计值。

级别内存(GB)内存节省Token/s质量损失推荐用途
FP322800%80%研究/精密计算
FP1614050%12<1%高精度必需
Q83575%25<1%VRAM充足
Q62781%28<2%平衡型
Q52284%30<3%与Q4相同
Q41887%32<5%标准选择
Q31490%3510-15%低内存
Q21193%3830%+极限

应该选择哪个级别?

  • Q4推荐(标准): Llama 3/4 70B、Mistral 12B+、Qwen 14B+。内存节省和质量平衡最佳。
  • Q8选择: RTX 4090(24GB)有余裕,注重质量。Llama 3 70B则35GB仍有余裕。
  • Q6选择: RTX 4080(12GB)用27GB几乎满载。避免推荐。
  • Q5选择: 与Q4(18GB)相同质量,内存22GB。无选择理由。使用Q4。
  • Q3选择: RTX 4060(8GB)压缩7B模型。质量下降(10-15%)可接受时。
  • Q2选择: 1GB内存老旧PC实验。质量下降(30%)严重但可"运行"验证。
  • FP16选择: 高精度必需(医疗、法律),内存充足(140GB+)。RTX 5090双卡。

常见问题

Q4和Q5,选择哪个?

选Q4。Q5内存(22GB)更多,质量改进(5%)微小。成本效益差。

Q4质量损失能感知吗?

几乎不能。用户测试Q4/Q6评价相同。文本生成5%质量损失难以察觉。

Q3真的能用吗?

7B轻型模型可以(1.7GB)。70B质量下降(10-15%)严重,文本中途崩溃风险。

Ollama Q4_K_M vs Q4_0区别?

Q4_K_M: 更好量子化。推荐。Q4_0: 快速但质量低。新GGUF用K_M。

FP32/FP16何时必需?

几乎不需要。仅研究论文、医疗诊断、法律。业余使用Q4足够。

量子化可逆吗?

否。Q4压缩后无法恢复原精度。需要保留FP16原模型。

显卡GPU能量子化吗?

否。量子化仅权重。GPU(RTX)不变。这是CPU/内存节省问题。

本地量子化工具用什么?

llama.cpp标准。Ollama也简便。custom-gptq已过时。推荐llama.cpp。

Q4和FP16推理速度差?

约2-3倍快(Q4)。内存带宽窄(4比特),缓存效率好。

资源

  • llama.cpp GGUF量子化文档
  • Meta Llama 3/4官方模型卡
  • GPTQ量子化研究论文 (Xiao et al., 2023)

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

使用PromptQuorum将您的本地LLM与25+个云模型同时进行比较。

加入PromptQuorum等待列表 →

← 返回本地LLM

Q4 vs Q5 vs Q8: 本地LLM最优量子化级别2026 | PromptQuorum