Q4(4比特)是最佳平衡: 节省87% VRAM，质量损失不可感知。 截至2026年4月，Q5不必要(仅5%质量改进，与Q4相同VRAM成本)，Q8适合拥有剩余VRAM的完美主义者。FP32(完整精度)永远不需要消费级硬件推理。

关键要点

Q4(4比特)标准选择: VRAM节省87%，质量损失最小。
Q5不必要: 与Q4相同内存成本，仅5%质量改进。
Q8: 拥有剩余VRAM的完美主义者。3%质量改进，VRAM增加3倍。
Q2/Q3: 极低内存(7B模型1GB)但质量严重下降。
FP32/FP16: 消费级硬件不需要。仅生产使用。
推荐: Llama 3 70B → Q4 (20GB)。Mistral 7B → Q4 (3.5GB)。

量子化是什么?

量子化是将神经网络权重减少到低精度比特表示的过程。从FP32(32比特浮点)减少到Q4(4比特整数)会导致内存减少8倍，推理速度提高。

FP32(完整精度): 每个权重32比特。内存多。精度最高。不适合消费级硬件。
FP16(半精度): 每个权重16比特。内存减少50%。质量损失微小。
Q8(8比特): 每个权重8比特。内存减少75%。质量损失微小(<1%)。
Q6(6比特): 每个权重6比特。内存减少81%。质量损失(<2%)。
Q5(5比特): 每个权重5比特。内存减少84%。质量损失(<3%)。与Q4无差异。
Q4(4比特): 每个权重4比特。内存减少87%。质量损失(<5%)。标准选择。
Q3(3比特): 每个权重3比特。内存减少90%。质量损失(10-15%)。极限用途。
Q2(2比特): 每个权重2比特。内存减少93%。质量严重下降(30%+)。实验性。

量子化级别比较表

基于Llama 3 70B(FP16基准140GB)，内存和速度为估计值。

级别	内存(GB)	内存节省	Token/s	质量损失	推荐用途
FP32	280	0%	8	0%	研究/精密计算
FP16	140	50%	12	<1%	高精度必需
Q8	35	75%	25	<1%	VRAM充足
Q6	27	81%	28	<2%	平衡型
Q5	22	84%	30	<3%	与Q4相同
Q4	18	87%	32	<5%	标准选择
Q3	14	90%	35	10-15%	低内存
Q2	11	93%	38	30%+	极限

应该选择哪个级别?

Q4推荐(标准): Llama 3/4 70B、Mistral 12B+、Qwen 14B+。内存节省和质量平衡最佳。
Q8选择: RTX 4090(24GB)有余裕，注重质量。Llama 3 70B则35GB仍有余裕。
Q6选择: RTX 4080(12GB)用27GB几乎满载。避免推荐。
Q5选择: 与Q4(18GB)相同质量，内存22GB。无选择理由。使用Q4。
Q3选择: RTX 4060(8GB)压缩7B模型。质量下降(10-15%)可接受时。
Q2选择: 1GB内存老旧PC实验。质量下降(30%)严重但可"运行"验证。
FP16选择: 高精度必需(医疗、法律)，内存充足(140GB+)。RTX 5090双卡。

常见问题

Q4和Q5，选择哪个?

选Q4。Q5内存(22GB)更多，质量改进(5%)微小。成本效益差。

Q4质量损失能感知吗?

几乎不能。用户测试Q4/Q6评价相同。文本生成5%质量损失难以察觉。

Q3真的能用吗?

7B轻型模型可以(1.7GB)。70B质量下降(10-15%)严重，文本中途崩溃风险。

Ollama Q4_K_M vs Q4_0区别?

Q4_K_M: 更好量子化。推荐。Q4_0: 快速但质量低。新GGUF用K_M。

FP32/FP16何时必需?

几乎不需要。仅研究论文、医疗诊断、法律。业余使用Q4足够。

量子化可逆吗?

否。Q4压缩后无法恢复原精度。需要保留FP16原模型。

显卡GPU能量子化吗?

否。量子化仅权重。GPU(RTX)不变。这是CPU/内存节省问题。

本地量子化工具用什么?

llama.cpp标准。Ollama也简便。custom-gptq已过时。推荐llama.cpp。

Q4和FP16推理速度差?

约2-3倍快(Q4)。内存带宽窄(4比特)，缓存效率好。

资源

llama.cpp GGUF量子化文档
Meta Llama 3/4官方模型卡
GPTQ量子化研究论文 (Xiao et al., 2023)

Q4 vs Q5 vs Q8: 应该使用哪个量子化级别?

量子化是什么?

量子化级别比较表

应该选择哪个级别?

常见问题

Q4和Q5，选择哪个?

Q4质量损失能感知吗?

Q3真的能用吗?

Ollama Q4_K_M vs Q4_0区别?

FP32/FP16何时必需?

量子化可逆吗?

显卡GPU能量子化吗?

本地量子化工具用什么?

Q4和FP16推理速度差?

资源

A Note on Third-Party Facts

Q4 vs Q5 vs Q8: 应该使用哪个量子化级别?

量子化是什么?

量子化级别比较表

应该选择哪个级别?

常见问题

Q4和Q5，选择哪个?

Q4质量损失能感知吗?

Q3真的能用吗?

Ollama Q4_K_M vs Q4_0区别?

FP32/FP16何时必需?

量子化可逆吗?

显卡GPU能量子化吗?

本地量子化工具用什么?

Q4和FP16推理速度差?

相关阅读

资源

A Note on Third-Party Facts