关键要点
- Q4(4比特)标准选择: VRAM节省87%,质量损失最小。
- Q5不必要: 与Q4相同内存成本,仅5%质量改进。
- Q8: 拥有剩余VRAM的完美主义者。3%质量改进,VRAM增加3倍。
- Q2/Q3: 极低内存(7B模型1GB)但质量严重下降。
- FP32/FP16: 消费级硬件不需要。仅生产使用。
- 推荐: Llama 3 70B → Q4 (20GB)。Mistral 7B → Q4 (3.5GB)。
量子化是什么?
量子化是将神经网络权重减少到低精度比特表示的过程。从FP32(32比特浮点)减少到Q4(4比特整数)会导致内存减少8倍,推理速度提高。
- FP32(完整精度): 每个权重32比特。内存多。精度最高。不适合消费级硬件。
- FP16(半精度): 每个权重16比特。内存减少50%。质量损失微小。
- Q8(8比特): 每个权重8比特。内存减少75%。质量损失微小(<1%)。
- Q6(6比特): 每个权重6比特。内存减少81%。质量损失(<2%)。
- Q5(5比特): 每个权重5比特。内存减少84%。质量损失(<3%)。与Q4无差异。
- Q4(4比特): 每个权重4比特。内存减少87%。质量损失(<5%)。标准选择。
- Q3(3比特): 每个权重3比特。内存减少90%。质量损失(10-15%)。极限用途。
- Q2(2比特): 每个权重2比特。内存减少93%。质量严重下降(30%+)。实验性。
量子化级别比较表
基于Llama 3 70B(FP16基准140GB),内存和速度为估计值。
| 级别 | 内存(GB) | 内存节省 | Token/s | 质量损失 | 推荐用途 |
|---|---|---|---|---|---|
| FP32 | 280 | 0% | 8 | 0% | 研究/精密计算 |
| FP16 | 140 | 50% | 12 | <1% | 高精度必需 |
| Q8 | 35 | 75% | 25 | <1% | VRAM充足 |
| Q6 | 27 | 81% | 28 | <2% | 平衡型 |
| Q5 | 22 | 84% | 30 | <3% | 与Q4相同 |
| Q4 | 18 | 87% | 32 | <5% | 标准选择 |
| Q3 | 14 | 90% | 35 | 10-15% | 低内存 |
| Q2 | 11 | 93% | 38 | 30%+ | 极限 |
应该选择哪个级别?
- Q4推荐(标准): Llama 3/4 70B、Mistral 12B+、Qwen 14B+。内存节省和质量平衡最佳。
- Q8选择: RTX 4090(24GB)有余裕,注重质量。Llama 3 70B则35GB仍有余裕。
- Q6选择: RTX 4080(12GB)用27GB几乎满载。避免推荐。
- Q5选择: 与Q4(18GB)相同质量,内存22GB。无选择理由。使用Q4。
- Q3选择: RTX 4060(8GB)压缩7B模型。质量下降(10-15%)可接受时。
- Q2选择: 1GB内存老旧PC实验。质量下降(30%)严重但可"运行"验证。
- FP16选择: 高精度必需(医疗、法律),内存充足(140GB+)。RTX 5090双卡。
常见问题
Q4和Q5,选择哪个?
选Q4。Q5内存(22GB)更多,质量改进(5%)微小。成本效益差。
Q4质量损失能感知吗?
几乎不能。用户测试Q4/Q6评价相同。文本生成5%质量损失难以察觉。
Q3真的能用吗?
7B轻型模型可以(1.7GB)。70B质量下降(10-15%)严重,文本中途崩溃风险。
Ollama Q4_K_M vs Q4_0区别?
Q4_K_M: 更好量子化。推荐。Q4_0: 快速但质量低。新GGUF用K_M。
FP32/FP16何时必需?
几乎不需要。仅研究论文、医疗诊断、法律。业余使用Q4足够。
量子化可逆吗?
否。Q4压缩后无法恢复原精度。需要保留FP16原模型。
显卡GPU能量子化吗?
否。量子化仅权重。GPU(RTX)不变。这是CPU/内存节省问题。
本地量子化工具用什么?
llama.cpp标准。Ollama也简便。custom-gptq已过时。推荐llama.cpp。
Q4和FP16推理速度差?
约2-3倍快(Q4)。内存带宽窄(4比特),缓存效率好。
资源
- llama.cpp GGUF量子化文档
- Meta Llama 3/4官方模型卡
- GPTQ量子化研究论文 (Xiao et al., 2023)