关键要点
- 7B模型: 最少8 GB (Q4)、舒适10 GB (Q5)。
- 13B模型: 最少12 GB (Q4)、舒适16 GB (Q5)。
- 70B模型: 最少35-40 GB (Q4)。
- Q4量子化: 减少显存需求87%。
显存计算公式
显存 = (十亿参数 × 每权重位数) ÷ 8 + KV缓存 + 开销
Q4: 32位→4位 (8倍减少)。
Q8: 32位→8位 (4倍减少),几乎完全精度。
按模型大小的显存
| 模型大小 | FP32 | Q8 | Q5 | Q4 | 推荐GPU |
|---|---|---|---|---|---|
| 7B | 28 GB | 7 GB | 4.5 GB | 3.5 GB | RTX 4070 (12GB) |
| 13B | 52 GB | 13 GB | 8 GB | 7 GB | RTX 4080 (16GB) |
| 70B | 280 GB | 70 GB | 44 GB | 35-40 GB | 双RTX 4090 |
| Qwen 3.6 35B-A3B (3B活跃, MoE)* | 12 GB | 3 GB | 2 GB | 2 GB | RTX 2060 6 GB 或 RTX 5070 12 GB |
| DeepSeek V4-Flash (13B活跃 / 284B总参数, MoE)* | 52 GB | 13 GB | 8 GB | 7 GB | RTX 3060 12 GB 或 RTX 5070 12 GB |
| Llama 4 Scout (17B活跃 / 109B总参数, MoE)* | 68 GB | 17 GB | 11 GB | 9 GB | RTX 3090 24 GB 或 RTX 5080 16 GB |
| Kimi K2.6 (42B活跃 / 1T总参数, MoE)* | 168 GB | 42 GB | 27 GB | 21 GB | 2× RTX 4090 或 RTX 5090 32 GB (仅Q4) |
* MoE模型: 显存仅从活跃参数计算,不包括总模型大小。
量子化
量子化将权重压缩至低精度。Q4为消费级GPU标准。
VRAM决定模型大小,但提示词设计决定输出质量。思维链和少样本提示等技术可以缩小大小模型之间的质量差距。探索完整的Prompt工程工具箱,从你的硬件所支持的模型中获取更多。如果你有 12–16 GB 显存,并希望找一个具体的编码任务来检验这套工具箱,用本地 LLM 替代 GitHub Copilot正好把 Continue.dev + Ollama + Qwen3-Coder 的方案对应到这些显存档位上。
批大小
单用户推理总是batch=1。批处理仅有助吞吐量。
显存开销
KV缓存、激活、运行时开销占额外5 GB。
地区背景
中国 (CAC): 本地LLM推理用于数据主权。Qwen2.5 72B在双RTX 4090上是首选。
常见错误
显存 ≠ 模型大小。总需要5 GB以上余地。
显存计算器
选择你的模型大小和量子化方式以估计显存需求。
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
RTX 4060足以运行7B Q4吗?
勉强。推荐RTX 4070。
70B模型需要24 GB吗?
否。需35-40 GB。
相关阅读
- /local-llms/best-local-llm-models-2026?lang=zh
- /local-llms/how-much-unified-memory-for-local-llm?lang=zh
- /local-llms/running-70b-models-apple-silicon-m5-max?lang=zh
- /local-llms/best-models-apple-silicon-2026?lang=zh
- /local-llms/gpu-vs-cpu-vs-apple-silicon?lang=zh
参考资源
- NVIDIA CUDA文档
- Ollama文档