Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/显存经验法则:7B=8GB、70B=48GB(2026指南)
GPU Buying Guides

显存经验法则:7B=8GB、70B=48GB(2026指南)

·7分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

7B Q4量化模型需要4-5 GB显存。13B: 8-10 GB显存。70B: 35-40 GB,需要双RTX 4090或A100。Q4是标准量化方案,减少显存需求87%。

关键要点

  • 7B模型: 最少8 GB (Q4)、舒适10 GB (Q5)。
  • 13B模型: 最少12 GB (Q4)、舒适16 GB (Q5)。
  • 70B模型: 最少35-40 GB (Q4)。
  • Q4量子化: 减少显存需求87%。

显存计算公式

显存 = (十亿参数 × 每权重位数) ÷ 8 + KV缓存 + 开销

Q4: 32位→4位 (8倍减少)。

Q8: 32位→8位 (4倍减少),几乎完全精度。

按模型大小的显存

模型大小FP32Q8Q5Q4推荐GPU
7B28 GB7 GB4.5 GB3.5 GBRTX 4070 (12GB)
13B52 GB13 GB8 GB7 GBRTX 4080 (16GB)
70B280 GB70 GB44 GB35-40 GB双RTX 4090
Qwen 3.6 35B-A3B (3B活跃, MoE)*12 GB3 GB2 GB2 GBRTX 2060 6 GB 或 RTX 5070 12 GB
DeepSeek V4-Flash (13B活跃 / 284B总参数, MoE)*52 GB13 GB8 GB7 GBRTX 3060 12 GB 或 RTX 5070 12 GB
Llama 4 Scout (17B活跃 / 109B总参数, MoE)†436 GB109 GB68 GB55 GB2× RTX 4090 (48 GB) — 仅在1.78位时才能装入24 GB(~20 tok/s)
gpt-oss:20b (3.6B活跃 / 21B总参数, MoE)*84 GB21 GB13 GB12 GBRTX 5070 12 GB 或任意 16 GB GPU
Kimi K2.6 (32B活跃 / 1T总参数, MoE)*128 GB32 GB20 GB16 GB2× RTX 4090 或 RTX 5090 32 GB (仅Q4)

* MoE模型: 显存仅从活跃参数计算,不包括总模型大小。† Llama 4 Scout 需将全部109B参数常驻显存,因此尽管每个token仅17B活跃,Q4仍需~55 GB。

量子化

量子化将权重压缩至低精度。Q4为消费级GPU标准。

VRAM决定模型大小,但提示词设计决定输出质量。思维链和少样本提示等技术可以缩小大小模型之间的质量差距。探索完整的Prompt工程工具箱,从你的硬件所支持的模型中获取更多。如果你有 12–16 GB 显存,并希望找一个具体的编码任务来检验这套工具箱,用本地 LLM 替代 GitHub Copilot正好把 Continue.dev + Ollama + Qwen3-Coder 的方案对应到这些显存档位上。

批大小

单用户推理总是batch=1。批处理仅有助吞吐量。

显存开销

KV缓存、激活、运行时开销占额外5 GB。

地区背景

中国 (CAC): 本地LLM推理用于数据主权。Qwen3 72B在双RTX 4090上是首选。

常见错误

显存 ≠ 模型大小。总需要5 GB以上余地。

显存计算器

选择你的模型大小和量子化方式以估计显存需求。

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

RTX 4060足以运行7B Q4吗?

勉强。推荐RTX 4070。

70B模型需要24 GB吗?

否。需35-40 GB。

相关阅读

  • /zh/local-llms/best-local-llms-2026
  • /zh/local-llms/how-much-unified-memory-for-local-llm
  • /zh/local-llms/running-70b-models-apple-silicon-m5-max
  • /zh/local-llms/best-models-apple-silicon-2026
  • /zh/local-llms/gpu-vs-cpu-vs-apple-silicon

参考资源

  • NVIDIA CUDA文档
  • Ollama文档

您已了解显存预算。现在为其选择合适的GPU。

本地LLM最佳预算GPU →

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM