7B Q4量化模型需要4-5 GB显存。13B: 8-10 GB显存。70B: 35-40 GB,需要双RTX 4090或A100。Q4是标准量化方案,减少显存需求87%。

关键要点

7B模型: 最少8 GB (Q4)、舒适10 GB (Q5)。
13B模型: 最少12 GB (Q4)、舒适16 GB (Q5)。
70B模型: 最少35-40 GB (Q4)。
Q4量子化: 减少显存需求87%。

显存计算公式

显存 = (十亿参数 × 每权重位数) ÷ 8 + KV缓存 + 开销

Q4: 32位→4位 (8倍减少)。

Q8: 32位→8位 (4倍减少),几乎完全精度。

按模型大小的显存

模型大小	FP32	Q8	Q5	Q4	推荐GPU
7B	28 GB	7 GB	4.5 GB	3.5 GB	RTX 4070 (12GB)
13B	52 GB	13 GB	8 GB	7 GB	RTX 4080 (16GB)
70B	280 GB	70 GB	44 GB	35-40 GB	双RTX 4090
Qwen 3.6 35B-A3B (3B活跃, MoE)*	12 GB	3 GB	2 GB	2 GB	RTX 2060 6 GB 或 RTX 5070 12 GB
DeepSeek V4-Flash (13B活跃 / 284B总参数, MoE)*	52 GB	13 GB	8 GB	7 GB	RTX 3060 12 GB 或 RTX 5070 12 GB
Llama 4 Scout (17B活跃 / 109B总参数, MoE)*	68 GB	17 GB	11 GB	9 GB	RTX 3090 24 GB 或 RTX 5080 16 GB
Kimi K2.6 (42B活跃 / 1T总参数, MoE)*	168 GB	42 GB	27 GB	21 GB	2× RTX 4090 或 RTX 5090 32 GB (仅Q4)

* MoE模型: 显存仅从活跃参数计算,不包括总模型大小。

量子化

量子化将权重压缩至低精度。Q4为消费级GPU标准。

VRAM决定模型大小，但提示词设计决定输出质量。思维链和少样本提示等技术可以缩小大小模型之间的质量差距。探索完整的Prompt工程工具箱，从你的硬件所支持的模型中获取更多。如果你有 12–16 GB 显存，并希望找一个具体的编码任务来检验这套工具箱，用本地 LLM 替代 GitHub Copilot正好把 Continue.dev + Ollama + Qwen3-Coder 的方案对应到这些显存档位上。

批大小

单用户推理总是batch=1。批处理仅有助吞吐量。

显存开销

KV缓存、激活、运行时开销占额外5 GB。

地区背景

中国 (CAC): 本地LLM推理用于数据主权。Qwen2.5 72B在双RTX 4090上是首选。

常见错误

显存 ≠ 模型大小。总需要5 GB以上余地。

显存计算器

选择你的模型大小和量子化方式以估计显存需求。

Popular Models

Model Size

Quantization

Context Length

Batch Size

Use Case

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

Always use the "with safety margin" figure when buying a GPU
Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
Context overhead grows with conversation length. Budget 1-3 GB for typical usage
Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

RTX 4060足以运行7B Q4吗?

勉强。推荐RTX 4070。

70B模型需要24 GB吗?

否。需35-40 GB。

参考资源

NVIDIA CUDA文档
Ollama文档

2026年运行本地LLM需要多少显存?

显存计算公式

按模型大小的显存

量子化

批大小

显存开销

地区背景

常见错误

显存计算器

Compatible GPUs

RTX 4060足以运行7B Q4吗?

70B模型需要24 GB吗?

相关阅读

参考资源

A Note on Third-Party Facts