关键要点
- VRAM =(模型大小 × 量化位数)÷ 8
- FP16 = 16位,Q8 = 8,Q5 = 5,Q4 = 4位
- 示例:Q4的13B模型 =(13 × 4)÷ 8 = 6.5 GB
- 始终为上下文、系统开销和安全余量额外预留25%
- 截至2026年4月,该公式精度在±10%以内
快速概览:各GPU的VRAM需求
- RTX 4090(24 GB): Llama 3.1 7B(Q4需3.5 GB)、13B(Q5需8.1 GB)、70B(Q4需卸载)
- RTX 4080(16 GB): Llama 3.1 7B(Q4需3.5 GB)、13B(Q5需8.1 GB)、32B(Q4需16 GB)
- RTX 4070 Ti(12 GB): Llama 3.1 7B(Q4需3.5 GB)、13B(Q5需8.1 GB,较紧张)
- M5 Max Mac(36 GB统一内存): Llama 3.1 13B(FP16需26 GB)、70B无极端量化则不可用
- 经验法则: 在公式计算结果之上,始终为上下文、批处理和系统开销额外预留25-40% VRAM
一句话总结
所需VRAM(GB)= 模型参数(十亿为单位)× 量化位数(FP16为16、Q8为8、Q4为4等)÷ 8。
通俗解释
把VRAM想象成书架空间。大部头书(参数更多的模型,如70B)占用更多空间。小书(Q4量化)比大书(FP16)占用更少空间。公式告诉你确切需要多少"书架"(GB)。始终留出额外空间,用于对话、同时处理多个请求和系统软件。
VRAM计算公式是什么?
VRAM需求公式出奇地简单:
💡 专业提示: 该公式仅计算模型权重。由于上下文、批处理和系统开销,实际VRAM使用量高出25-40%。始终添加安全余量。
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8
Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB
- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB
- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB交互式VRAM计算器
使用此计算器为任意模型、量化、上下文和批次大小组合计算精确的VRAM需求。选择您的配置,查看哪些GPU适配。
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
量化级别意味着什么?
🔍 关键洞察: 量化以文件大小换质量。Q5是最优折中点(95%质量,缩小68%)。Q4对大多数用户可接受。Q3及以下仅适用于边缘设备或VRAM极度受限的情况。
| 量化 | 体积缩减 | 质量 | 速度 | 适用场景 |
|---|---|---|---|---|
| FP16(16位) | 无(基准) | 100%(完美) | 基准 | 研究、微调 |
| Q8(8位) | 50% | 99%(无感知差异) | 基准 | 生产环境、本地服务器 |
| Q6(6位) | 62.5% | 98%(可忽略) | 基准 | 均衡使用 |
| Q5(5位) | 68.75% | 95%(轻微损失) | 基准 | 良好压缩,消费级 |
| Q4(4位) | 75% | 90-95%(可接受) | 基准 | 最大压缩 |
| Q3(3位) | 81% | 80-85%(明显损失) | 较快 | 极端压缩、CPU |
| Q2(2位) | 87.5% | 70%(明显损失) | 最快 | 微型模型、边缘设备 |
快速参考表:各模型和量化级别的VRAM
| 模型 | FP16 | Q8 | Q5 | Q4 |
|---|---|---|---|---|
| 3B | 6 GB | 3 GB | 1.9 GB | 1.5 GB |
| 7B | 14 GB | 7 GB | 4.4 GB | 3.5 GB |
| 13B | 26 GB | 13 GB | 8.1 GB | 6.5 GB |
| 32B | 64 GB | 32 GB | 20 GB | 16 GB |
| 70B | 140 GB | 70 GB | 43.75 GB | 35 GB |
实际使用案例
常见场景的实际VRAM计算:
⚠️ 警告: 以下计算仅针对模型权重。请为上下文、批处理和系统开销额外预留25-40%。示例:13B Q5 = 8.1 GB模型 + 2-3 GB开销 = 实际需要10-11 GB。
- RTX 4070 Ti(12 GB):Llama 3.1 7B(Q4需3.5 GB)✓(空间充裕)。Llama 3.1 13B(Q5需8.1 GB)✓(不含上下文/批处理时勉强可用)。
- RTX 4090(24 GB):Llama 3.1 70B(Q5需43.75 GB)✗(太大)。Llama 3.1 70B(Q4需35 GB)✗(仍太大)。Llama 3.1 70B(Q4含卸载)= 可用(较慢,每秒3-5个token)。
- M5 Max Mac(36 GB):Llama 3.1 13B(FP16需26 GB)✓(可用)。Llama 3.1 70B = 不可能(即使Q2,质量损失约70%)。
哪款本地LLM适合您的GPU?2026指南
使用上方交互式计算器查找精确适配。以下是常见GPU场景和推荐模型。
- RTX 3060(12 GB): 最佳模型:Qwen2.5 7B Q5(4.4 GB)✓。备选:Llama 3.2 8B Q4(4 GB)✓。不可用:32B及以上模型。
- RTX 4070(12 GB): 最佳模型:Qwen2.5 13B Q4(6.5 GB)✓。余量充足:Llama 3.2 8B Q5(5 GB)✓。不可用:32B模型。
- RTX 4070 Ti(12 GB): 最佳模型:Qwen2.5 13B Q5(8.1 GB)✓。较紧张:Llama 3.3 13B Q4(6.5 GB)✓。不推荐:批处理。
- RTX 4080(16 GB): 最佳模型:Qwen2.5 32B Q4(16 GB)✓较紧张。舒适:Mistral 3.1 24B Q5(15 GB)✓。推荐:Llama 3.3 13B Q8(13 GB)✓。
- RTX 4090(24 GB): 最佳模型:Qwen2.5 32B Q5(20 GB)✓。含卸载:Llama 3.3 70B Q4(35 GB——需要卸载)。舒适:任何Q5/Q8的32B模型。
- RTX 5090(32 GB,如已发布): 最佳模型:Llama 3.3 70B Q4(35 GB——较紧张)。更好:Qwen2.5 72B Q3(27 GB)✓。舒适:含批处理的Q5及以上70B模型。
公式的精度如何?
该公式在大多数情况下精度在±10%以内。 实际VRAM使用量因实现方式、模型架构和推理引擎优化而异。
变化来源包括:不同量化格式(GGUF对比safetensors对比AWQ)、模型架构(Transformer对比非Transformer)以及推理引擎专属优化(vLLM、llama.cpp、Ollama)。
截至2026年4月,将该公式视为保守估算。购买GPU时始终添加25%安全余量,以考虑上下文开销、批处理和系统进程。
VRAM计算中的常见错误
- 忘记上下文开销。 Q4的7B模型是3.5 GB,但4k上下文需要总计5-6 GB。
- 不考虑量化直接使用HuggingFace的模型大小。 70B表示700亿参数,而非70 GB VRAM。
- 不考虑系统开销。 模型永远无法使用GPU VRAM的全部容量。为操作系统和推理引擎预留1-2 GB。
- 购买刚好达到计算大小的GPU。 始终多购买25%。计算需要18 GB = 购买24 GB GPU。
区域合规部署注意事项
中国(数据安全法): 中国2021年《数据安全法》要求数据在中国境内存储。本地LLM推理部署在国内服务器(阿里云、腾讯云、华为云)上可满足合规要求。Qwen2.5等国产优化模型专为中国企业场景设计,结合本地推理可实现完全数据主权。此VRAM计算器用于为金融、医疗、法律等行业的合规部署规划硬件规格。
亚太地区(数据跨境): APAC各国数据跨境传输法规持续收紧。新加坡(PDPA)、韩国(PIPA)、日本(APPI)、澳大利亚(Privacy Act)均有严格的数据处理要求。本地LLM推理将数据保留在本地,无需云端API数据传输,有效规避跨境数据流动合规风险。
企业部署(金融、医疗、法律): 银行、医院、律师事务所等受监管行业在使用AI时面临严格的数据保护要求。本地推理确保敏感数据——客户财务信息、病历、法律文件——永不离开组织边界。使用此VRAM计算器为企业级私有化部署精确规划GPU资源,实现合规与性能的最优平衡。
常见问题:VRAM和GPU需求
该公式适用于所有模型类型吗?
适用。公式(模型十亿参数 × 量化位数)÷ 8适用于所有基于Transformer的模型(Llama、Qwen、Mistral、Claude等)。非Transformer架构(如RNN)较为罕见,可能需要调整。
应该使用哪种量化级别?
大多数场景:Q5提供最佳平衡(95%质量,68%体积缩减)。消费级GPU:Q4是标准选择(90-95%质量,75%缩减)。生产环境:VRAM允许时使用Q8(99%质量)。除非别无选择,否则避免Q3及以下。
需要多少系统内存?
卸载至少需要16 GB。使用VRAM卸载(CPU溢出)时,系统内存作为后备。批处理需在模型卸载基础上额外增加8-16 GB系统内存。单用户聊天16 GB已足够。
批次大小影响VRAM计算吗?
影响。该公式计算单请求VRAM。批次大小线性增加VRAM:每个并发请求根据上下文长度增加约500 MB至2 GB。运行batch=4时,在计算量基础上再加2-8 GB。
12 GB GPU能运行70B模型吗?
仅在极端量化(Q2,质量损失约70%)和CPU卸载(非常慢,每秒1-3个token)的条件下可行,实用性差。更好的选择:使用Q4的13B模型(相同VRAM,速度更快,质量更好)。
实际VRAM用量低于计算值怎么办?
该公式偏保守并已含开销。实际用量低意味着批处理、更长上下文或安全余量有更多空间。使用nvidia-smi测量实际用量,然后对模型进行基准测试以确认性能。
参考来源
- GGUF规范 -- ggerganov/ggml量化文件格式文档。
- Transformers量化文档 -- Hugging Face量化方法官方指南。
- Ollama文档 -- Ollama官方模型管理指南。
- vLLM性能指南 -- vLLM框架优化文档。