Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/VRAM计算器2026:7B/13B/70B LLM的GPU显存需求(Q4、Q5、Q8)
硬件与性能

VRAM计算器2026:7B/13B/70B LLM的GPU显存需求(Q4、Q5、Q8)

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

本指南介绍如何为任意模型和硬件组合计算精确的VRAM需求。公式简单:(模型大小GB × 量化位数)÷ 8 = 所需VRAM。

本地LLM专用交互式VRAM计算器。输入模型大小、量化级别、上下文长度和批次大小,精确计算GPU显存需求。支持1B至405B模型的FP16、Q8、Q5、Q4量化。2026年4月更新:含RTX 4090、4080、3060适配分析和开销计算。

演示文稿: VRAM计算器2026:7B/13B/70B LLM的GPU显存需求(Q4、Q5、Q8)

下方幻灯片涵盖:VRAM计算公式(模型十亿参数 × 量化位数)÷ 8、Q2至FP16量化级别与质量权衡、快速参考表(3B至70B模型)、实际GPU场景(RTX 4090、4080、M5 Max),以及区域合规(欧盟GDPR、日本APPI、中国数据安全法)。下载PDF作为VRAM计算器参考卡片。

浏览以下幻灯片或下载PDF以供离线参考。 下载参考卡(PDF)

关键要点

  • VRAM =(模型大小 × 量化位数)÷ 8
  • FP16 = 16位,Q8 = 8,Q5 = 5,Q4 = 4位
  • 示例:Q4的13B模型 =(13 × 4)÷ 8 = 6.5 GB
  • 始终为上下文、系统开销和安全余量额外预留25%
  • 截至2026年4月,该公式精度在±10%以内

快速概览:各GPU的VRAM需求

  • RTX 4090(24 GB): Llama 3.3 7B(Q4需3.5 GB)、13B(Q5需8.1 GB)、70B(Q4需卸载)
  • RTX 4080(16 GB): Llama 3.3 7B(Q4需3.5 GB)、13B(Q5需8.1 GB)、32B(Q4需16 GB)
  • RTX 4070 Ti(12 GB): Llama 3.3 7B(Q4需3.5 GB)、13B(Q5需8.1 GB,较紧张)
  • M5 Max Mac(36 GB统一内存): Llama 3.3 13B(FP16需26 GB)、70B无极端量化则不可用
  • 经验法则: 在公式计算结果之上,始终为上下文、批处理和系统开销额外预留25-40% VRAM

一句话总结

所需VRAM(GB)= 模型参数(十亿为单位)× 量化位数(FP16为16、Q8为8、Q4为4等)÷ 8。

通俗解释

把VRAM想象成书架空间。大部头书(参数更多的模型,如70B)占用更多空间。小书(Q4量化)比大书(FP16)占用更少空间。公式告诉你确切需要多少"书架"(GB)。始终留出额外空间,用于对话、同时处理多个请求和系统软件。

VRAM计算公式是什么?

VRAM需求公式出奇地简单:

💡 专业提示: 该公式仅计算模型权重。由于上下文、批处理和系统开销,实际VRAM使用量高出25-40%。始终添加安全余量。

bash
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8

Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB

- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB

- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB
VRAM公式含3个计算示例:7B模型Q4 = 3.5 GB,13B Q5 = 8.1 GB,70B Q8 = 70 GB。始终为上下文、批处理和系统开销额外预留25-40%。
VRAM公式含3个计算示例:7B模型Q4 = 3.5 GB,13B Q5 = 8.1 GB,70B Q8 = 70 GB。始终为上下文、批处理和系统开销额外预留25-40%。

交互式VRAM计算器

使用此计算器为任意模型、量化、上下文和批次大小组合计算精确的VRAM需求。选择您的配置,查看哪些GPU适配。

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

量化级别意味着什么?

🔍 关键洞察: 量化以文件大小换质量。Q5是最优折中点(95%质量,缩小68%)。Q4对大多数用户可接受。Q3及以下仅适用于边缘设备或VRAM极度受限的情况。

量化体积缩减质量速度适用场景
FP16(16位)无(基准)100%(完美)基准研究、微调
Q8(8位)50%99%(无感知差异)基准生产环境、本地服务器
Q6(6位)62.5%98%(可忽略)基准均衡使用
Q5(5位)68.75%95%(轻微损失)基准良好压缩,消费级
Q4(4位)75%90-95%(可接受)基准最大压缩
Q3(3位)81%80-85%(明显损失)较快极端压缩、CPU
Q2(2位)87.5%70%(明显损失)最快微型模型、边缘设备
量化级别对比:FP16(100%质量)、Q8(99%)、Q5(95%,推荐)、Q4(90-95%)、Q3(80-85%)、Q2(70%)。Q5将7B模型从14 GB缩减至4.4 GB,质量仅损失5%。
量化级别对比:FP16(100%质量)、Q8(99%)、Q5(95%,推荐)、Q4(90-95%)、Q3(80-85%)、Q2(70%)。Q5将7B模型从14 GB缩减至4.4 GB,质量仅损失5%。

快速参考表:各模型和量化级别的VRAM

模型FP16Q8Q5Q4
3B6 GB3 GB1.9 GB1.5 GB
7B14 GB7 GB4.4 GB3.5 GB
13B26 GB13 GB8.1 GB6.5 GB
32B64 GB32 GB20 GB16 GB
70B140 GB70 GB43.75 GB35 GB
VRAM快速参考矩阵:3B至70B模型在FP16、Q8、Q5和Q4量化下的需求。绿色 = 可放入12 GB GPU。黄色 = 需要16-24 GB。红色 = 需要40 GB以上或多GPU。
VRAM快速参考矩阵:3B至70B模型在FP16、Q8、Q5和Q4量化下的需求。绿色 = 可放入12 GB GPU。黄色 = 需要16-24 GB。红色 = 需要40 GB以上或多GPU。

实际使用案例

常见场景的实际VRAM计算:

⚠️ 警告: 以下计算仅针对模型权重。请为上下文、批处理和系统开销额外预留25-40%。示例:13B Q5 = 8.1 GB模型 + 2-3 GB开销 = 实际需要10-11 GB。

  • RTX 4070 Ti(12 GB):Llama 3.3 7B(Q4需3.5 GB)✓(空间充裕)。Llama 3.3 13B(Q5需8.1 GB)✓(不含上下文/批处理时勉强可用)。
  • RTX 4090(24 GB):Llama 3.3 70B(Q5需43.75 GB)✗(太大)。Llama 3.3 70B(Q4需35 GB)✗(仍太大)。Llama 3.3 70B(Q4含卸载)= 可用(较慢,每秒3-5个token)。
  • M5 Max Mac(36 GB):Llama 3.3 13B(FP16需26 GB)✓(可用)。Llama 3.3 70B = 不可能(即使Q2,质量损失约70%)。
实际GPU场景:RTX 4090(24 GB)、RTX 4080(16 GB)、RTX 4070 Ti(12 GB)、M5 Max Mac(36 GB)和RTX 3060(12 GB)——各GPU在不同量化级别下能运行的Llama 3.3模型。
实际GPU场景:RTX 4090(24 GB)、RTX 4080(16 GB)、RTX 4070 Ti(12 GB)、M5 Max Mac(36 GB)和RTX 3060(12 GB)——各GPU在不同量化级别下能运行的Llama 3.3模型。

需要考虑哪些隐藏的VRAM开销?

该公式仅计算模型权重。 实际VRAM使用量因多种因素而更高。请在计算量基础上额外预留25-40%。

上下文窗口(键值缓存)在推理过程中存储对话历史。4k token的上下文对于7B模型约占用2-3 GB。

📌 关键点: 批处理线性增加VRAM使用量。每个额外的并发提示(同时处理多个请求时)使用500 MB至2 GB额外内存。运行batch=4时,将单请求VRAM乘以4并加上开销。

操作系统和推理引擎框架(Ollama、vLLM、llama.cpp)的系统开销预留500 MB至1 GB。选择GPU时始终保持安全余量。

隐藏VRAM开销分解:上下文窗口(4k token约2-3 GB)、批处理(batch=4时×4)、系统开销(500 MB至1 GB),总安全余量25-40%。
隐藏VRAM开销分解:上下文窗口(4k token约2-3 GB)、批处理(batch=4时×4)、系统开销(500 MB至1 GB),总安全余量25-40%。

哪款本地LLM适合您的GPU?2026指南

使用上方交互式计算器查找精确适配。以下是常见GPU场景和推荐模型。

  • RTX 3060(12 GB): 最佳模型:Qwen3 7B Q5(4.4 GB)✓。备选:Llama 3.2 8B Q4(4 GB)✓。不可用:32B及以上模型。
  • RTX 4070(12 GB): 最佳模型:Qwen3 13B Q4(6.5 GB)✓。余量充足:Llama 3.2 8B Q5(5 GB)✓。不可用:32B模型。
  • RTX 4070 Ti(12 GB): 最佳模型:Qwen3 13B Q5(8.1 GB)✓。较紧张:Llama 3.3 13B Q4(6.5 GB)✓。不推荐:批处理。
  • RTX 4080(16 GB): 最佳模型:Qwen3 32B Q4(16 GB)✓较紧张。舒适:Mistral 3.1 24B Q5(15 GB)✓。推荐:Llama 3.3 13B Q8(13 GB)✓。
  • RTX 4090(24 GB): 最佳模型:Qwen3 32B Q5(20 GB)✓。含卸载:Llama 3.3 70B Q4(35 GB——需要卸载)。舒适:任何Q5/Q8的32B模型。
  • RTX 5090(32 GB,如已发布): 最佳模型:Llama 3.3 70B Q4(35 GB——较紧张)。更好:Qwen3 72B Q3(27 GB)✓。舒适:含批处理的Q5及以上70B模型。

公式的精度如何?

该公式在大多数情况下精度在±10%以内。 实际VRAM使用量因实现方式、模型架构和推理引擎优化而异。

变化来源包括:不同量化格式(GGUF对比safetensors对比AWQ)、模型架构(Transformer对比非Transformer)以及推理引擎专属优化(vLLM、llama.cpp、Ollama)。

截至2026年4月,将该公式视为保守估算。购买GPU时始终添加25%安全余量,以考虑上下文开销、批处理和系统进程。

VRAM公式精度±10%:变化来源于量化格式(GGUF对比GPTQ对比AWQ)、模型架构(Transformer对比MoE)和推理引擎(vLLM对比llama.cpp对比Ollama)。
VRAM公式精度±10%:变化来源于量化格式(GGUF对比GPTQ对比AWQ)、模型架构(Transformer对比MoE)和推理引擎(vLLM对比llama.cpp对比Ollama)。

VRAM计算中的常见错误

  • 忘记上下文开销。 Q4的7B模型是3.5 GB,但4k上下文需要总计5-6 GB。
  • 不考虑量化直接使用HuggingFace的模型大小。 70B表示700亿参数,而非70 GB VRAM。
  • 不考虑系统开销。 模型永远无法使用GPU VRAM的全部容量。为操作系统和推理引擎预留1-2 GB。
  • 购买刚好达到计算大小的GPU。 始终多购买25%。计算需要18 GB = 购买24 GB GPU。
4个常见VRAM错误:忘记上下文开销(增加1.5-3 GB)、将70B参数误解为70 GB VRAM、忽略1-2 GB系统开销、购买刚好达到计算大小的GPU而没有25%余量。
4个常见VRAM错误:忘记上下文开销(增加1.5-3 GB)、将70B参数误解为70 GB VRAM、忽略1-2 GB系统开销、购买刚好达到计算大小的GPU而没有25%余量。

区域合规部署注意事项

中国(数据安全法): 中国2021年《数据安全法》要求数据在中国境内存储。本地LLM推理部署在国内服务器(阿里云、腾讯云、华为云)上可满足合规要求。Qwen3等国产优化模型专为中国企业场景设计,结合本地推理可实现完全数据主权。此VRAM计算器用于为金融、医疗、法律等行业的合规部署规划硬件规格。

亚太地区(数据跨境): APAC各国数据跨境传输法规持续收紧。新加坡(PDPA)、韩国(PIPA)、日本(APPI)、澳大利亚(Privacy Act)均有严格的数据处理要求。本地LLM推理将数据保留在本地,无需云端API数据传输,有效规避跨境数据流动合规风险。

企业部署(金融、医疗、法律): 银行、医院、律师事务所等受监管行业在使用AI时面临严格的数据保护要求。本地推理确保敏感数据——客户财务信息、病历、法律文件——永不离开组织边界。使用此VRAM计算器为企业级私有化部署精确规划GPU资源,实现合规与性能的最优平衡。

常见问题:VRAM和GPU需求

该公式适用于所有模型类型吗?

适用。公式(模型十亿参数 × 量化位数)÷ 8适用于所有基于Transformer的模型(Llama、Qwen、Mistral、Claude等)。非Transformer架构(如RNN)较为罕见,可能需要调整。

应该使用哪种量化级别?

大多数场景:Q5提供最佳平衡(95%质量,68%体积缩减)。消费级GPU:Q4是标准选择(90-95%质量,75%缩减)。生产环境:VRAM允许时使用Q8(99%质量)。除非别无选择,否则避免Q3及以下。

需要多少系统内存?

卸载至少需要16 GB。使用VRAM卸载(CPU溢出)时,系统内存作为后备。批处理需在模型卸载基础上额外增加8-16 GB系统内存。单用户聊天16 GB已足够。

批次大小影响VRAM计算吗?

影响。该公式计算单请求VRAM。批次大小线性增加VRAM:每个并发请求根据上下文长度增加约500 MB至2 GB。运行batch=4时,在计算量基础上再加2-8 GB。

12 GB GPU能运行70B模型吗?

仅在极端量化(Q2,质量损失约70%)和CPU卸载(非常慢,每秒1-3个token)的条件下可行,实用性差。更好的选择:使用Q4的13B模型(相同VRAM,速度更快,质量更好)。

实际VRAM用量低于计算值怎么办?

该公式偏保守并已含开销。实际用量低意味着批处理、更长上下文或安全余量有更多空间。使用nvidia-smi测量实际用量,然后对模型进行基准测试以确认性能。

参考来源

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM