PromptQuorumPromptQuorum
主页/本地LLM/VRAM计算器2026:7B/13B/70B LLM的GPU显存需求(Q4、Q5、Q8)
硬件与性能

VRAM计算器2026:7B/13B/70B LLM的GPU显存需求(Q4、Q5、Q8)

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

本指南介绍如何为任意模型和硬件组合计算精确的VRAM需求。公式简单:(模型大小GB × 量化位数)÷ 8 = 所需VRAM。

本地LLM专用交互式VRAM计算器。输入模型大小、量化级别、上下文长度和批次大小,精确计算GPU显存需求。支持1B至405B模型的FP16、Q8、Q5、Q4量化。2026年4月更新:含RTX 4090、4080、3060适配分析和开销计算。

演示文稿: VRAM计算器2026:7B/13B/70B LLM的GPU显存需求(Q4、Q5、Q8)

下方幻灯片涵盖:VRAM计算公式(模型十亿参数 × 量化位数)÷ 8、Q2至FP16量化级别与质量权衡、快速参考表(3B至70B模型)、实际GPU场景(RTX 4090、4080、M5 Max),以及区域合规(欧盟GDPR、日本APPI、中国数据安全法)。下载PDF作为VRAM计算器参考卡片。

浏览以下幻灯片或下载PDF以供离线参考。 下载参考卡(PDF)

关键要点

  • VRAM =(模型大小 × 量化位数)÷ 8
  • FP16 = 16位,Q8 = 8,Q5 = 5,Q4 = 4位
  • 示例:Q4的13B模型 =(13 × 4)÷ 8 = 6.5 GB
  • 始终为上下文、系统开销和安全余量额外预留25%
  • 截至2026年4月,该公式精度在±10%以内

快速概览:各GPU的VRAM需求

  • RTX 4090(24 GB): Llama 3.1 7B(Q4需3.5 GB)、13B(Q5需8.1 GB)、70B(Q4需卸载)
  • RTX 4080(16 GB): Llama 3.1 7B(Q4需3.5 GB)、13B(Q5需8.1 GB)、32B(Q4需16 GB)
  • RTX 4070 Ti(12 GB): Llama 3.1 7B(Q4需3.5 GB)、13B(Q5需8.1 GB,较紧张)
  • M5 Max Mac(36 GB统一内存): Llama 3.1 13B(FP16需26 GB)、70B无极端量化则不可用
  • 经验法则: 在公式计算结果之上,始终为上下文、批处理和系统开销额外预留25-40% VRAM

一句话总结

所需VRAM(GB)= 模型参数(十亿为单位)× 量化位数(FP16为16、Q8为8、Q4为4等)÷ 8。

通俗解释

把VRAM想象成书架空间。大部头书(参数更多的模型,如70B)占用更多空间。小书(Q4量化)比大书(FP16)占用更少空间。公式告诉你确切需要多少"书架"(GB)。始终留出额外空间,用于对话、同时处理多个请求和系统软件。

VRAM计算公式是什么?

VRAM需求公式出奇地简单:

💡 专业提示: 该公式仅计算模型权重。由于上下文、批处理和系统开销,实际VRAM使用量高出25-40%。始终添加安全余量。

bash
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8

Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB

- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB

- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB
VRAM公式含3个计算示例:7B模型Q4 = 3.5 GB,13B Q5 = 8.1 GB,70B Q8 = 70 GB。始终为上下文、批处理和系统开销额外预留25-40%。
VRAM公式含3个计算示例:7B模型Q4 = 3.5 GB,13B Q5 = 8.1 GB,70B Q8 = 70 GB。始终为上下文、批处理和系统开销额外预留25-40%。

交互式VRAM计算器

使用此计算器为任意模型、量化、上下文和批次大小组合计算精确的VRAM需求。选择您的配置,查看哪些GPU适配。

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

量化级别意味着什么?

🔍 关键洞察: 量化以文件大小换质量。Q5是最优折中点(95%质量,缩小68%)。Q4对大多数用户可接受。Q3及以下仅适用于边缘设备或VRAM极度受限的情况。

量化体积缩减质量速度适用场景
FP16(16位)无(基准)100%(完美)基准研究、微调
Q8(8位)50%99%(无感知差异)基准生产环境、本地服务器
Q6(6位)62.5%98%(可忽略)基准均衡使用
Q5(5位)68.75%95%(轻微损失)基准良好压缩,消费级
Q4(4位)75%90-95%(可接受)基准最大压缩
Q3(3位)81%80-85%(明显损失)较快极端压缩、CPU
Q2(2位)87.5%70%(明显损失)最快微型模型、边缘设备
量化级别对比:FP16(100%质量)、Q8(99%)、Q5(95%,推荐)、Q4(90-95%)、Q3(80-85%)、Q2(70%)。Q5将7B模型从14 GB缩减至4.4 GB,质量仅损失5%。
量化级别对比:FP16(100%质量)、Q8(99%)、Q5(95%,推荐)、Q4(90-95%)、Q3(80-85%)、Q2(70%)。Q5将7B模型从14 GB缩减至4.4 GB,质量仅损失5%。

快速参考表:各模型和量化级别的VRAM

模型FP16Q8Q5Q4
3B6 GB3 GB1.9 GB1.5 GB
7B14 GB7 GB4.4 GB3.5 GB
13B26 GB13 GB8.1 GB6.5 GB
32B64 GB32 GB20 GB16 GB
70B140 GB70 GB43.75 GB35 GB
VRAM快速参考矩阵:3B至70B模型在FP16、Q8、Q5和Q4量化下的需求。绿色 = 可放入12 GB GPU。黄色 = 需要16-24 GB。红色 = 需要40 GB以上或多GPU。
VRAM快速参考矩阵:3B至70B模型在FP16、Q8、Q5和Q4量化下的需求。绿色 = 可放入12 GB GPU。黄色 = 需要16-24 GB。红色 = 需要40 GB以上或多GPU。

实际使用案例

常见场景的实际VRAM计算:

⚠️ 警告: 以下计算仅针对模型权重。请为上下文、批处理和系统开销额外预留25-40%。示例:13B Q5 = 8.1 GB模型 + 2-3 GB开销 = 实际需要10-11 GB。

  • RTX 4070 Ti(12 GB):Llama 3.1 7B(Q4需3.5 GB)✓(空间充裕)。Llama 3.1 13B(Q5需8.1 GB)✓(不含上下文/批处理时勉强可用)。
  • RTX 4090(24 GB):Llama 3.1 70B(Q5需43.75 GB)✗(太大)。Llama 3.1 70B(Q4需35 GB)✗(仍太大)。Llama 3.1 70B(Q4含卸载)= 可用(较慢,每秒3-5个token)。
  • M5 Max Mac(36 GB):Llama 3.1 13B(FP16需26 GB)✓(可用)。Llama 3.1 70B = 不可能(即使Q2,质量损失约70%)。
实际GPU场景:RTX 4090(24 GB)、RTX 4080(16 GB)、RTX 4070 Ti(12 GB)、M5 Max Mac(36 GB)和RTX 3060(12 GB)——各GPU在不同量化级别下能运行的Llama 3.1模型。
实际GPU场景:RTX 4090(24 GB)、RTX 4080(16 GB)、RTX 4070 Ti(12 GB)、M5 Max Mac(36 GB)和RTX 3060(12 GB)——各GPU在不同量化级别下能运行的Llama 3.1模型。

需要考虑哪些隐藏的VRAM开销?

该公式仅计算模型权重。 实际VRAM使用量因多种因素而更高。请在计算量基础上额外预留25-40%。

上下文窗口(键值缓存)在推理过程中存储对话历史。4k token的上下文对于7B模型约占用2-3 GB。

📌 关键点: 批处理线性增加VRAM使用量。每个额外的并发提示(同时处理多个请求时)使用500 MB至2 GB额外内存。运行batch=4时,将单请求VRAM乘以4并加上开销。

操作系统和推理引擎框架(Ollama、vLLM、llama.cpp)的系统开销预留500 MB至1 GB。选择GPU时始终保持安全余量。

隐藏VRAM开销分解:上下文窗口(4k token约2-3 GB)、批处理(batch=4时×4)、系统开销(500 MB至1 GB),总安全余量25-40%。
隐藏VRAM开销分解:上下文窗口(4k token约2-3 GB)、批处理(batch=4时×4)、系统开销(500 MB至1 GB),总安全余量25-40%。

哪款本地LLM适合您的GPU?2026指南

使用上方交互式计算器查找精确适配。以下是常见GPU场景和推荐模型。

  • RTX 3060(12 GB): 最佳模型:Qwen2.5 7B Q5(4.4 GB)✓。备选:Llama 3.2 8B Q4(4 GB)✓。不可用:32B及以上模型。
  • RTX 4070(12 GB): 最佳模型:Qwen2.5 13B Q4(6.5 GB)✓。余量充足:Llama 3.2 8B Q5(5 GB)✓。不可用:32B模型。
  • RTX 4070 Ti(12 GB): 最佳模型:Qwen2.5 13B Q5(8.1 GB)✓。较紧张:Llama 3.3 13B Q4(6.5 GB)✓。不推荐:批处理。
  • RTX 4080(16 GB): 最佳模型:Qwen2.5 32B Q4(16 GB)✓较紧张。舒适:Mistral 3.1 24B Q5(15 GB)✓。推荐:Llama 3.3 13B Q8(13 GB)✓。
  • RTX 4090(24 GB): 最佳模型:Qwen2.5 32B Q5(20 GB)✓。含卸载:Llama 3.3 70B Q4(35 GB——需要卸载)。舒适:任何Q5/Q8的32B模型。
  • RTX 5090(32 GB,如已发布): 最佳模型:Llama 3.3 70B Q4(35 GB——较紧张)。更好:Qwen2.5 72B Q3(27 GB)✓。舒适:含批处理的Q5及以上70B模型。

公式的精度如何?

该公式在大多数情况下精度在±10%以内。 实际VRAM使用量因实现方式、模型架构和推理引擎优化而异。

变化来源包括:不同量化格式(GGUF对比safetensors对比AWQ)、模型架构(Transformer对比非Transformer)以及推理引擎专属优化(vLLM、llama.cpp、Ollama)。

截至2026年4月,将该公式视为保守估算。购买GPU时始终添加25%安全余量,以考虑上下文开销、批处理和系统进程。

VRAM公式精度±10%:变化来源于量化格式(GGUF对比GPTQ对比AWQ)、模型架构(Transformer对比MoE)和推理引擎(vLLM对比llama.cpp对比Ollama)。
VRAM公式精度±10%:变化来源于量化格式(GGUF对比GPTQ对比AWQ)、模型架构(Transformer对比MoE)和推理引擎(vLLM对比llama.cpp对比Ollama)。

VRAM计算中的常见错误

  • 忘记上下文开销。 Q4的7B模型是3.5 GB,但4k上下文需要总计5-6 GB。
  • 不考虑量化直接使用HuggingFace的模型大小。 70B表示700亿参数,而非70 GB VRAM。
  • 不考虑系统开销。 模型永远无法使用GPU VRAM的全部容量。为操作系统和推理引擎预留1-2 GB。
  • 购买刚好达到计算大小的GPU。 始终多购买25%。计算需要18 GB = 购买24 GB GPU。
4个常见VRAM错误:忘记上下文开销(增加1.5-3 GB)、将70B参数误解为70 GB VRAM、忽略1-2 GB系统开销、购买刚好达到计算大小的GPU而没有25%余量。
4个常见VRAM错误:忘记上下文开销(增加1.5-3 GB)、将70B参数误解为70 GB VRAM、忽略1-2 GB系统开销、购买刚好达到计算大小的GPU而没有25%余量。

区域合规部署注意事项

中国(数据安全法): 中国2021年《数据安全法》要求数据在中国境内存储。本地LLM推理部署在国内服务器(阿里云、腾讯云、华为云)上可满足合规要求。Qwen2.5等国产优化模型专为中国企业场景设计,结合本地推理可实现完全数据主权。此VRAM计算器用于为金融、医疗、法律等行业的合规部署规划硬件规格。

亚太地区(数据跨境): APAC各国数据跨境传输法规持续收紧。新加坡(PDPA)、韩国(PIPA)、日本(APPI)、澳大利亚(Privacy Act)均有严格的数据处理要求。本地LLM推理将数据保留在本地,无需云端API数据传输,有效规避跨境数据流动合规风险。

企业部署(金融、医疗、法律): 银行、医院、律师事务所等受监管行业在使用AI时面临严格的数据保护要求。本地推理确保敏感数据——客户财务信息、病历、法律文件——永不离开组织边界。使用此VRAM计算器为企业级私有化部署精确规划GPU资源,实现合规与性能的最优平衡。

常见问题:VRAM和GPU需求

该公式适用于所有模型类型吗?

适用。公式(模型十亿参数 × 量化位数)÷ 8适用于所有基于Transformer的模型(Llama、Qwen、Mistral、Claude等)。非Transformer架构(如RNN)较为罕见,可能需要调整。

应该使用哪种量化级别?

大多数场景:Q5提供最佳平衡(95%质量,68%体积缩减)。消费级GPU:Q4是标准选择(90-95%质量,75%缩减)。生产环境:VRAM允许时使用Q8(99%质量)。除非别无选择,否则避免Q3及以下。

需要多少系统内存?

卸载至少需要16 GB。使用VRAM卸载(CPU溢出)时,系统内存作为后备。批处理需在模型卸载基础上额外增加8-16 GB系统内存。单用户聊天16 GB已足够。

批次大小影响VRAM计算吗?

影响。该公式计算单请求VRAM。批次大小线性增加VRAM:每个并发请求根据上下文长度增加约500 MB至2 GB。运行batch=4时,在计算量基础上再加2-8 GB。

12 GB GPU能运行70B模型吗?

仅在极端量化(Q2,质量损失约70%)和CPU卸载(非常慢,每秒1-3个token)的条件下可行,实用性差。更好的选择:使用Q4的13B模型(相同VRAM,速度更快,质量更好)。

实际VRAM用量低于计算值怎么办?

该公式偏保守并已含开销。实际用量低意味着批处理、更长上下文或安全余量有更多空间。使用nvidia-smi测量实际用量,然后对模型进行基准测试以确认性能。

参考来源

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

使用PromptQuorum将您的本地LLM与25+个云模型同时进行比较。

加入PromptQuorum等待列表 →

← 返回本地LLM

VRAM计算器2026:7B/13B/70B LLM的GPU显存需求(Q4、Q5、Q8) | PromptQuorum