Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/在24GB VRAM上运行70B模型:高级技术
Hardware & Performance

在24GB VRAM上运行70B模型:高级技术

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

在24GB VRAM上运行70B模型(通常需要40GB以上)是可能的,使用积极量化(Q2-Q3)和层卸载,但结果较慢(约3-5 tokens/秒)。

在24GB VRAM上运行70B模型(通常需要40GB以上)是可能的,使用积极量化(Q2-Q3)和层卸载,但结果较慢(约3-5 tokens/秒)。截至2026年4月,这对实时聊天不实用,但适用于批处理或实验。

关键要点

  • Llama 3.3 70B Q4 = 35GB(对24GB来说太大)。Q3 = 26GB(仍然太大)。Q2 = 17GB(合适!)。
  • 权衡:Q2有明显质量下降。约70%的FP16质量。
  • 速度:卸载20GB到系统RAM时3-5 tokens/秒(超级慢)。
  • 更好选项:使用Q5的13B模型,或购买第二个GPU用于层分割。
  • 截至2026年4月,这是约束解决方法,不是推荐方法。

理论VRAM数学

不同量化级别的Llama 3.3 70B:

量化模型大小适合24GB?
FP16(基准)
Q8(8位)
Q5(5位)
Q4(4位)否(卸载时:可能)
Q3(3位)否(勉强)
Q2(2位)

积极量化:主要工具

要使70B适合24GB,必须使用Q2或Q3量化。

  • Q3:26GB(仍然超2GB)。可卸载2GB到RAM。质量略好于Q2。
  • Q2:17.5GB(合适!)。相对FP16质量70%。明显下降但可用。

下载量化模型:`ollama pull llama3.1:70b-q2`(如果可用)或使用llama.cpp等转换工具。

卸载到系统RAM

在24GB GPU上使用Q4(35GB)时,可卸载剩余11GB到系统RAM。 速度惩罚严重(10倍慢)。

仅适用于可等待数小时的批处理。

实际设置:在24GB上运行70B

逐步:

  1. 1
    使用Q2量化:`ollama pull llama3.1:70b-q2`(如果可用,否则用llama.cpp转换)
  2. 2
    检查VRAM:`nvidia-smi`应显示约18GB使用
  3. 3
    运行模型:`ollama run llama3.1:70b-q2`
  4. 4
    预期3-5 tokens/秒(非常慢)
  5. 5
    仅用于批处理/离线处理,不用于交互聊天

现实性能期望

在24GB VRAM上运行70B很慢:

量化速度延迟用例
Q2(24GB VRAM)5-8 tok/秒每token 2-4秒仅批处理
Q3 + 卸载(24GB)3-5 tok/秒每token 3-5秒极度受限
Q4 + 卸载(24GB)1-3 tok/秒每token 5-10秒仅深夜批处理

受限70B的更好替代方案

与其与受限VRAM的70B搏斗,考虑:

  • 使用13B模型(Llama 3.3 13B Q5 = 8GB,非常快)
  • 购买第二个RTX 4090用于层分割(2× 24GB = 48GB,100+ tokens/秒)
  • 使用云API(重要任务用GPT-5.5,实验用本地)
  • 等待更高效模型(更小,相同质量)

受限70B的常见错误

  • 预期Q2适用于聊天。 不是。质量下降对实时交互过于严重。
  • 事先不测量实际速度。 在运行大型批处理前用小提示(10 token)测试并验证速度。
  • 假设卸载"免费"。 系统RAM比GPU VRAM慢100倍。卸载使推理不实用。
  • 不考虑替代方案。 13B模型快得多,质量通常充分。

常见问题

我真的能在单个RTX 4090上运行70B模型吗?

是的,但有重大注意事项。在Q2量化(17.5GB)处,模型适合24GB VRAM但以5-8 tokens/秒运行且质量约70% FP16。在Q4(35GB)处,需卸载11GB到系统RAM,速度降至1-3 tokens/秒。两者都不适合实时聊天——仅离线批处理。

什么量化需要使70B适合24GB VRAM?

Q2量化适合24GB(17.5GB模型大小)。Q3(26GB)需2GB RAM卸载。Q4(35GB)需11GB卸载且推理非常慢。Q5及以上(44-70GB)即使卸载也不能适合24GB GPU。Q2是唯一在VRAM中完全运行的选项。

24GB VRAM上的70B模型有多慢?

Q2(完全在VRAM):5-8 tokens/秒。Q3(2GB RAM卸载):3-5 tokens/秒。Q4(11GB RAM卸载):1-3 tokens/秒。相比同GPU上Q5的13B模型:80-100 tokens/秒。受限70B设置比适当大小的小模型慢10-20倍。

使用13B模型而非受限70B更好吗?

对大多数任务是。Q5量化的13B模型在RTX 4090上以80-100 tokens/秒运行且提供强质量。Q2的70B模型以5-8 tokens/秒运行质量降低。13B在速度和通常实用质量上赢得胜利。仅在需要特定70B能力且可容忍仅批处理使用时使用70B-on-24GB。

来源

  • llama.cpp量化 -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
  • 模型卡:Llama 3.3 70B -- huggingface.co/meta-llama/Llama-3.1-70B

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM