PromptQuorumPromptQuorum

7B模型需要多少内存?

Quantization & VRAM

关键要点

  • Q4的7B模型需要5–6 GB显存——预留6 GB以包含上下文窗口开销
  • 快速计算:参数量(十亿为单位)× 0.7 = Q4所需的近似GB数
  • 将上下文窗口扩展到16K令牌,在模型权重基础上额外增加约4 GB

CPU和GPU的快速计算规则

截至2026年5月,Q4的7B模型需要5–6 GB内存——无论是系统RAM(仅CPU推理)还是显存(GPU推理)。内存量相同,变化的是速度。CPU推理在现代8核处理器上约为每秒5个令牌,GPU推理在具备足够显存的显卡上可达每秒20–25个令牌。

仅使用CPU时,将GPU速度列除以5×即可估算8核处理器的性能。Q4的7B模型在CPU上约为5 tok/s,在GPU上约为25 tok/s。这5倍的差距正是预算级GPU值得用于交互式场景的原因。

模型大小Q4内存GPU速度
3B~2 GB~40 tok/s
7B~5 GB~25 tok/s
8B~5.5 GB~22 tok/s
13B~9 GB~15 tok/s

如何选择CPU还是GPU

当您拥有16 GB以上系统RAM且任务为批处理或后台模式(夜间文档分析、定时摘要)时,选择仅CPU方案。约5 tok/s的速度对于非交互式工作是可接受的,且完全避免了GPU成本。

当您需要交互式对话或编程辅助时,选择GPU。5倍的速度差在实时使用中至关重要。即使是入门级RTX 3050 6 GB,在Llama 3 8B Q4_K_M上也能达到约22 tok/s——足以实现流畅自然的对话体验。

有关GPU各显存层级的完整分类,请参阅本地LLM所需显存量。有关完整的硬件参考,请参阅本地LLM完整显存指南

关于7B模型RAM的快速解答

8 GB系统RAM在不使用GPU的情况下足以运行7B模型吗?
可以。仅使用CPU时,Q4的7B模型使用约5–6 GB系统RAM,在现代8核处理器上以3–6 tok/s运行。GPU加速选项请参阅显存指南
Llama 3 8B确切需要多少显存?
Q4_K_M量化下模型权重约需5.5 GB。4096令牌上下文窗口额外需要0.5–1 GB。建议预留6–7 GB以防止显存溢出。
当模型超出可用显存时会发生什么?
Ollama会将层卸载到系统RAM,速度慢10–20倍。模型仍可运行,但生成速度大幅下降。为避免这种情况,请降低量化等级或使用--num-ctx 2048减少上下文长度。
GPU推理总是优于CPU吗?
并非适用于所有场景。对于批处理任务、定时处理或非交互式用途,CPU约5 tok/s是可接受的,并可节省GPU成本。对于实时对话或编程辅助,GPU的20–25 tok/s是必不可少的。