7B模型需要多少内存？

选择语言:

Quantization & VRAM

关键要点

CPU和GPU的快速计算规则

截至2026年5月，Q4的7B模型需要5–6 GB内存——无论是系统RAM（仅CPU推理）还是显存（GPU推理）。内存量相同，变化的是速度。CPU推理在现代8核处理器上约为每秒5个令牌，GPU推理在具备足够显存的显卡上可达每秒20–25个令牌。

仅使用CPU时，将GPU速度列除以5×即可估算8核处理器的性能。Q4的7B模型在CPU上约为5 tok/s，在GPU上约为25 tok/s。这5倍的差距正是预算级GPU值得用于交互式场景的原因。

当您拥有16 GB以上系统RAM且任务为批处理或后台模式（夜间文档分析、定时摘要）时，选择仅CPU方案。约5 tok/s的速度对于非交互式工作是可接受的，且完全避免了GPU成本。

当您需要交互式对话或编程辅助时，选择GPU。5倍的速度差在实时使用中至关重要。即使是入门级RTX 3050 6 GB，在Llama 3 8B Q4_K_M上也能达到约22 tok/s——足以实现流畅自然的对话体验。

有关GPU各显存层级的完整分类，请参阅本地LLM所需显存量。有关完整的硬件参考，请参阅本地LLM完整显存指南。

8 GB系统RAM在不使用GPU的情况下足以运行7B模型吗？▾

可以。仅使用CPU时，Q4的7B模型使用约5–6 GB系统RAM，在现代8核处理器上以3–6 tok/s运行。GPU加速选项请参阅显存指南。

Llama 3 8B确切需要多少显存？▾

Q4_K_M量化下模型权重约需5.5 GB。4096令牌上下文窗口额外需要0.5–1 GB。建议预留6–7 GB以防止显存溢出。

当模型超出可用显存时会发生什么？▾

Ollama会将层卸载到系统RAM，速度慢10–20倍。模型仍可运行，但生成速度大幅下降。为避免这种情况，请降低量化等级或使用--num-ctx 2048减少上下文长度。

GPU推理总是优于CPU吗？▾

并非适用于所有场景。对于批处理任务、定时处理或非交互式用途，CPU约5 tok/s是可接受的，并可节省GPU成本。对于实时对话或编程辅助，GPU的20–25 tok/s是必不可少的。