关键要点
截至2026年5月,Q4的7B模型需要5–6 GB内存——无论是系统RAM(仅CPU推理)还是显存(GPU推理)。内存量相同,变化的是速度。CPU推理在现代8核处理器上约为每秒5个令牌,GPU推理在具备足够显存的显卡上可达每秒20–25个令牌。
仅使用CPU时,将GPU速度列除以5×即可估算8核处理器的性能。Q4的7B模型在CPU上约为5 tok/s,在GPU上约为25 tok/s。这5倍的差距正是预算级GPU值得用于交互式场景的原因。
| 模型大小 | Q4内存 | GPU速度 |
|---|---|---|
| 3B | ~2 GB | ~40 tok/s |
| 7B | ~5 GB | ~25 tok/s |
| 8B | ~5.5 GB | ~22 tok/s |
| 13B | ~9 GB | ~15 tok/s |
当您拥有16 GB以上系统RAM且任务为批处理或后台模式(夜间文档分析、定时摘要)时,选择仅CPU方案。约5 tok/s的速度对于非交互式工作是可接受的,且完全避免了GPU成本。
当您需要交互式对话或编程辅助时,选择GPU。5倍的速度差在实时使用中至关重要。即使是入门级RTX 3050 6 GB,在Llama 3 8B Q4_K_M上也能达到约22 tok/s——足以实现流畅自然的对话体验。
有关GPU各显存层级的完整分类,请参阅本地LLM所需显存量。有关完整的硬件参考,请参阅本地LLM完整显存指南。
--num-ctx 2048减少上下文长度。