快速回答
没有 GPU 时,Phi-4 Mini Q4 在 CPU 上提供最佳的质量与速度平衡。Llama 3 8B Q4 需要 8GB 以上内存。Gemma 2B 是最快的 CPU 选项。
更新于: 2026-05
关键要点
截至 2026 年 5 月,CPU 推理在现代 8 核台式机 CPU 上运行速度为每秒 3–6 个 token——大约比中端 GPU 慢 5–10 倍。 Q4 量化的 7B 模型在 CPU 上大约每 200–300 毫秒生成一个词。
这种速度适用于两种场景:隔夜批量处理(如文档摘要或数据分类),以及可以接受 30 秒等待的单次查询。对于交互式对话或实时代码补全,CPU 推理速度太慢,不具备实用性。
根本瓶颈在于内存带宽,而非 CPU 时钟频率。消费级 CPU 读取内存的速度为 40–80 GB/s,专用 GPU 读取 VRAM 的速度为 400–900 GB/s。LLM 推理直接随内存带宽扩展——这就是为什么即使是中端 GPU 也比高端 CPU 快得多。
最合适的纯 CPU 模型取决于您优先考虑质量还是速度。Phi-4 Mini Q4 提供最佳平衡——它提供接近 Llama 3 8B 的推理质量,仅需 4 GB 内存,运行速度明显更快。
当内存限制为 2 GB 时,Gemma 2B 是唯一可行的选择。它在 CPU 上可达 ~6 tok/s,但在多步推理任务上的答案质量明显低于 Phi-4 Mini。
有关纯 CPU 配置的完整对比(包括内存需求和系统级优化),请参阅最佳纯 CPU LLM 指南。
| 模型 | 所需内存 | CPU 速度 |
|---|---|---|
| Phi-4 Mini Q4 | 4 GB | ~4–5 tok/s |
| Llama 3 8B Q4 | 8 GB | ~3 tok/s |
| Gemma 2B | 2 GB | ~6 tok/s |