PromptQuorumPromptQuorum

仅用 CPU 运行 Ollama 的最佳模型?

快速回答

没有 GPU 时,Phi-4 Mini Q4 在 CPU 上提供最佳的质量与速度平衡。Llama 3 8B Q4 需要 8GB 以上内存。Gemma 2B 是最快的 CPU 选项。

  • Phi-4 Mini Q4:CPU 上最佳质量/速度比,需要 4 GB 内存
  • Llama 3 8B Q4:质量最高,需要 8 GB 内存(较慢)
  • Gemma 2B:CPU 推理最快,2 GB 内存

更新于: 2026-05

Ollama

关键要点

  • CPU 推理比 GPU 慢 5–10 倍——在现代 8 核台式机 CPU 上预计每秒 3–6 个 token
  • Phi-4 Mini Q4 是纯 CPU 的最佳选择:4 GB 内存,~5 tok/s,推理质量出色
  • Gemma 2B 在 CPU 上速度最快(~6 tok/s),但推理质量低于 Phi-4 Mini
  • CPU 推理适合批量处理和单次查询;对于交互式对话速度太慢

CPU 速度的实际情况

截至 2026 年 5 月,CPU 推理在现代 8 核台式机 CPU 上运行速度为每秒 3–6 个 token——大约比中端 GPU 慢 5–10 倍。 Q4 量化的 7B 模型在 CPU 上大约每 200–300 毫秒生成一个词。

这种速度适用于两种场景:隔夜批量处理(如文档摘要或数据分类),以及可以接受 30 秒等待的单次查询。对于交互式对话或实时代码补全,CPU 推理速度太慢,不具备实用性。

根本瓶颈在于内存带宽,而非 CPU 时钟频率。消费级 CPU 读取内存的速度为 40–80 GB/s,专用 GPU 读取 VRAM 的速度为 400–900 GB/s。LLM 推理直接随内存带宽扩展——这就是为什么即使是中端 GPU 也比高端 CPU 快得多。

纯 CPU 使用的三大推荐模型

最合适的纯 CPU 模型取决于您优先考虑质量还是速度。Phi-4 Mini Q4 提供最佳平衡——它提供接近 Llama 3 8B 的推理质量,仅需 4 GB 内存,运行速度明显更快。

当内存限制为 2 GB 时,Gemma 2B 是唯一可行的选择。它在 CPU 上可达 ~6 tok/s,但在多步推理任务上的答案质量明显低于 Phi-4 Mini。

有关纯 CPU 配置的完整对比(包括内存需求和系统级优化),请参阅最佳纯 CPU LLM 指南

模型所需内存CPU 速度
Phi-4 Mini Q44 GB~4–5 tok/s
Llama 3 8B Q48 GB~3 tok/s
Gemma 2B2 GB~6 tok/s

关于纯 CPU LLM 的快速解答

纯 CPU 运行 Ollama 需要多少内存?
Gemma 2B 至少需要 2 GB。Phi-4 Mini Q4 需要 4 GB。Llama 3 8B Q4 需要 8 GB。在模型大小基础上再预留 1–2 GB,用于操作系统和 Ollama 运行时开销。
为什么 CPU 推理比 GPU 慢得多?
LLM 推理受限于内存带宽。消费级 CPU 读取内存速度为 40–80 GB/s,中端 GPU 读取 VRAM 速度为 400–900 GB/s。10 倍的带宽差距直接转化为 5–10 倍更慢的 token 生成速度。
没有独立 GPU 的笔记本电脑可以使用 Ollama 吗?
可以。当未检测到 GPU 时,Ollama 会自动在 CPU 上运行。在现代笔记本 CPU 上预计每秒 3–5 个 token。如果以后升级,请参阅当前最佳 Ollama 模型获取 GPU 级别的建议。
哪些 CPU 在本地 LLM 推理中最快?
Apple M 系列芯片(M3、M4)采用统一内存架构,在 7B 模型上可达 15–30 tok/s——在纯 CPU 推理方面远超 x86 CPU。在 x86 CPU 中,内存带宽更高、L3 缓存更大的型号表现最佳。