关键要点
- CPU-only 推理对搭载 8–32 GB RAM 的现代处理器上的 3–13B 模型有效。
- 最佳 CPU 模型: Phi-4 Mini (3.8B、2.3 GB、12 令牌/秒)、Gemma 3 2B (1.5 GB、15 令牌/秒)、Llama 3.2 3B (2 GB、10 令牌/秒)。
- CPU 推理比 GPU 慢 10–30 倍,但使用零专用 VRAM。
- 在 Ollama 或 llama.cpp 中使用简单的命令行标志启用 CPU-only 模式。
- CPU 推理对生产 API (无 GPU 开销)、边缘设备和成本受限环境最理想。
CPU 可以运行 LLM 吗?
是的,现代 CPU (Intel i7-10 代+、AMD Ryzen 5000+、Apple M 系列) 可以以 8–15 令牌/秒的速度运行 3–13B 模型。 这比 GPU 慢 10–30 倍,但不需要专用 VRAM。具有足够系统 RAM (8–32 GB) 的 CPU 可以运行需要 $300+ GPU 的模型。
CPU 推理用可访问性换取速度: 零 GPU 开销、完美的稳定性、无驱动程序问题。对于临时用例 (每秒回答几个请求的聊天机器人、离线文档处理),CPU-only 很实用。
现代 CPU 具有加速矩阵数学的 AVX-512 或 NEON/SVE 向量指令。llama.cpp 和 Ollama 等工具自动使用这些指令,使 CPU 推理比朴素实现快得多。
2026 年最佳 CPU-only 模型
下表按 CPU-only 模式下 Intel i7-12700 (12 核、AVX-512) 上的性能对模型进行排名:
| 模型 | 参数 | GGUF 大小 | RAM 需求 | CPU 速度 | 最适合 |
|---|---|---|---|---|---|
| Phi-4 Mini | 3.8B | ~2.3 GB | 4 GB | 12 令牌/秒 | 一般聊天、代码协助 |
| Gemma 3 2B | 2B | ~1.5 GB | 3 GB | 15 令牌/秒 | 快速响应、低 VRAM |
| Llama 3.2 3B | 3B | ~2 GB | 3.5 GB | 10 令牌/秒 | 质量/速度平衡 |
| Mistral 7B Q4 | 7B | ~4.5 GB | 6 GB | 5 令牌/秒 | 更高质量、16+ GB RAM |
| Llama 3.1 8B Q4 | 8B | ~5 GB | 7 GB | 4 令牌/秒 | 编码、逻辑任务 |
速度: CPU vs GPU
速度因硬件而异。这些基准来自运行 Ollama 或 llama.cpp 的标准 2026 硬件:
| 硬件 | 模型 | 速度 | 备注 |
|---|---|---|---|
| Intel i7-12700 (CPU) | Phi-4 Mini 3.8B | 12 令牌/秒 | 启用了 AVX-512 |
| AMD Ryzen 7 5700X (CPU) | Phi-4 Mini 3.8B | 9 令牌/秒 | 仅限旧版 AVX2 |
| Apple M3 (CPU) | Phi-4 Mini 3.8B | 14 令牌/秒 | 统一内存优势 |
| RTX 3060 (GPU、12 GB) | Phi-4 Mini 3.8B | 80 令牌/秒 | GPU 快 6.7 倍 |
| RTX 4090 (GPU、24 GB) | Llama 3.1 8B Q4 | 120 令牌/秒 | GPU 比 CPU 快 30 倍 |
按模型列出的 RAM 要求
经验法则: GGUF 大小 + 500 MB 开销 = 最少 RAM 需求。 2 GB GGUF 模型需要 2.5–3 GB 可用系统 RAM:
| 模型 | GGUF 大小 | 最小 RAM | 舒适 | 上下文长度 |
|---|---|---|---|---|
| Gemma 3 2B | ~1.5 GB | 2–2.5 GB | 4 GB | 8K |
| Phi-4 Mini 3.8B | ~2.3 GB | 3 GB | 6 GB | 4K |
| Llama 3.2 3B | ~2 GB | 2.5–3 GB | 6 GB | 8K |
| Mistral 7B Q4 | ~4.5 GB | 5 GB | 8 GB | 32K |
| Llama 3.1 8B Q4 | ~5 GB | 6 GB | 12 GB | 128K |
如何运行 CPU-only 模式
Ollama (最简单): 只需运行 `ollama run phi:mini`。Ollama 在没有 NVIDIA/AMD GPU 的系统上自动检测 CPU-only 并使用系统 RAM。LM Studio: 打开设置 → 在 GPU 下选择"无"以强制 CPU 模式。Llama.cpp: 使用标志 `--n-gpu-layers 0` 禁用 GPU 卸载。
ollama run phi:mini
# Ollama 自动检测 CPU-only 系统CPU 推理的优化技巧
从 CPU 推理中获得最大性能:
- 使用 Q4_K_M 量化 — 将 GGUF 大小减少 ~70%、质量损失最少、由于缓存行为改善,速度提升 10–20%。
- 减少上下文窗口 — 更长的上下文 = 更慢的推理。使用 `--context 2048` 将上下文限制为 2K 令牌。
- 启用多线程 — Ollama 和 llama.cpp 自动检测 CPU 核心数。用 `nproc` 验证匹配。
- 使用 AVX-512 或 ARM NEON — 现代 Intel/AMD/ARM CPU 有向量指令。检查 CPU 标志: `cat /proc/cpuinfo | grep avx512` (Linux) 或 Apple 关于 → 系统报告 (Mac)。
- 批大小 = 1 — CPU 最适合单序列推理。不要在 CPU 上尝试多批。
- 将线程固定到核心 — 在 Linux 上,使用 `numactl --cpunodebind=0 ollama run phi:mini` 避免核心切换开销。
何时使用 CPU vs GPU
| 用例 | CPU | GPU |
|---|---|---|
| 实时聊天 (延迟 < 1 秒) | ❌ 太慢 (12 令牌/秒 = 60 令牌 5 秒) | ✅ 80+ 令牌/秒 |
| 批量处理 (文档、日志) | ✅ 很好 (速度无关) | ⚠️ 过度 |
| 生产 API (成本受限) | ✅ $0 硬件成本 | ⚠️ $200+ GPU + 电力 |
| 边缘设备 (树莓派) | ✅ 无替代方案 | ❌ GPU 选项有限 |
| 开发 / 本地测试 | ✅ 低功耗、更静音 | ⚠️ 过度 |
| LLM 微调 | ❌ 太慢 (小时 → 天) | ✅ 10–30× 加速 |
常见问题
CPU-only 推理与 GPU 相比有多慢?
CPU: 现代处理器上 8–15 令牌/秒。GPU (RTX 3060): 80 令牌/秒。GPU (RTX 4090): 120+ 令牌/秒。CPU 慢 10–30 倍,但需要 $0 GPU 投资。
在 CPU 上生成连贯输出的最小模型是什么?
Gemma 3 2B (1.5 GB) 生成合理的回应。更小的质量下降。在 8 GB RAM 上实现最佳质量,使用 Phi-4 Mini (3.8B) 或 Llama 3.2 3B (2 GB)。
我可以在 CPU 上运行 13B 模型吗?
是的,使用 Q4_K_M 量化,13B 模型是 ~6.5 GB。需要 8–12 GB 系统 RAM。速度: ~2–3 令牌/秒。对于交互使用很不舒服,但对批处理有效。
CPU 推理是否使用 GPU 呢?
否。Ollama/llama.cpp 中的 CPU-only 模式明确禁用 GPU 使用并仅使用系统 RAM。
CPU-only 推理稳定吗?
是的,比 GPU 更稳定。无驱动程序崩溃、无 GPU 内存错误。唯一的风险是系统 RAM 饱和,通过模型选择控制。
我需要为 Apple Silicon CPU 调整设置吗?
否。Ollama 自动检测 M1/M2/M3/M4 并有效使用统一内存。Apple Silicon 由于内存架构,速度快 ~10–20%,相当于 Intel CPU。
CPU-only LLM 是否适合中文使用?
是的。Phi-4 Mini 和 Llama 3.2 3B 都支持中文。对于中文特定优化,Qwen2.5 系列 (开源) 在中文语言任务上表现出色,而且可以在 CPU 上运行。
旧笔记本电脑 (8 GB RAM) 可以运行 CPU-only 推理吗?
是的。Gemma 3 2B (1.5 GB) 在 8 GB RAM 上有效运行。预期 3–5 令轿/秒用于批处理或轻量级聊天机器人。
我可以同时在 CPU 上运行多个模型吗?
如果 RAM 允许,技术上可以,但不切实际。多模型导致内存争争,两者都变慢。建议一次运行 1 个模型。
CPU 推理中的安全风险是什么?
CPU-only 比 GPU 更安全。无云传输 = 数据保持本地。但要确保物理机器安全和操作系统更新,敏感数据可能以未加密方式保留。
Ollama vs llama.cpp: CPU 推理速度有区别吗?
差异很小。两者都使用相同的核心 CPU 优化 (AVX-512)。轻微差异来自线程管理实现 (~2–5%)。尝试默认的 Ollama。