关键要点
- GPU(NVIDIA RTX 5090):8B 模型 200 令牌/秒。最高性能,2000 美元。
- GPU(NVIDIA RTX 4090):8B 模型 150 令牌/秒。性价比最优:RTX 4070 Ti 80 Tok/s,仅需 600 美元。
- Apple Silicon M2 Ultra:8B 60 Tok/s,70B 35 Tok/s *原生运行*(无需卸载)。唯一消费级硬件可无损运行 70B 模型。
- CPU(Intel i9):5-6 令牌/秒。不适合实时聊天(5-10 秒延迟)。
- 认真工作选 GPU:速度快 30-40 倍(内存带宽优势)。大模型选 Apple M2 Ultra:原生运行 70B。
性能对比:速度和吞吐量
*卸载到内存——质量严重下降
| 硬件 | Llama 3.2 8B | Llama 3.3 70B | Qwen2.5 32B | 成本 |
|---|---|---|---|---|
| RTX 5090(GPU、32GB) | 200 Tok/s | 50 Tok/s | 70 Tok/s | 2000 美元 |
| RTX 4090(GPU、24GB) | 150 Tok/s | 10 Tok/s* | 50 Tok/s | 1800 美元 |
| RTX 4070 Ti(GPU、12GB) | 80 Tok/s | 不可能 | 25 Tok/s | 600 美元 |
| Mac Studio M2 Ultra(192GB) | 60 Tok/s | 35 Tok/s | 45 Tok/s | 4000 美元 |
| MacBook Pro M4 Max(128GB) | 35 Tok/s | 8 Tok/s* | 22 Tok/s | 4000 美元 |
| MacBook Pro M5 Max(96GB) | 25 Tok/s | 5 Tok/s* | 15 Tok/s | 3500 美元 |
| Intel i9 14900K(仅 CPU) | 5 Tok/s | 1 Tok/s | 2 Tok/s | 600 美元 |
| AMD Ryzen 9 7950X(仅 CPU) | 6 Tok/s | 1 Tok/s | 2 Tok/s | 650 美元 |
NVIDIA GPU:性能之王
NVIDIA GPU 通过专用 CUDA 核心、Tensor 核心和高带宽内存在大模型推理中速度最快。
RTX 5090(2025 年旗舰):8B 模型 200 Tok/s,32GB VRAM,1792 GB/s 内存带宽。单块 GPU 可运行 70B 模型(50 Tok/s)。
RTX 4090(上一代旗舰):8B 模型 150 Tok/s,24GB VRAM。生产环境最常见。
RTX 4070 Ti(最佳性价比):8B 模型 80 Tok/s,12GB VRAM,600 美元。实用于聊天和编码辅助。
- GPU 通过内存带宽主导大模型推理。CPU 仅 89 GB/s(DDR5),而 RTX 5090 达 1792 GB/s。
- CUDA 生态(vLLM、llama.cpp、LM Studio)简化了 GPU 使用。
- 无量化 70B 模型需要 40GB VRAM。只有 RTX 5090 单块支持。RTX 4090 需部分卸载(质量下降)。
仅 CPU:预算选项但不实用
仅 CPU 计算机不适合大模型推理。根本原因:内存带宽不足。
Intel i9 14900K / AMD Ryzen 9 7950X:8B 模型 5-6 Tok/s。5-10 秒延迟=聊天不可用。
内存带宽:CPU RAM 89 GB/s(DDR5)。GPU VRAM 2000+ GB/s(RTX 5090)。20-30 倍差距解释速度差。
CPU 推理仅适合批处理(离线)用例。
- llama.cpp 利用 CPU 多线程。但瓶颈是内存带宽,不是核心数。
- 投资 GPU 或 Apple Silicon 的价值是仅 CPU 系统的 30-40 倍(实时应用)。
Apple Silicon:统一内存的优势
Apple Silicon(M3/M4 系列)通过统一内存提供独特价值。GPU 和 CPU 共享同一内存池=无数据传输开销。
M5 Max(96GB):8B 模型 25 Tok/s。便携开发。
M4 Max(128GB):8B 35 Tok/s,70B 8 Tok/s(卸载、质量下降)。
Mac Studio M2 Ultra(192GB):8B 60 Tok/s,70B 35 Tok/s *原生*(无卸载)。唯一消费级硬件原生运行 70B。研究和微调的最佳选择。
- 统一内存=无 GPU↔CPU 数据传输损失。NVIDIA GPU 速度快,但卸载到系统 RAM 时质量下降 80%。
- Mac Studio M2 Ultra 192GB 可同时容纳 4 个 40GB 模型。
内存带宽:真正的瓶颈
大模型推理受内存限制,不是计算限制。更高的内存带宽=更快的令牌生成。
- 推理速度≈内存带宽÷模型大小(加载权重)。
- Apple Silicon 统一内存消除 CPU↔GPU 传输开销。
- Mac Studio M2 Ultra 原生保持 70B+ 模型,无卸载。
- DDR5 RAM 89 GB/s=CPU 推理比 GPU 慢 30-40 倍的原因。
| 平台 | 内存带宽 | 实际速度(8B) |
|---|---|---|
| RTX 5090(GDDR7) | 1792 GB/s | 200 Tok/s |
| RTX 4090(GDDR6X) | 1008 GB/s | 150 Tok/s |
| RTX 4070 Ti(GDDR6X) | 504 GB/s | 80 Tok/s |
| Mac Studio M2 Ultra(统一) | 800 GB/s | 60 Tok/s |
| MacBook Pro M4 Max(统一) | 546 GB/s | 35 Tok/s |
| MacBook Pro M5 Max(统一) | 400 GB/s | 25 Tok/s |
| DDR5-5600 RAM(CPU) | 89 GB/s | 5 Tok/s |
每个令牌的成本:3 年摊销
每个平台 3 年使用的总成本计算。硬件投资通常比频繁调用 API 便宜。
*Mac 已包含在系统电力消耗中
| 硬件 | 初始成本 | 3 年电费 | 总成本 | Tok/s |
|---|---|---|---|---|
| RTX 4090 | 1800 美元 | 2400 美元 | 4200 美元 | 150 |
| RTX 4070 Ti | 600 美元 | 1200 美元 | 1800 美元 | 80 |
| M5 Max Mac | 3500 美元 | 0 美元* | 3500 美元 | 25 |
| OpenAI API | 0 美元 | — | 10000+ 美元 | 无限 |
如何选择合适的平台
- 选择 GPU:认真工作、70B 模型、多模型并行。RTX 4070 Ti(600 美元)性价比最优。
- 选择 Apple Silicon:Mac 用户。M2 Ultra 唯一消费级原生运行 70B。研究和微调最佳。
- 避免仅 CPU:不适合实时聊天。仅批处理有用。实时应用必须 GPU/Apple Silicon。
常见误区
- 1"更多 CPU 核心=更快" ——错误。瓶颈是内存带宽。核心数增加效果有限。
- 2"RTX 4090 可运行 70B 模型" ——部分可以。卸载时质量下降 80%。只有 Mac Studio M2 Ultra 原生支持。
- 3"Apple Silicon 等同 GPU" ——错误。M3/M4 仅 8B 足够。70B 仅 M2 Ultra。
- 4"GPU 电费很高" ——RTX 4090 每月 200 美元。API 费用更高(月 500+ 美元)。
- 5"CPU llama.cpp 足够" ——5 Tok/s 不实用。实时应用不可行。
- 6"量化总是降质" ——错误。Q5 保持 95% 质量,速度无降。
- 7"内存带宽不重要" ——最重要。GPU/CPU 30-40 倍速度差的原因。
常见问题
本地大模型推理选 GPU 还是 CPU?
GPU 绝对更优。NVIDIA RTX 4090 运行 7B 模型 150 令牌/秒。Intel i9 仅 3-5 令牌/秒。CPU 推理 5-10 秒延迟,对话不可用。
Apple Silicon 能运行本地大模型吗?
可以。Apple M(M3、M4)系列运行 7B 模型 25-30 令牌/秒(统一内存)。速度慢于 NVIDIA GPU,但远快于仅 CPU 系统。70B 模型超出 Apple Silicon 内存限制(M2 Ultra 除外)。
本地大模型最少需要多少 GPU VRAM?
6GB VRAM 可通过 Q4 量化运行 7B 模型。8GB 是 7B Q5 的实用最小值。13B 模型需 16GB+。30B 模型需 24GB。
GPU 比 CPU 快多少倍?
NVIDIA GPU 快 30-100 倍。RTX 4090 运行 7B 模型 150 令牌/秒。Intel i9 仅 3-5 令牌/秒。CUDA 并行处理和专用 Tensor 核心是原因。
仅为本地大模型购买 GPU 值得吗?
值得。RTX 4070 Ti(600 美元)3 年摊销后成本低于 OpenAI API(月费 500+ 美元,假设日用 2 小时)。80 令牌/秒可实现实时聊天、代码辅助、文档摘要。
多 CPU 核心能加快大模型推理吗?
帮助有限。llama.cpp 利用所有线程。瓶颈是内存带宽(50-100 GB/s 系统 RAM vs 2000+ GB/s GPU VRAM)。更多核心解决不了——必须 GPU 或 Apple Silicon。
什么是内存带宽,为什么对大模型重要?
大模型推理受内存限制。令牌生成速度取决于模型权重加载速度。RTX 5090 达 1792 GB/s;DDR5 RAM 仅 89 GB/s。这解释了 GPU 快 30-40 倍。
本地大模型最好的 Apple Silicon 芯片是什么?
Mac Studio M2 Ultra(192GB)原生运行 70B 模型 35 Tok/s——唯一消费级硬件。MacBook Pro M4 Max(128GB)便携版 35 Tok/s(8B)。M5 Max(96GB)适合 7-13B 模型。
Apple Silicon 能运行 70B 模型吗?
Mac Studio M2 Ultra 192GB 内存可原生运行 Llama 3.3 70B,速度 35 Tok/s。唯一消费级硬件。小型 Mac 卸载时(5-10 倍速度损失、质量下降)部分运行。M2 Ultra 仅完全质量。
RTX 5090(2000 美元)对本地大模型值得吗?
仅当频繁运行 70B 模型时值得。RTX 5090(200 Tok/s 8B)比 RTX 4090 快 2.5 倍(1800 美元)。最佳性价比:RTX 4070 Ti(600 美元、80 Tok/s 8B)8-32B 模型;Mac Studio M2 Ultra(4000 美元)原生 70B。
- NVIDIA CUDA 计算能力——官方 GPU 规格 https://developer.nvidia.com/cuda-compute-capability
- Apple Metal 机器学习——统一内存优化 https://developer.apple.com/metal/
- vLLM 张量并行化文档——多 GPU 推理 https://docs.vllm.ai/
- llama.cpp GitHub——开源推理引擎 https://github.com/ggerganov/llama.cpp