RTX 5090 在 Llama 3.2 8B 模型上的速度最快，达到 200 Tok/s。但 Mac Studio M2 Ultra（192GB 统一内存）可以以原生方式运行 Llama 3.3 70B 模型，速度为 35 Tok/s——这是任何消费级 GPU 都做不到的。CPU 推理速度仅为 5 Tok/s，对实时应用不切实际。本指南从内存带宽、成本和用例角度比较这三种架构（2026年4月）。

关键要点

GPU（NVIDIA RTX 5090）：8B 模型 200 令牌/秒。最高性能，2000 美元。
GPU（NVIDIA RTX 4090）：8B 模型 150 令牌/秒。性价比最优：RTX 4070 Ti 80 Tok/s，仅需 600 美元。
Apple Silicon M2 Ultra：8B 60 Tok/s，70B 35 Tok/s *原生运行*（无需卸载）。唯一消费级硬件可无损运行 70B 模型。
CPU（Intel i9）：5-6 令牌/秒。不适合实时聊天（5-10 秒延迟）。
认真工作选 GPU：速度快 30-40 倍（内存带宽优势）。大模型选 Apple M2 Ultra：原生运行 70B。

性能对比：速度和吞吐量

*卸载到内存——质量严重下降

硬件	Llama 3.2 8B	Llama 3.3 70B	Qwen2.5 32B	成本
RTX 5090（GPU、32GB）	200 Tok/s	50 Tok/s	70 Tok/s	2000 美元
RTX 4090（GPU、24GB）	150 Tok/s	10 Tok/s*	50 Tok/s	1800 美元
RTX 4070 Ti（GPU、12GB）	80 Tok/s	不可能	25 Tok/s	600 美元
Mac Studio M2 Ultra（192GB）	60 Tok/s	35 Tok/s	45 Tok/s	4000 美元
MacBook Pro M4 Max（128GB）	35 Tok/s	8 Tok/s*	22 Tok/s	4000 美元
MacBook Pro M5 Max（96GB）	25 Tok/s	5 Tok/s*	15 Tok/s	3500 美元
Intel i9 14900K（仅 CPU）	5 Tok/s	1 Tok/s	2 Tok/s	600 美元
AMD Ryzen 9 7950X（仅 CPU）	6 Tok/s	1 Tok/s	2 Tok/s	650 美元

8B模型速度对比：RTX 5090达200 Tok/s（比CPU的5 Tok/s快40倍）。Mac Studio M2 Ultra是唯一能原生运行Llama 3.3 70B的消费级硬件（35 Tok/s）。

NVIDIA GPU：性能之王

NVIDIA GPU 通过专用 CUDA 核心、Tensor 核心和高带宽内存在大模型推理中速度最快。

RTX 5090（2025 年旗舰）：8B 模型 200 Tok/s，32GB VRAM，1792 GB/s 内存带宽。单块 GPU 可运行 70B 模型（50 Tok/s）。

RTX 4090（上一代旗舰）：8B 模型 150 Tok/s，24GB VRAM。生产环境最常见。

RTX 4070 Ti（最佳性价比）：8B 模型 80 Tok/s，12GB VRAM，600 美元。实用于聊天和编码辅助。

GPU 通过内存带宽主导大模型推理。CPU 仅 89 GB/s（DDR5），而 RTX 5090 达 1792 GB/s。
CUDA 生态（vLLM、llama.cpp、LM Studio）简化了 GPU 使用。
无量化 70B 模型需要 40GB VRAM。只有 RTX 5090 单块支持。RTX 4090 需部分卸载（质量下降）。

仅 CPU：预算选项但不实用

仅 CPU 计算机不适合大模型推理。根本原因：内存带宽不足。

Intel i9 14900K / AMD Ryzen 9 7950X：8B 模型 5-6 Tok/s。5-10 秒延迟=聊天不可用。

内存带宽：CPU RAM 89 GB/s（DDR5）。GPU VRAM 2000+ GB/s（RTX 5090）。20-30 倍差距解释速度差。

CPU 推理仅适合批处理（离线）用例。

llama.cpp 利用 CPU 多线程。但瓶颈是内存带宽，不是核心数。
投资 GPU 或 Apple Silicon 的价值是仅 CPU 系统的 30-40 倍（实时应用）。

Apple Silicon：统一内存的优势

Apple Silicon（M3/M4 系列）通过统一内存提供独特价值。GPU 和 CPU 共享同一内存池=无数据传输开销。

M5 Max（96GB）：8B 模型 25 Tok/s。便携开发。

M4 Max（128GB）：8B 35 Tok/s，70B 8 Tok/s（卸载、质量下降）。

Mac Studio M2 Ultra（192GB）：8B 60 Tok/s，70B 35 Tok/s *原生*（无卸载）。唯一消费级硬件原生运行 70B。研究和微调的最佳选择。

统一内存=无 GPU↔CPU 数据传输损失。NVIDIA GPU 速度快，但卸载到系统 RAM 时质量下降 80%。
Mac Studio M2 Ultra 192GB 可同时容纳 4 个 40GB 模型。

内存带宽：真正的瓶颈

大模型推理受内存限制，不是计算限制。更高的内存带宽=更快的令牌生成。

推理速度≈内存带宽÷模型大小（加载权重）。
Apple Silicon 统一内存消除 CPU↔GPU 传输开销。
Mac Studio M2 Ultra 原生保持 70B+ 模型，无卸载。
DDR5 RAM 89 GB/s=CPU 推理比 GPU 慢 30-40 倍的原因。

平台	内存带宽	实际速度（8B）
RTX 5090（GDDR7）	1792 GB/s	200 Tok/s
RTX 4090（GDDR6X）	1008 GB/s	150 Tok/s
RTX 4070 Ti（GDDR6X）	504 GB/s	80 Tok/s
Mac Studio M2 Ultra（统一）	800 GB/s	60 Tok/s
MacBook Pro M4 Max（统一）	546 GB/s	35 Tok/s
MacBook Pro M5 Max（统一）	400 GB/s	25 Tok/s
DDR5-5600 RAM（CPU）	89 GB/s	5 Tok/s

每个令牌的成本：3 年摊销

每个平台 3 年使用的总成本计算。硬件投资通常比频繁调用 API 便宜。

*Mac 已包含在系统电力消耗中

硬件	初始成本	3 年电费	总成本	Tok/s
RTX 4090	1800 美元	2400 美元	4200 美元	150
RTX 4070 Ti	600 美元	1200 美元	1800 美元	80
M5 Max Mac	3500 美元	0 美元*	3500 美元	25
OpenAI API	0 美元	—	10000+ 美元	无限

如何选择合适的平台

选择 GPU：认真工作、70B 模型、多模型并行。RTX 4070 Ti（600 美元）性价比最优。
选择 Apple Silicon：Mac 用户。M2 Ultra 唯一消费级原生运行 70B。研究和微调最佳。
避免仅 CPU：不适合实时聊天。仅批处理有用。实时应用必须 GPU/Apple Silicon。

常见误区

1
"更多 CPU 核心=更快" ——错误。瓶颈是内存带宽。核心数增加效果有限。
2
"RTX 4090 可运行 70B 模型" ——部分可以。卸载时质量下降 80%。只有 Mac Studio M2 Ultra 原生支持。
3
"Apple Silicon 等同 GPU" ——错误。M3/M4 仅 8B 足够。70B 仅 M2 Ultra。
4
"GPU 电费很高" ——RTX 4090 每月 200 美元。API 费用更高（月 500+ 美元）。
5
"CPU llama.cpp 足够" ——5 Tok/s 不实用。实时应用不可行。
6
"量化总是降质" ——错误。Q5 保持 95% 质量，速度无降。
7
"内存带宽不重要" ——最重要。GPU/CPU 30-40 倍速度差的原因。

常见问题

本地大模型推理选 GPU 还是 CPU？

GPU 绝对更优。NVIDIA RTX 4090 运行 7B 模型 150 令牌/秒。Intel i9 仅 3-5 令牌/秒。CPU 推理 5-10 秒延迟，对话不可用。

Apple Silicon 能运行本地大模型吗？

可以。Apple M（M3、M4）系列运行 7B 模型 25-30 令牌/秒（统一内存）。速度慢于 NVIDIA GPU，但远快于仅 CPU 系统。70B 模型超出 Apple Silicon 内存限制（M2 Ultra 除外）。

本地大模型最少需要多少 GPU VRAM？

6GB VRAM 可通过 Q4 量化运行 7B 模型。8GB 是 7B Q5 的实用最小值。13B 模型需 16GB+。30B 模型需 24GB。

GPU 比 CPU 快多少倍？

NVIDIA GPU 快 30-100 倍。RTX 4090 运行 7B 模型 150 令牌/秒。Intel i9 仅 3-5 令牌/秒。CUDA 并行处理和专用 Tensor 核心是原因。

仅为本地大模型购买 GPU 值得吗？

值得。RTX 4070 Ti（600 美元）3 年摊销后成本低于 OpenAI API（月费 500+ 美元，假设日用 2 小时）。80 令牌/秒可实现实时聊天、代码辅助、文档摘要。

多 CPU 核心能加快大模型推理吗？

帮助有限。llama.cpp 利用所有线程。瓶颈是内存带宽（50-100 GB/s 系统 RAM vs 2000+ GB/s GPU VRAM）。更多核心解决不了——必须 GPU 或 Apple Silicon。

什么是内存带宽，为什么对大模型重要？

大模型推理受内存限制。令牌生成速度取决于模型权重加载速度。RTX 5090 达 1792 GB/s；DDR5 RAM 仅 89 GB/s。这解释了 GPU 快 30-40 倍。

本地大模型最好的 Apple Silicon 芯片是什么？

Mac Studio M2 Ultra（192GB）原生运行 70B 模型 35 Tok/s——唯一消费级硬件。MacBook Pro M4 Max（128GB）便携版 35 Tok/s（8B）。M5 Max（96GB）适合 7-13B 模型。

Apple Silicon 能运行 70B 模型吗？

Mac Studio M2 Ultra 192GB 内存可原生运行 Llama 3.3 70B，速度 35 Tok/s。唯一消费级硬件。小型 Mac 卸载时（5-10 倍速度损失、质量下降）部分运行。M2 Ultra 仅完全质量。

RTX 5090（2000 美元）对本地大模型值得吗？

仅当频繁运行 70B 模型时值得。RTX 5090（200 Tok/s 8B）比 RTX 4090 快 2.5 倍（1800 美元）。最佳性价比：RTX 4070 Ti（600 美元、80 Tok/s 8B）8-32B 模型；Mac Studio M2 Ultra（4000 美元）原生 70B。

NVIDIA CUDA 计算能力——官方 GPU 规格 https://developer.nvidia.com/cuda-compute-capability
Apple Metal 机器学习——统一内存优化 https://developer.apple.com/metal/
vLLM 张量并行化文档——多 GPU 推理 https://docs.vllm.ai/
llama.cpp GitHub——开源推理引擎 https://github.com/ggerganov/llama.cpp

本地大模型应该选 GPU vs CPU vs Apple Silicon：性能分析

演示文稿: 本地大模型应该选 GPU vs CPU vs Apple Silicon：性能分析