关键要点

VRAM数学：(模型GB单位大小) × 量化位数 ÷ 8 = 所需VRAM。示例：70B Q4 = (70 × 4) ÷ 8 = 35 GB。
12 GB VRAM (RTX 4070 Ti、RTX 5070、Intel B770)：Llama 4 Scout 17B Q4_K_M (~10 GB, 最佳质量, MoE)。推荐预算GPU。
16 GB VRAM (RTX 4080、RTX 5070 Ti、RTX 5080)：Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s) 或 Devstral Small 24B Q4_K_M (~16 GB) 用于代理编码。
24 GB VRAM (RTX 5090、RTX 4090、Tesla L40)：Qwen 3.6 27B Q4_K_M (~16 GB, 77.2% SWE-bench 最佳密集编码模型) 或 DeepSeek-R1 32B Q4_K_M (~19 GB, 最佳推理)。
Mac硬件：M5 Pro (64GB统一内存, 307GB/s) 和 M5 Max (128GB统一内存, 460-614GB/s) 现已推出。M5 Max可轻松运行70B模型。
截至2026年5月，GPU价格已稳定。在LLM速度方面，GPU VRAM比CPU/RAM关键10倍以上。

如何计算VRAM要求？

VRAM要求取决于三个因素：模型大小（参数）、量化（每个权重的位数）和推理模式。

公式：

``` VRAM (GB) = (模型大小 × 量化位数) ÷ 8 ```

量化值： FP16 = 16位、Q8 = 8位、Q5 = 5位、Q4 = 4位。

模型	FP16（最佳质量）	Q8（优秀）	Q5（良好）	Q4（良好，最小）
Llama 4 Scout 17B (MoE)	34 GB	17 GB	10.6 GB	8.5 GB
Qwen3 8B	16 GB	8 GB	5 GB	4 GB
Qwen 3.6 27B	54 GB	27 GB	16.9 GB	13.5 GB
Llama 3.1 70B	140 GB	70 GB	43.75 GB	35 GB

VRAM计算器显示公式 (模型大小 × 位数) ÷ 8，示例：7B Q4 = 3.5 GB、13B Q5 = 8.1 GB、70B Q4 = 35 GB。Q4是大多数硬件推荐的甜点。

应该购买哪个GPU？

截至2026年5月，NVIDIA主导本地LLM性能。以下是分层建议：

硬件决定你能运行哪些模型，提示词工程决定它们的表现。一个结构良好的提示词作用于7B模型，通常优于粗糙的提示词作用于70B模型。请查看完整的Prompt工程指南，了解在任何参数量下最大化输出质量的技术。

层级	GPU	VRAM	最佳适用	性能
预算 ($600)	RTX 4070 Ti / RTX 5070	12 GB	7-13B 模型	快速 (80 token/sec)
中端 ($1200)	RTX 4080 / RTX 5080	16 GB	13-30B 模型	非常快速 (120 token/sec)
高端 ($1800)	RTX 4090 / RTX 5090	24 GB	任何 70B 模型	极快 (150 token/sec)
服务器 ($3000+)	RTX 6000 Ada / A100	48+ GB	多用户、70B+	生产级

GPU层级建议：$600 RTX 4070 Ti (12GB, 7-13B 模型)、¥180,000 RTX 4080 (16GB, 13-30B)、$1800 RTX 4090 (24GB, 任何 70B 模型)、$3000+ 生产服务器 GPU。GPU选择比 CPU 重要 10 倍。

需要什么CPU和RAM？

使用GPU时，CPU和RAM是次要的。 GPU进行繁重计算；CPU/RAM处理上下文准备。

最低CPU：8核处理器 (Intel i7 12代、AMD Ryzen 7 7700X或更新版)。较旧的CPU会增加20%+延迟。

RAM：16 GB最低 (使用GPU)。不使用GPU时，建议32+ GB。使用GPU时，RAM不直接限制模型大小。

存储：用于模型文件和OS的500 GB SSD。优选M.2 NVMe (更快的模型加载)。

需要多少存储？

模型文件很大。4位量化的7B模型是4-5 GB。相应规划：

500 GB SSD：OS + 1-2个小模型 (3B、7B)
1 TB SSD：OS + 3-5个模型 (7B和13B混合)
2 TB SSD：OS + 10+个模型 (各种大小)
4 TB NVMe RAID：生产设置、快速模型加载

预算构建建议

从头开始构建本地LLM机器：

预算	GPU	CPU	RAM	模型	成本
$1500 (入门级)	RTX 4070 Ti	i7 13700	16 GB	7-13B	现实
$2500 (可靠)	RTX 4080	i7 14700K	32 GB	13-30B	推荐
$4000 (高端)	2× RTX 4090	Ryzen 9 7950X	128 GB	任何 (70B+)	个人用过度

三种构建配置：$1500入门级 (RTX 4070 Ti, i7 13700, 16GB) 适用7-13B模型、$2500可靠构建 (RTX 4080, i7 14700K, 32GB) 适用13-30B、$4000高端 (2× RTX 4090, Ryzen 9, 128GB) 适用任何模型。中端提供最佳价值。

如果您无法负担硬件怎么办?

如果$250–400的GPU超出您的预算，或您的笔记本电脑太旧无法支持现代推理引擎，本地LLM在2026年可能对您来说不划算。

计算实际成本：

- 本地: $800–2,000前期硬件 + 电费 + 2–3年维护

- 云端: 典型开发者使用月费$5–50 (Llama API或GPT-4o mini)

对于轻度用户 (< 100,000 tokens/月)，云API月费$5–10且无需硬件。对于重度用户 (> 1000万 tokens/月)，本地在6–12个月内达到收支平衡。

比较本地与云端的完整成本和性能权衡**找到您的收支平衡点。许多开发者发现云端对他们的实际使用模式来说更便宜。

已经在考虑低于推荐 VRAM 档位的硬件了？要了解哪些模型与应用组合真的能在 8 GB 或更低的内存上跑起来，请参阅面向低配 PC 的最佳本地 AI 应用。

本地LLM的Mac硬件

Apple Silicon (M系列) 对本地LLM来说令人惊讶地出色。 M5系列现已推出，M5 Pro提供64GB统一内存和307GB/s内存带宽，M5 Max提供128GB统一内存和460-614GB/s带宽。这两款芯片都非常适合运行本地LLM。

M5 Pro (64GB统一内存, 307GB/s带宽): 运行13-30B模型的最佳价值。Qwen 3.6 27B在M5 Pro上运行良好，推理速度达到30-40 tok/s。

M5 Max (128GB统一内存, 460-614GB/s带宽): 可轻松运行任何70B模型（包括Llama 3.3 70B Q4_K_M）。统一内存充足，无需担心GPU/CPU内存分割。

Mac	GPU内存	Memory Bandwidth	最佳适用	推理速度
M5 Pro (64GB)	64 GB unified	307 GB/s	13-30B模型 (优秀)	30-40 tok/s
M5 Max (128GB)	128 GB unified	460-614 GB/s	任何70B模型	20-30 tok/s (70B)

Mac硬件对比：M5 Pro (64GB统一内存, 307GB/s) 最适合13-30B模型、M5 Max (128GB统一内存, 460-614GB/s) 可运行任何70B模型。Apple Silicon的统一内存架构优于传统GPU/CPU分割。

服务器硬件与消费者硬件

对于生产部署，建议使用服务器级硬件：

消费者 (RTX 4090)：~$1800、24 GB VRAM、单用户、持续负载下易发生热节流。
服务器 (RTX 6000 Ada)：~$5000、48 GB VRAM、设计用于24/7使用、更好的冷却、错误纠正。
建议：从RTX 4090开始。如果为多用户24/7运行70B模型，升级到双A100或RTX 6000。

消费者与服务器硬件：RTX 4090 ($1800, 24GB, 单用户, 兼职) 对比 RTX 6000 Ada ($5000+, 48GB, 多用户, 24/7运行)。从消费者硬件开始；仅在运行生产服务时升级到服务器硬件。

硬件规划中的常见错误

在GPU可用时仅购买CPU。$600 RTX 4070 Ti将超过$2000 CPU。GPU主导LLM速度。
未计算VRAM开销。模型文件大小 + 系统开销 + 上下文 = 使用的总VRAM。始终购买比模型大小多25%。
假设所有70B模型都适合40GB VRAM。仅Q4 (4位) 量化才勉强适合。Q5需要45+ GB。
忽视电源和冷却。RTX 4090消耗575W。需要1200W PSU和良好的机箱气流。
认为旧GPU会运行。RTX 2080比RTX 4070 Ti慢10倍。现代GPU架构非常重要。

关于本地LLM硬件的常见问题

我可以在笔记本电脑上运行70B模型吗？

仅使用重度量化 (Q2, 2位) 和CPU回退。不切实际。笔记本电脑适合7B模型。对于70B，使用配备RTX 4090+的台式机。

RTX 4090对个人使用是否过度？

如果您运行70B模型或同时运行多个模型，则否。仅用于7B聊天，RTX 4070 Ti足够。如果您想要灵活性，RTX 4090面向未来。

我应该购买RTX 5090还是等待RTX 6090？

RTX 5090可用 (2026年初)。RTX 6000 Ada服务器GPU也很强大。除非预算无限，RTX 5090或4090都很棒。

量化如何影响质量？

FP16 = 100%质量 (基线)、Q8 = 99%、Q5 = 95%、Q4 = 90-95%。对于大多数任务，Q4与FP16无法区分。

我可以稍后升级GPU吗？

可以。现在从RTX 4070 Ti开始，如需要可在2年后升级到RTX 5090。GPU是最可替换的组件。

来源

NVIDIA GPU规格 -- nvidia.com/zh-cn/geforce/graphics-cards/
Apple M5 硬件规格 -- apple.com/mac (官方规格，64GB和128GB统一内存，307-614GB/s带宽)
Llama 4 Scout模型 -- meta.com/research (MoE架构，17B活跃参数，109B总参数)
Qwen3和Qwen 3.6模型 -- huggingface.co/qwen (性能基准，77.2% SWE-bench编码)
LLM VRAM计算器 -- vram.asult.com (参考)
模型量化基准 -- huggingface.co/docs/transformers

本地LLM硬件指南2026：GPU、CPU和RAM要求说明

演示文稿: 本地LLM硬件指南2026：GPU、CPU和RAM要求说明