关键要点
- RTX 4090是2026年本地AI最佳单卡消费级GPU:24GB显存,约1TB/s带宽
- 70B Q4模型需要40GB以上显存——需要双RTX 3090或CPU卸载
- Ryzen 9 9950X(Zen 5,16核)是大型层CPU卸载的最佳处理器
- DDR5-6000 64GB起步;128GB支持70B CPU卸载达到实用速度
- PCIe Gen 4/5 NVMe在2秒内加载完7B模型
第一档:约8000元预算AI工作站
8000元预算方案以二手RTX 3090(24GB显存)为核心。Llama 3.1 8B Q8达45–60 tok/s,Qwen2.5 14B Q8达20–28 tok/s,Qwen2.5 32B Q4达12–18 tok/s,全部纯GPU运行。
- 全GPU速度支持的模型: 7B(任意量化)、13B、14B Q4/Q8、30B Q4
- 70B支持: 需要CPU卸载 — 约5–8 tok/s
- 峰值功耗: 约450W
第二档:约17000元推荐AI工作站
17000元推荐方案以RTX 4090(24GB,约1TB/s内存带宽)搭配AMD Ryzen 9 9950X(Zen 5,16核)为核心。RTX 4090比RTX 3090每GB显存快30–40%,每个token能耗更低。
- 7B Q4速度: 约105–125 tok/s
- 14B Q8速度: 约48–60 tok/s
- 30B Q4速度: 约28–38 tok/s
- 70B Q4(CPU卸载): 约10–15 tok/s(64GB内存)
- 峰值功耗: 约550W
第三档:约33000元专业70B工作站
使用双RTX 3090(合计48GB显存)实现GPU速度(25–40 tok/s)运行70B模型。Ryzen Threadripper 7960X(24核)加速大型层CPU卸载,256GB DDR5支持甚至140B量化模型完整加载到内存。
- 70B Q4速度: 25–40 tok/s(双RTX 3090通过张量并行)
- 256GB内存CPU卸载: 140B以上模型4–6 tok/s运行
- 峰值功耗: 约900W
应该自建工作站还是租用云GPU?
常规使用(每天2小时以上):建议自建工作站。RunPod上A40 48GB租金约3元/小时——每天4小时使用约需年费4400元。2–3万元的专业工作站5–6年内可收回成本。偶尔使用(每天1小时以下):云服务更便宜。
Ollama在双GPU上运行需要NVLink吗?
不需要。Ollama通过PCIe使用CUDA张量并行——无需NVLink。双RTX 3090配置完全不需要NVLink即可正常工作。
专业方案为什么用双RTX 3090而不是单RTX 4090?
显存是关键。两块RTX 3090合计48GB——足够装下Llama 3.1 70B Q4(约40GB)。单块RTX 4090只有24GB——70B无法不卸载直接运行。对于GPU速度的70B推理,双3090在显存/元的性价比上更优。
可以从预算方案升级到推荐方案吗?
可以——第一档和第二档都使用AM5接口,可以更换更好的GPU或增加内存而不需要更换主板。第三档使用TRX50接口,从第一/二档升级到第三档需要更换主板和CPU。