关键要点
- CPU:Threadripper 7970X(32核,$2,400–2,500)或Intel Xeon W9-3495X($5,000+)。支持并行微调同时提供推理。
- GPU:2× RTX 4090 24GB(二手对约$2,200–2,600)。总计48GB显存。用于多用户70B或单一70B + 准备任务。
- 内存:128GB DDR5($600–800)。支持70B上8+并发用户或单用户70B + 并行量化。
- 存储:4–8TB NVMe SSD + 12–24TB HDD($800–1,500)。多模型库 + 备份 + 训练数据集。
- 电源:2× 1200W或1× 2000W($800–1,200)。双4090s消耗900W持续;峰值余量至关重要。
- 冷却:自定义液冷环路或双AIO($1,000–2,000)。单个GPU + CPU = 1,200W热输出。
- 网络:10Gbps以太网可选($200–400)。LAN多用户访问无瓶颈。
- 总计:$4,000–6,000。支持8+并发70B用户或1个用户微调 + 并行服务。
谁需要$4K–6K工作站?
此级别适用于:
- 中小企业/企业: 为5+员工同时运行内部LLM API。需要本地数据控制。
- AI研究人员: 微调大型模型(70B LoRA)同时为团队提供推理。单个$2K设备无法并行化。
- MLOps工程师: 构建内部推理集群。以一个工作站作为服务器节点开始。
- 内容工作室(专业级): 24/7运行视频字幕、代码生成、摘要而无API成本。
工作站零件清单是什么?
专业工作站从双RTX 4090s(二手对$2,200–2,600)和Threadripper CPU($2,400–2,500)开始,配合128GB DDR5和自定义液冷。 这是完整零件清单和成本明细:
| 组件 | 型号 | 价格(2026年4月) | 备注 |
|---|---|---|---|
| GPU | 2× RTX 4090 24GB(二手) | $2,200–2,600 | NVLink桥可选。配对前测试两张卡。 |
| CPU | Threadripper 7970X(32核) | $2,400–2,500 | 32并行核心用于微调同时在两个GPU上提供推理。 |
| 主板 | TRX850或Xeon W90 | $400–800 | 双GPU支持、PCIe 5.0、企业级电源传输。 |
| 内存 | 128GB DDR5 6000 MHz | $600–800 | Corsair Dominator Platinum。支持8+并发用户。 |
| 存储 | 4TB NVMe + 12TB HDD | $800–1,200 | NVMe用于热模型,HDD用于备份&数据集。 |
| 电源 | 2000W 80+ Platinum或2× 1200W | $1,000–1,500 | 双4090s = 900W持续,需要2000W+余量。 |
| 冷却 | 自定义环路或2× 360mm AIO | $1,500–2,500 | CPU + 2个GPU = 1,200W热。空气冷却不足。 |
| 机箱 | Lian Li O11 Dynamic或Corsair Crystal | $200–300 | 支持双GPU + 大型AIO或环路。 |
| 总计 | -- | $4,000–6,000 | 随GPU市场价格和冷却选择调整。 |
如何配置双GPU以获得最大性能?
两个RTX 4090s为您提供48GB显存和约2倍推理吞吐量。 您有三个配置选项:并排独立运行、NVLink融合用于统一显存、或张量并行用于单模型加速。
📍 简单一句话
双GPU要么在每张卡上运行独立模型(最简单)要么通过NVLink池化显存(复杂但支持更大模型)。
💬 简单来说
把它想象成两台独立的计算机(并排)vs 一台共享的超级计算机(NVLink)。并排更易设置;共享为超大模型提供更多动力。
- 1并排(无NVLink): 每个GPU独立运行。GPU 0上的模型A,GPU 1上的模型B。最适合异构工作负载(7B微调 + 70B服务)。
- 2NVLink桥: 融合显存(48GB显示为单个48GB池)。启用更大的批次大小或大规模上下文窗口。成本:$200–300桥 + 设置复杂性。
- 3双GPU推理: 在2个GPU上分片单个70B模型以获得2倍吞吐量(28 tok/s而非14)。需要vLLM或llama.cpp张量并行支持。
•💡 Pro Tip: 异构工作负载跳过NVLink。独立操作更简单、成本低(节省$200)、消除桥固件错误。
•⚠️ Warning: NVLink桥需要NVIDIA专有驱动支持。开源ROCm或AMD等效产品不支持不同GPU之间的桥接。
双RTX 5090 vs 双RTX 4090:性能&价值(2026年4月)
双RTX 4090二手($2,200–2,600)仍是Q4 70B以100 tok/s的价值选择。双RTX 5090新品($4,000)在显存(64GB)和质量(Q8格式)上胜出但成本多$1,400–1,800。 单RTX 5090($2,000新品)以无复杂性的40–50 tok/s处理70B Q4。
| 配置 | 显存 | 70B速度 | 成本 |
|---|---|---|---|
| 双RTX 4090(二手) | 48 GB | 100 tok/s(Q4) | $2,200–2,600 |
| 单RTX 5090(新品) | 32 GB | 40–50 tok/s(Q4) | $2,000 |
| 双RTX 5090(新品) | 64 GB | 120 tok/s(Q4) | $4,000 |
•💡 Pro Tip: 用于Q4 70B推理最大吞吐量:双4090二手($2,200–2,600)在2026年4月提供最佳70B价值。新5090成本高50%以上。
•📌 Key Point: 双5090在Q8 70B(更高输出质量)或未来防护中胜出。单5090消除独立用户的双GPU复杂性。
如何冷却1,200W的热量?
RTX 4090(450W)+ RTX 4090(450W)+ CPU(200W)= 1,100W持续,峰值至1,300W。
- 自定义液冷环路: $1,500–2,500。CPU水冷块 + GPU水冷块 + 360mm散热器。GPU <75°C,CPU <80°C。
- 双360mm AIO: $600–900。每个GPU一个AIO + 单独的CPU冷却器。比自定义环路更模块化,维护更简单。
- 空气冷却: 不可行。在持续70B推理下保证热节流。
•🛠️ Best Practice: 使用5+ W/mK导热性的导热膏(Noctua NT-H2、Corsair TM30)。廉价膏会增加10–15°C并使GPU保修失效。
如何选择正确的电源和电气设置?
双4090s(900W持续,1,300W峰值)需要最少2000W电源 — 更少的会导致电压下垂和负载下崩溃。 您可以选择单个2000W电源或双1200W电源实现冗余,但必须验证您的家庭/办公电路能处理峰值2000W。
- 选项1:单个2000W电源: Seasonic、Corsair或EVGA 80+ Platinum。更清洁的线路走向,单点故障。
- 选项2:双1200W电源: 每个GPU一个 + 共享主板。冗余性(一个故障,推理继续50%速度)。复杂设置。
- 容量规则: 2000W用于双4090最小。更少会在负载下导致电压下垂。
- 电路规划: 双GPU设备峰值消耗2000W。确保20A电路(典型家庭/办公120V 15A插座不足)。如果可用,使用专用240V线路。
•⚠️ Warning: 家庭插座通常是120V 15A(1,800W最大)。双4090设备会跳闸。安装专用240V 20A电路(电工费$200–400)。
•📌 Key Point: 始终使用模块化电源。双GPU有数十个电源针脚;非模块化线路因多针连接器接触电阻造成火灾隐患。
期望什么样的多用户推理性能?
配备128GB RAM和双4090s,您可以同时为2–3个70B用户提供14 tok/s服务,或为8+个7B用户各提供30+ tok/s。 下列基准假设Q4量化和vLLM多用户调度:
- 单用户、70B模型: 28个令牌/秒(通过张量并行每个GPU 2× 14 tok/s)。
- 两个并发用户、各70B: 14个令牌/秒/用户(请求时分复用)。
- 四个并发用户、各7B: 120个令牌/秒总计(每个用户30 tok/s)。
- 7B LoRA微调 + 70B服务: GPU 0微调(100W)、GPU 1推理(450W)。无干扰。
工作站构建常见错误有哪些?
- 购买两个不同的GPU型号(5090 + 4090)。不对称导致负载平衡问题。坚持使用相同的卡。
- 省钱跳过电源购买。1500W电源 + 双4090s在负载下会节流或崩溃。
- 使用空气冷却而非液冷。热节流在持续推理中削减30–50%吞吐量。
- 在TCO计算中忽视电力成本。 双RTX 4090s持续推理消耗900W。以美国平均值($0.14/kWh)24/7运行:约$1,100/年电费。3年:$3,300–7,500仅电力。将此纳入ROI vs 云API决定。
- 低估多用户设置的网络。 标准千兆以太网(1Gbps = 125 MB/s)是5+并发用户长上下文响应的瓶颈。升级到2.5 Gbps或10 Gbps以太网用于为团队服务的生产工作站。成本:NIC + 交换机$200–400。
•⚠️ Warning: 不匹配的GPU(不同型号或显存大小)破坏张量并行。vLLM会回退到单GPU推理,吞吐量减半。
•💡 Pro Tip: 购买经过验证的二手RTX 4090对(前所有者确认配对)而非新单卡。节省$500–800并避免硬件彩票。
常见问题解答
•🔍 Did You Know?: 双RTX 4090全推理负载消耗900W持续。电费账单:美国平均值($0.14/kWh)24/7运行约$1,100/年。
Threadripper CPU是否必需,还是可以使用Ryzen 9?
仅推理:Ryzen 9工作得很好。推理 + 并行微调:Threadripper的额外核心(32 vs. 16)至关重要。
应该使用NVLink融合两个4090吗?
可选。如果在每个GPU上运行单独的模型(7B + 70B),请跳过。如果在两个GPU上分片单个70B以获得更高的批次大小,请使用。
双4090设备能处理多少并发用户?
70B:2–3个用户(每个14 tok/s)。7B:8+个用户(每个30+ tok/s)。
我能升级到RTX 5090而不是双4090吗?
单5090:性能类似双4090,显存一半(24GB vs. 48GB),$1,999。双5090:$4,000(过度,更差价值)。
$5,000工作站vs云LLM API的ROI是什么?
云端:$0.001每1K令牌。工作站:$5,000分摊2年 = $2,500/年,约$0.000001每令牌。在2.5B令牌/年(轻度使用)时收支平衡。
工作站是否需要数据中心冷却?
不需要。消费级液冷(2× 360mm AIO或自定义环路)足够。数据中心冷却(行内、顶部)设计用于密度;单个工作站的1,200W适合办公HVAC。
应该等待RTX 6090而不是现在购买双4090吗?
NVIDIA RTX 60系列基于历史2年刷新周期预期于2026年末至2027年推出。如果现在需要工作站:双RTX 4090二手($2,200–2,600)在2026年4月提供最佳70B推理价值。如果能等12–18个月:RTX 6090可能具有48GB显存单卡,完全消除双GPU需求。
双4090工作站的噪音级别是多少?
持续70B推理:自定义液冷时1米处50–60 dB。相当于正常办公室对话。双360mm AIO:55–65 dB(负载下听觉上更大)。空气冷却:65–75 dB(大声,办公室使用不实用)。桌边放置:自定义环路或安静AIO至关重要。服务器室放置:噪音无关。
在中国使用本地LLM时,数据安全法合规性如何?
中国2021年《数据安全法》要求敏感数据不跨越国界。本地推理(Ollama、LM Studio、llama.cpp)完全满足第37条。金融、医疗、能源等关键行业偏好本地AMD ROCm部署以实现数据主权。PromptQuorum连接完全本地推理端点,无第三方云。
亚太地区多国数据驻地合规性如何?
日本(METI)、新加坡(PDPA)、韩国(PIPA)、越南等地都强制执行数据驻地。本地工作站满足所有地区监管。跨国企业(银行、制药、制造)在亚太子公司可使用单一本地部署满足多国要求,无云锁定或跨境数据问题。ROI:多年成本相比云API节省数百万美元。
信息来源
- PCPartPicker — Threadripper、RTX 4090/5090和DDR5 RAM的实时组件定价(2026年4月)。
- TechPowerUp CPU数据库 — Threadripper 7970X官方功耗和核心数规格。
- NVIDIA NVLink文档 — 内存池化和双RTX卡张量并行的官方NVLink规格。
- vLLM分布式服务 — 消费级硬件上70B模型的多GPU张量并行配置。