运行本地LLM耗电量巨大。RTX 4090满载575W（需1200W电源，¥30/kWh时月成本约¥5,200或$52）、RTX 5090 575W搭32GB GDDR7 VRAM。Apple M5 Max仅用30W运行7B模型——能效是NVIDIA的10倍。2026年4月，理解功耗需求对防止硬件损伤、规划电力成本至关重要，涉及中国、亚太、美国等市场。

关键要点

RTX 4090峰值功耗：575W（GPU单独）
所需电源：RTX 4090系统1200W
24/7成本：$52/月（$0.12/kWh时，RTX 4090）
Apple M5 Max总功耗：25～35W
效率比：M5 Max每token能效是RTX 4090的10倍
GPU安全温度：83°C以下可24小时推理

LLM推理中各GPU的功耗是多少？

RTX 4090和RTX 5090都是575W，是本地LLM最高阶级。 GPU功耗是电源选择和电费的支配因素。

GPU	功耗	闲置	电源
Apple M5 Pro（GPU）	20～28W	2～5W	Macbook Pro内置
Apple M5 Max（GPU）	25～35W	3～8W	Macbook Pro内置
RTX 4070	200W	8～10W	650W
RTX 5070	250W	12～15W	800W
RTX 4070 Ti	285W	15～20W	750W
RTX 4080	320W	20～25W	850W
AMD RX 7900 XTX	355W	25～30W	850W
RTX 5080	360W	28～35W	1000W
RTX 4090	575W	40～50W	1200W
RTX 5090	575W	45～55W	1200W以上

本地LLM电脑的总功耗是多少？

RTX 4090系统总功耗：约895～945W。 GPU占总功耗60～65%，剩余35～40%来自CPU、主板、RAM、存储、冷却风扇。

从GPU单独功耗估算，加上20～30%的系统开销。RTX 4090单独575W，但整个系统可达600～650W。

部件	功耗	GPU占比
RTX 4090 GPU	575W	63%
CPU（Ryzen 5950X）	105W	11%
主板 + RAM + 存储	60W	7%
PCIe 风扇 + 冷却	40W	4%
电源效率损失（90%）	50W	5%
总系统	830W	100%

24/7运行本地LLM的电力成本？

RTX 4090系统月成本：$52～$80（因地区电价而异）。 美国平均$0.12/kWh，亚太$0.15～0.25/kWh。

GPU / 系统	日成本	月成本	年成本
RTX 4070（$0.12/kWh）	$0.48	$14.40	$172.80
RTX 4080（$0.12/kWh）	$0.77	$23.04	$276.48
RTX 4090（$0.12/kWh）	$1.00	$29.76	$357.12
RTX 4090（$0.15/kWh）	$1.25	$37.50	$450.00
Apple M5 Max Mac（$0.12/kWh）	$0.07	$2.16	$25.92

LLM推理需要什么冷却？

RTX 4090推理：120mm × 2风扇空冷或液冷理想。 GPU温度保持75°C以下需要充分的机箱气流。

热节流：83°C以上时GPU速度下降10～20%。 长时间推理时，主动冷却（液冷或高端空冷）目标保持65～75°C。

风扇噪音：空冷50～60dB（标准）或35～45dB（液冷）。 Apple M5 Max无冷却风扇，完全无声，25～35W发热量最小。

快速事实

RTX 4090峰值：575W
所需电源：1200W
24/7月成本：$52～$80（因电价而异）
Apple M5 Max总功耗：25～35W
效率优势：M5 Max每token能效高出RTX 4090约10倍
安全温度：24小时推理时83°C以下

常见功耗与冷却错误

电源容量不足。 RTX 4090配750W电源危险。峰值脉冲可达900W以上，最少1000W，建议1200W。
无冷却24小时运行。 无风扇或气流不足时，温度达83°C以上，导致GPU降速。加2个PCIe风扇可降低温度10～15°C。
全功率无限制运行。 RTX 4090限制350W（575W的40%削减）时，推理速度仅下降约10%，月成本削减40%。
误解空闲功耗。 本地LLM空闲功耗40～50W，但推理时飙升至575W，系统整体冷却设计至关重要。
使用老旧电源。 2015～2018年电源效率80～85%。2024年Platinum/Titanium电源90%以上，同功耗下热量少15～20%。

地区功耗与合规性

中国（数据安全法）： 中国2021年《数据安全法》要求敏感数据本地存储。本地LLM推理符合法规，Qwen2.5等国产模型可与本地推理结合确保数据不出境。金融、医疗、政府部门部署本地LLM可避免美国技术依赖和数据泄露风险。

亚太地区（数据跨境）： 新加坡、日本、澳洲等国有数据跨境限制。本地推理基础设施在本地部署时，满足跨境合规要求。ASEAN范围内，印度尼西亚、泰国等国推动数据国内保存，本地LLM是合规部署的唯一选择。

企业部署（金融、医疗、法律）： 银行需满足PCI-DSS（支付卡行业数据安全标准），医疗机构需HIPAA等级数据保护，法律事务所需审计日志完整。本地推理+RTX 4090提供完整审计、加密、访问控制，成本月仅$50，云API成本$1000+，合规成本削减20倍。

常见问题

RTX 4090的实际功耗是多少？

RTX 4090 TDP为575W，实际推理时可达600W。基础时钟2.23GHz，加速时钟2.5GHz，推理负载使GPU运行在90～100%。电源设计建议1200W PSU。

功率限制如何影响推理速度？

RTX 4090限制350W（削减40%）时，推理速度下降约10%。月电成本从$52降至$31，节省40%。24小时连续推理时，功率限制成为权衡选项。

Apple Silicon M5 Max真的比NVIDIA效率高10倍？

是的。M5 Max（128GB统一内存，2026年3月）在25～35W下运行7B模型达65～85 tok/sec。RTX 4090在600W下相同模型达150 tok/sec。M5 Max每token能效约高10倍，加上128GB > 32GB VRAM优势。

24小时GPU推理会损伤显卡吗？

不会。GPU设计可承受100%负载24/7，但冷却至关重要。真正风险：不足冷却（热节流）、低瓦数电源尖峰（断电）、风扇故障（过热）。适当冷却和电源条件下，GPU寿命5年以上。

RTX 4090需要多少瓦电源？

最少1000W，建议1200W。RTX 4090（575W）+ CPU（150～170W）+ 主板/RAM/存储（100W）+ 冷却（50W）+ 效率损失（20%） = 约900W峰值。750W + RTX 4090组合在持续推理中断电风险高。

GPU温度监控怎么做？

用`nvidia-smi -q -d TEMPERATURE`持续监控。本地LLM推理长期90～100% GPU使用，温度会持续上升。83°C触发热节流。理想运行范围：65～75°C（冷却系统有效）。

空冷 vs 液冷：选哪个？

空冷：$200～700、安装简易、30～40dB。液冷：$1000～2000、温度低10～15°C、35～45dB。本地LLM 24/7运行时，液冷长期可靠性更优，电力效率也提升5～10%。

添加冷却风扇会增加功耗吗？

略有增加。1～2个PCIe风扇额外消耗15～30W。但GPU温度下降10～15°C，GPU时钟保持稳定，推理速度提升5～10%，整体电力效率改善。

TDP和实测功耗的区别？

TDP（热设计功耗）=最大散热=峰值功耗。NVIDIA RTX 4090 TDP为575W，但实际时钟和负载下550～600W浮动。推理运行90～100% GPU，实测接近TDP。

怎样削减电力成本？

RTX 4090月成本$52可通过：(1) 350W功率限制削减40%、(2) 定时运行（24/7改8h/day削减67%）、(3) 迁移至M5 Max削减90%、(4) 仅在低峰电价时段运行（因地区而异）。

参考资源

NVIDIA GPU功耗规格 — RTX 4090、RTX 5090 TDP和推荐电源
美国电力平均价格 — 全国$0.12/kWh平均
nvidia-smi温度监控 — GPU实时温度
亚太地区电力成本对比 — 地区功耗和电费基准

本地LLM功耗与冷却指南2026：RTX 4090、RTX 5090、M5 Max对比

演示文稿: 本地LLM功耗与冷却指南2026：RTX 4090、RTX 5090、M5 Max对比

LLM推理中各GPU的功耗是多少？

本地LLM电脑的总功耗是多少？

24/7运行本地LLM的电力成本？

LLM推理需要什么冷却？

快速事实

常见功耗与冷却错误

地区功耗与合规性

常见问题

RTX 4090的实际功耗是多少？

功率限制如何影响推理速度？

Apple Silicon M5 Max真的比NVIDIA效率高10倍？

24小时GPU推理会损伤显卡吗？

RTX 4090需要多少瓦电源？

GPU温度监控怎么做？

空冷 vs 液冷：选哪个？

添加冷却风扇会增加功耗吗？

TDP和实测功耗的区别？

怎样削减电力成本？

参考资源

A Note on Third-Party Facts

本地LLM功耗与冷却指南2026：RTX 4090、RTX 5090、M5 Max对比

演示文稿: 本地LLM功耗与冷却指南2026：RTX 4090、RTX 5090、M5 Max对比

LLM推理中各GPU的功耗是多少？

本地LLM电脑的总功耗是多少？

24/7运行本地LLM的电力成本？

LLM推理需要什么冷却？

快速事实

常见功耗与冷却错误

地区功耗与合规性

常见问题

RTX 4090的实际功耗是多少？

功率限制如何影响推理速度？

Apple Silicon M5 Max真的比NVIDIA效率高10倍？

24小时GPU推理会损伤显卡吗？

RTX 4090需要多少瓦电源？

GPU温度监控怎么做？

空冷 vs 液冷：选哪个？

添加冷却风扇会增加功耗吗？

TDP和实测功耗的区别？

怎样削减电力成本？

相关阅读

参考资源

A Note on Third-Party Facts