Key Takeaways
- RTX 4090: 575W. Requiere fuente de 1200W y excelente flujo de aire en el chasis.
- RTX 4080: 320W. Requiere fuente de 850W y buen flujo de aire.
- RTX 4070 Ti: 290W. Requiere fuente de 750W y flujo de aire adecuado.
- M5 Max Mac: 25–35W para inferencia (extremadamente eficiente).
- Costo de funcionamiento 24/7: RTX 4090 = $50–70/mes, RTX 4070 Ti = $20–25/mes.
- A partir de abril de 2026, la refrigeración es crítica. El flujo de aire deficiente reduce la vida útil y limita el rendimiento.
¿Cuánta energía consume cada GPU en inferencia LLM?
La RTX 4090 y la RTX 5090 consumen 575W a plena carga — el nivel más alto disponible para LLMs locales. El consumo de energía de la GPU es el factor dominante en la elección de la fuente y en la factura eléctrica.
Nota: La RTX 4090 de NVIDIA tiene un TDP base de 450W, pero la inferencia en el mundo real puede alcanzar 575W bajo carga sostenida. La RTX 5090 viene con TDP nativo de 575W. La AMD RX 7900 XTX es la GPU discreta no NVIDIA más potente para LLMs locales con 355W y 24 GB de VRAM. Apple M5 Max consume 10× menos energía por token que la RTX 4090 — la opción más eficiente para inferencia sostenida 24/7.
| GPU | Consumo | Reposo | Fuente |
|---|---|---|---|
| RTX 5090 | 575W | 20W | 1200W+ |
| RTX 4090 | 450W (575W máx) | 10W | 1200W+ |
| RTX 5080 | 360W | 15W | 1000W |
| RTX 4080 | 320W | 8W | 850W+ |
| RTX 5070 | 250W | 12W | 800W |
| RTX 4070 Ti | 285W | 7W | 750W+ |
| RTX 4070 | 200W | 6W | 650W |
| AMD RX 7900 XTX | 355W | 25W | 850W |
| Apple M5 Max (GPU) | 25–35W | 1W | Integrada |
| Apple M5 Pro (GPU) | 20–28W | 1W | Integrada |
⚠️Warning: TDP de la RTX 5090: NVIDIA la califica en 575W, pero los picos en el mundo real pueden alcanzar 600W+ dependiendo de la configuración del límite de potencia.
¿Cuánta energía consume en total un PC LLM local?
La GPU no es el único consumidor de energía. Ten en cuenta también la CPU, la RAM, el almacenamiento y la placa base:
| Componente | Consumo | Notas |
|---|---|---|
| GPU (RTX 4090) | 575W | Picos al 100% de utilización |
| CPU (Ryzen 9 7950X) | 170W | Bajo carga |
| Placa base + RAM + SSD | 100W | Típico |
| Ventiladores de refrigeración, margen fuente | 50–100W | Margen de seguridad |
| Carga total del sistema | ~895–945W | Requiere fuente de 1200W como mínimo |
•Keypoint: La GPU representa el 60–65% del consumo total del sistema. CPU, refrigeración y consumo adicional conforman el 35–40% restante.
¿Cuánto cuesta ejecutar un LLM local 24/7?
Suponiendo $0.12/kWh (promedio EE.UU.):
kWh (kilovatio-hora): Mil vatios de potencia utilizados durante una hora. A $0.12/kWh, ejecutar una RTX 4090 de 600W durante 24 horas consume 14.4 kWh, con un costo de $1.73/día.
| GPU | Costo diario | Mensual | Anual |
|---|---|---|---|
| RTX 4090 (600W prom) | $1.73 | $52 | $625 |
| RTX 4080 (350W prom) | $1.01 | $30 | $360 |
| RTX 4070 Ti (300W prom) | $0.86 | $26 | $315 |
| M5 Max Mac (30W prom) | $0.09 | $2.60 | $32 |
💡Tip: Limitar la potencia de la RTX 4090 a 350W ahorra un 40% de electricidad con apenas un ~10% de pérdida de velocidad — el punto óptimo para inferencia eficiente a escala.
¿Qué refrigeración necesitas para inferencia LLM local?
Una refrigeración adecuada es crítica para la vida útil de la GPU (5+ años) y para evitar el throttling térmico.
Flujo de aire adecuado en el chasis: Los ventiladores frontales aspiran aire frío, los traseros/superiores expulsan el aire caliente. La RTX 4090 necesita un chasis amplio con 3+ ventiladores.
Temperatura ambiente: Idealmente 18–24°C. En climas cálidos (30°C+), la refrigeración se vuelve crítica.
Pasta térmica: Reemplaza cada 2–3 años para una transferencia de calor óptima (si aplica).
Monitoreo: Usa GPU-Z o nvidia-smi para monitorear temperaturas. Mantén por debajo de 80°C de forma sostenida.
Throttling térmico: Reducción automática de la velocidad de reloj cuando la GPU detecta temperaturas inseguras, protegiendo el chip de daños por calor a costa de la velocidad de inferencia.
⚠️Warning: La GPU hace throttling por encima de 83°C — el rendimiento cae entre un 10–20%. Un flujo de aire deficiente causa throttling sostenido incluso a 75°C en habitaciones calurosas.
🛠️Practice: Usa `nvidia-smi -q -d TEMPERATURE` para monitorear continuamente la temperatura de la GPU. Configura alertas a 75°C para prevenir el throttling.
Datos rápidos
- Consumo pico de la RTX 4090: 575W (solo GPU)
- Fuente requerida: 1200W para sistema con RTX 4090
- Costo 24/7 a $0.12/kWh: ~$52/mes (RTX 4090)
- Consumo total del Apple M5 Max: 25–35W
- Ratio de eficiencia: M5 Max usa ~10× menos energía por token que la RTX 4090
- Temperatura segura de GPU: Mantener por debajo de 83°C para inferencia sostenida
💡Tip: Apple Silicon vs NVIDIA: ganador en eficiencia. M5 Max alcanza 65–85 tok/seg — 4× más rápido que la generación M4 con la misma potencia de solo 25–35W, mientras que la RTX 4090 requiere 600W para 150 tok/seg en el mismo modelo.
Errores comunes de energía y refrigeración
- Subdimenionar la fuente de alimentación. La RTX 4090 con una fuente de 750W provocará apagados bajo carga. Siempre presupuesta el doble del consumo de la GPU.
- Ignorar el flujo de aire del chasis. El flujo de aire deficiente causa throttling térmico (~10% de pérdida de rendimiento) y acorta la vida útil de la GPU.
- Ejecutar 24/7 sin considerar los costos. La RTX 4090 cuesta $50/mes en electricidad. No es práctico para uso personal a menos que uses la inferencia constantemente.
- No monitorear la temperatura de la GPU. Las tarjetas pueden sufrir throttling silencioso debido al estrés térmico. Monitorea con nvidia-smi.
- Olvidar el gasto de refrigeración en los cálculos de TCO. La refrigeración es el segundo mayor costo después de la propia GPU. Ejecutar una configuración de doble GPU en un clima cálido (30°C+ ambiente) requiere ~$200–400/año en costos adicionales de aire acondicionado para mantener una temperatura ambiente de 22°C. Apple Silicon elimina esto: M5 Max consume 30W y produce calor mínimo, sin necesidad de refrigeración adicional.
⚠️Warning: 750W de fuente + RTX 4090 = apagados aleatorios bajo inferencia sostenida. Los picos de potencia reales superan la capacidad de la fuente, lo que provoca un apagado automático para proteger los componentes.
Costos de electricidad por región
UE (Alemania/Francia): €0.30–0.40/kWh — 3× el promedio de EE.UU. Ejecutar una RTX 4090 24/7 cuesta €120–160/mes en Alemania. El RGPD fomenta el despliegue en las instalaciones, pero los costos de energía hacen que Apple Silicon o la inferencia GPU con límite de potencia sean esenciales para usuarios de la UE.
Japón: ¥27–30/kWh (~$0.18–0.20/kWh). Los costos de energía son entre un 50–70% más altos que el promedio de EE.UU. Las directrices de eficiencia de IA del METI de 2024 favorecen el hardware eficiente energéticamente para despliegues corporativos.
China: ¥0.5–0.8/kWh ($0.07–0.11/kWh) en ciudades del este. Los costos de electricidad más bajos favorecen los despliegues de GPU NVIDIA. Los requisitos de la Ley de Seguridad de Datos de China hacen que la inferencia en las instalaciones sea común en empresas.
Preguntas frecuentes sobre energía y refrigeración
🔍Insight: La inferencia con límite de potencia al 60% del TDP es una práctica habitual en centros de datos. La RTX 4090 a 350W (60% de 575W) ofrece el 90% del rendimiento máximo con un 40% menos de costos de electricidad y menor carga de refrigeración.
¿Cuánta energía consume ejecutar un LLM local?
El consumo de energía depende del nivel de GPU. RTX 4090: 575W pico (600W promedio con el sistema). RTX 4080: 320W GPU (450W sistema). RTX 4070 Ti: 290W GPU (400W sistema). Apple M5 Max Mac: 25–35W en total — la opción más eficiente energéticamente con diferencia. Las cargas de inferencia utilizan la GPU al 90–100% de uso de forma continua.
¿Cuánto cuesta ejecutar un LLM local 24/7?
A $0.12/kWh (promedio EE.UU.): el sistema RTX 4090 cuesta ~$52/mes. Sistema RTX 4080: ~$30/mes. Sistema RTX 4070 Ti: ~$26/mes. Apple M5 Max Mac: ~$2.60/mes. Las tarifas eléctricas varían — en Alemania (~$0.40/kWh), multiplica por 3×. Ejecutar la inferencia solo durante el horario laboral (8h/día) reduce los costos en ~67%.
¿Qué potencia de fuente necesito para una RTX 4090?
Mínimo 1000W; 1200W recomendado. La RTX 4090 consume 575W en el pico. Suma CPU (150–170W), placa base/RAM/almacenamiento (100W) y un margen de seguridad del 20% — la carga total del sistema alcanza ~900W. Una fuente de 750W provocará apagados bajo carga de inferencia LLM sostenida. Compra siempre de marcas de fuente reconocidas (Seasonic, Corsair, EVGA).
¿Es Apple Silicon más eficiente que NVIDIA para LLMs locales?
Sí — por un margen amplio. M5 Max (128 GB unificada, mar 2026) ejecuta modelos 7B a 65–85 tok/seg con 25–35W de potencia total del sistema. Una RTX 4090 ejecuta el mismo modelo a 150 tok/seg con 600W. M5 Max usa ~10× menos energía por token que la RTX 4090, además de ofrecer un pool de memoria 4× mayor (128 GB vs 32 GB) para modelos 70B.
¿Qué temperatura de GPU es segura para inferencia LLM sostenida?
Mantén la temperatura de la GPU por debajo de 83°C para inferencia sostenida. El throttling térmico de la RTX 4090 se activa a 83°C, reduciendo las velocidades de reloj y la velocidad de inferencia entre un 10–20%. Rango de operación ideal: 65–75°C. Usa `nvidia-smi -q -d TEMPERATURE` para monitorear. Si las temperaturas superan los 80°C, mejora el flujo de aire del chasis o añade/reemplaza la pasta térmica.
¿Cómo reduzco el consumo de energía sin perder velocidad de inferencia?
Limita la potencia de la GPU (NVIDIA) sin reducir las velocidades de reloj. RTX 4090: establecer el límite de potencia en 350W (desde 575W) reduce la potencia un 40% con solo ~10% de pérdida de velocidad — el punto óptimo para inferencia eficiente. Usa `nvidia-smi -pl 350` para establecer el límite de potencia. Los usuarios de Apple Silicon no necesitan ajuste, el hardware ya está optimizado.
¿Qué es el TDP y por qué importa para LLMs locales?
TDP (Thermal Design Power) es el calor máximo que genera una GPU a carga máxima, medido en vatios. NVIDIA califica el TDP de la RTX 4090 en 575W, pero la inferencia real puede alcanzar 600W+ dependiendo de los límites de potencia y las velocidades de reloj. El TDP importa porque determina el tamaño mínimo de tu fuente y los requisitos de refrigeración. Mayor TDP = fuente más grande, mayor costo de electricidad, más refrigeración necesaria.
¿Ejecutar un LLM local daña mi GPU?
No — la inferencia sostenida no dañará una GPU en buen estado si la refrigeración es adecuada. Las GPU están diseñadas para funcionar al 100% de uso 24/7 (los centros de datos lo hacen). Los riesgos reales son: (1) la mala refrigeración causa throttling y acorta la vida útil, (2) los picos de potencia de una fuente subdimensionada pueden provocar apagados, (3) el polvo/flujo de aire deficiente degrada el rendimiento con los años. Monitorea las temperaturas y mantén un buen flujo de aire, y tu GPU durará 5+ años.
Fuentes
- Especificaciones de potencia GPU NVIDIA
- Tarifas de electricidad en EE.UU. — U.S. Energy Information Administration
- Monitoreo de temperatura GPU con nvidia-smi
- La eficiencia energética gana velocidad, pero la velocidad no garantiza calidad de salida. Los ajustes de temperatura y muestreo pueden compensar el consumo de energía con mejores resultados: temperatura y top-p explica cómo estos parámetros equilibran velocidad y consistencia.