Key Takeaways
- CPU: Threadripper 7970X (32 núcleos, $2,499) o Intel Xeon W9-3495X ($5,000+). Permite ajuste fino paralelo mientras se sirve inferencia.
- GPU: 2× RTX 4090 24GB (par usado ~$2,200–2,600). 48GB de VRAM total para 70B multiusuario o 70B único + tareas de preparación.
- RAM: 128GB DDR5 ($600–800). Soporta 8+ usuarios concurrentes en 70B o usuario único 70B + cuantización en paralelo.
- Almacenamiento: 4–8TB NVMe SSD + 12–24TB HDD ($800–1,500). Biblioteca multimodelo + copias de seguridad + datasets de entrenamiento.
- Fuente de alimentación: 2× 1200W o 1× 2000W ($800–1,200). El par de 4090 consume 900W sostenido; el margen para picos es esencial.
- Refrigeración: Circuito líquido personalizado o AIO dual ($1,000–2,000). GPU grande + CPU = 1,200W de salida térmica.
- Red: Ethernet 10Gbps opcional ($200–400). Acceso multiusuario por LAN sin cuellos de botella.
- Total: $4,000–6,000. Soporta 8+ usuarios 70B concurrentes o 1 usuario con ajuste fino + servicio simultáneo.
¿Quién necesita una estación de trabajo de $4K–6K?
Este nivel es para:
- PYMEs/Empresas: Ejecutar una API LLM interna para 5+ empleados simultáneamente. Se requiere control de datos en instalaciones propias.
- Investigadores de IA: Ajuste fino de modelos grandes (70B LoRA) mientras se sirve inferencia al equipo. Un equipo de $2K no puede paralelizar.
- Ingenieros de MLOps: Construir clusters de inferencia internos. Comenzar con una estación de trabajo como nodo servidor.
- Estudios de contenido (serio): Ejecutar subtitulado de video 24/7, generación de código, resumen sin costos de API.
¿Cuál es la lista de componentes de la estación de trabajo?
Una estación de trabajo profesional comienza con RTX 4090 duales ($2,200–2,600 para par usado) y una CPU Threadripper ($2,800–3,200), junto con 128GB de RAM DDR5 y refrigeración líquida personalizada. Esta es la lista completa de componentes y desglose de costos:
| Componente | Modelo | Precio (Abril 2026) | Notas |
|---|---|---|---|
| GPU | 2× RTX 4090 24GB (usado) | $2,200–2,600 | Puentes NVLink opcionales. Prueba ambas tarjetas antes de emparejar. |
| CPU | Threadripper 7970X (32 núcleos) | $2,400–2,500 | Permite 32 núcleos paralelos para ajuste fino mientras se sirve inferencia en ambas GPUs. |
| Placa base | TRX850 o Xeon W90 | $400–800 | Soporte para GPU dual, PCIe 5.0, suministro de energía de nivel empresarial. |
| RAM | 128GB DDR5 6000 MHz | $600–800 | Corsair Dominator Platinum. Soporta 8+ usuarios concurrentes. |
| Almacenamiento | 4TB NVMe + 12TB HDD | $800–1,200 | NVMe para modelos activos, HDD para copias de seguridad y datasets. |
| Fuente de alimentación | 2000W 80+ Platinum o 2× 1200W | $1,000–1,500 | Dual 4090s = 900W sostenido, necesitan margen de 2000W+. |
| Refrigeración | Circuito personalizado o 2× AIO 360mm | $1,500–2,500 | CPU + 2 GPUs = 1,200W de calor. La refrigeración por aire es insuficiente. |
| Carcasa | Lian Li O11 Dynamic o Corsair Crystal | $200–300 | Soporta GPU dual + AIO grande o circuito. |
| Total | -- | $4,000–6,000 | Varía con los precios de mercado de GPU y la elección de refrigeración. |
¿Cómo configurar GPUs duales para máximo rendimiento?
Dos RTX 4090 te dan 48GB de VRAM y ~2× el rendimiento de inferencia. Tienes tres opciones de configuración: operación independiente en paralelo, fusión NVLink para VRAM unificada, o paralelismo tensorial para aceleración de modelo único.
Las GPUs duales ejecutan modelos independientes por tarjeta (más simple) o agrupan su VRAM mediante NVLink (complejo pero permite modelos más grandes).
Piénsalo como dos computadoras separadas (en paralelo) vs. una supercomputadora compartida (NVLink). En paralelo es más fácil de configurar; compartida da más potencia para modelos enormes.
- 1En paralelo (sin NVLink): Cada GPU funciona de forma independiente. Modelo A en GPU 0, Modelo B en GPU 1. Mejor para cargas de trabajo heterogéneas (ajuste fino 7B + servicio 70B).
- 2Puente NVLink: Fusionar VRAM (48GB aparece como un único pool de 48GB). Permite tamaños de lote más grandes o ventanas de contexto masivas. Costo: $200–300 por el puente + complejidad de configuración.
- 3Inferencia GPU dual: Dividir un único modelo 70B en 2 GPUs para 2× el rendimiento (28 tok/s en lugar de 14). Requiere soporte de tensor-parallel de vLLM o llama.cpp.
•💡 Pro Tip: Omite NVLink para cargas de trabajo heterogéneas. La operación independiente es más simple, de menor costo ($200 ahorrados) y elimina errores de firmware del puente.
•⚠️ Warning: El puente NVLink requiere soporte del driver propietario de NVIDIA. ROCm de código abierto o equivalentes AMD no soportan la conexión entre GPUs diferentes.
Dual RTX 5090 vs Dual RTX 4090: Rendimiento y Valor (Abril 2026)
Dual RTX 4090 usado ($2,200–2,600) sigue siendo la opción de valor para Q4 70B a 100 tok/s. Dual RTX 5090 nuevo ($4,000) gana por mayor VRAM (64 GB) y calidad (formato Q8) pero cuesta $1,400–1,800 más. Single RTX 5090 ($2,000 nuevo) maneja 70B Q4 a 40–50 tok/s sin la complejidad del dual.
| Configuración | VRAM | Velocidad 70B | Costo |
|---|---|---|---|
| Dual RTX 4090 (usado) | 48 GB | 100 tok/s (Q4) | $2,200–2,600 |
| Single RTX 5090 (nuevo) | 32 GB | 40–50 tok/s (Q4) | $2,000 |
| Dual RTX 5090 (nuevo) | 64 GB | 120 tok/s (Q4) | $4,000 |
•💡 Pro Tip: Para inferencia Q4 70B con máximo rendimiento: dual 4090 usado ($2,200–2,600) ofrece el mejor valor en abril de 2026. Las nuevas 5090 cuestan un 50%+ más.
•📌 Key Point: Dual 5090 gana para Q8 70B (mayor calidad de salida) o preparación para el futuro. Single 5090 elimina la complejidad de GPU dual para usuarios individuales.
¿Cómo refrigerar 1,200 W de calor?
RTX 4090 (450W) + RTX 4090 (450W) + CPU (200W) = 1,100W sostenido, picos de hasta 1,300W.
- Circuito líquido personalizado: $1,500–2,500. Bloque de agua CPU + bloques de agua GPU + radiador 360mm. Mantiene GPUs <75°C, CPU <80°C.
- AIO dual 360mm: $600–900. Un AIO por GPU + enfriador CPU separado. Más modular, mantenimiento más sencillo que el circuito personalizado.
- Refrigeración por aire: No viable. El throttling térmico está garantizado en inferencia 70B sostenida.
•🛠️ Best Practice: Usa pasta térmica con conductividad 5+ W/mK (Noctua NT-H2, Corsair TM30). La pasta barata puede añadir 10–15°C a las temperaturas y anular la garantía de la GPU.
¿Cuál es la fuente de alimentación y configuración eléctrica correcta?
Las 4090 duales (900W sostenido, picos de 1,300W) exigen una fuente de 2000W como mínimo — cualquier cosa menor causa caída de voltaje y bloqueos bajo carga. Puedes elegir una fuente única de 2000W o dos de 1200W para redundancia, pero debes verificar que el circuito eléctrico de tu hogar/oficina pueda manejar 2000W en pico de demanda.
- Opción 1: Fuente única de 2000W: Seasonic, Corsair o EVGA 80+ Platinum. Enrutamiento de cables más limpio, punto único de fallo.
- Opción 2: Fuentes duales de 1200W: Una fuente por GPU + placa base compartida. Redundancia (una falla, la inferencia continúa al 50% de velocidad). Configuración compleja.
- Regla de capacidad: 2000W para GPU dual es el mínimo. Cualquier cosa menor causa caída de voltaje bajo carga.
- Planificación de circuito: Un equipo con GPU dual consume 2000W en pico. Asegúrate de tener un circuito de 20A (el tomacorriente doméstico/de oficina típico es de 15A, insuficiente). Usa una línea dedicada de 240V si está disponible.
•⚠️ Warning: Los tomacorrientes domésticos suelen ser de 15A a 120V (1,800W máximo). Un equipo con dual 4090 disparará el disyuntor. Instala un circuito dedicado de 240V 20A ($200–400 de honorarios de electricista).
•📌 Key Point: Usa siempre fuentes modulares. Las GPUs duales tienen docenas de pines de alimentación; los cables no modulares crean riesgos de incendio por resistencia de contacto en los conectores multipín.
¿Qué rendimiento de inferencia multiusuario puedes esperar?
Con 128GB de RAM y GPUs 4090 duales, puedes servir a 2–3 usuarios 70B concurrentes a 14 tok/s cada uno, u 8+ usuarios 7B concurrentes a 30+ tok/s cada uno. Los siguientes benchmarks asumen cuantización Q4 y vLLM para programación multiusuario:
- Usuario único, modelo 70B: 28 tokens/seg (2× 14 tok/s por GPU mediante paralelismo tensorial).
- Dos usuarios concurrentes, 70B cada uno: 14 tokens/seg por usuario (multiplexación temporal de solicitudes).
- Cuatro usuarios concurrentes, 7B cada uno: 120 tokens/seg total (cada usuario recibe 30 tok/s).
- Ajuste fino 7B LoRA + servicio 70B: Ajuste fino en GPU 0 (100W), inferencia en GPU 1 (450W). Sin interferencia.
¿Cuáles son los errores comunes al construir la estación de trabajo?
- Comprar dos modelos de GPU diferentes (5090 + 4090). La asimetría causa problemas de balanceo de carga. Usa tarjetas idénticas.
- Escatimar en la fuente de alimentación para ahorrar $300. Una fuente de 1500W + GPUs 4090 duales hará throttle o se bloqueará bajo carga.
- Usar refrigeración por aire en lugar de líquida. El throttling térmico reduce el rendimiento un 30–50% en inferencia sostenida.
- Olvidar el costo de electricidad en los cálculos de TCO. Las GPUs RTX 4090 duales en inferencia sostenida consumen 900 W. Al promedio de EE. UU. ($0.14/kWh) funcionando 24/7: ~$1,100/año en electricidad. Promedio europeo (~$0.32/kWh): ~$2,500/año. En 3 años: $3,300–7,500 solo en electricidad. Incluye esto en el ROI frente a decisiones de API en la nube.
- Subestimar la red para configuraciones multiusuario. El Ethernet estándar de gigabit (1 Gbps = 125 MB/s) es el cuello de botella al servir a 5+ usuarios concurrentes con respuestas de contexto largo. Actualiza a Ethernet de 2.5 Gbps o 10 Gbps para estaciones de trabajo en producción que sirven a equipos. Costo: $200–400 por NIC + switch.
•⚠️ Warning: Las GPUs no coincidentes (modelos diferentes o tamaños de VRAM) rompen el paralelismo tensorial. vLLM recurrirá a inferencia en GPU única, reduciendo a la mitad el rendimiento.
•💡 Pro Tip: Compra pares de RTX 4090 usados (verificados funcionando juntos por el propietario anterior) en lugar de tarjetas individuales nuevas. Ahorra $500–800 y evita la lotería del hardware.
Preguntas Frecuentes
•🔍 Did You Know?: Las RTX 4090 duales a plena carga de inferencia consumen 900W sostenidos. Tu factura de electricidad: ~$1,100/año al promedio de EE. UU. ($0.13/kWh) en funcionamiento 24/7.
¿Es necesaria una CPU Threadripper, o puedo usar Ryzen 9?
Solo para inferencia: Ryzen 9 funciona bien. Para inferencia + ajuste fino paralelo: los núcleos extra de Threadripper (64 vs. 16) son esenciales.
¿Debo usar NVLink para fusionar las dos 4090?
Opcional. Omítelo si ejecutas modelos separados en cada GPU (7B + 70B). Úsalo si divides un único 70B entre ambas GPUs para tamaños de lote más grandes.
¿Cuántos usuarios concurrentes puede manejar un equipo dual 4090?
Para 70B: 2–3 usuarios (cada uno recibiendo 14 tok/s). Para 7B: 8+ usuarios (cada uno recibiendo 30+ tok/s).
¿Puedo actualizar a RTX 5090 en lugar de dual 4090?
Single 5090: Rendimiento similar al dual 4090, la mitad de VRAM (24GB vs. 48GB), $1,999. Dual 5090: $4,000 (excesivo, peor valor).
¿Cuál es el ROI de una estación de trabajo de $5,000 vs. la API LLM en la nube?
Nube: $0.001 por 1K tokens. Estación de trabajo: $5,000 amortizado en 2 años = $2,500/año, ~$0.000001 por token. Punto de equilibrio en 2.5B tokens/año (uso ligero).
¿Necesita una estación de trabajo refrigeración de centro de datos?
No. La refrigeración líquida de nivel consumidor (2× AIO 360mm o circuito personalizado) es suficiente. La refrigeración de centro de datos (en fila, elevada) está diseñada para densidad; los 1,200W de una única estación de trabajo caben dentro del HVAC de una oficina.
¿Debo esperar la RTX 6090 en lugar de comprar las 4090 duales ahora?
La serie RTX 60 de NVIDIA se espera para finales de 2026 o 2027 según los ciclos históricos de actualización de 2 años. Si necesitas una estación de trabajo ahora: dual RTX 4090 usado ($2,200–2,600) ofrece el mejor valor para inferencia 70B en abril de 2026. Si puedes esperar 12–18 meses: la RTX 6090 probablemente tenga 48 GB de VRAM en tarjeta única, eliminando por completo la necesidad de GPUs duales.
¿Cuál es el nivel de ruido de una estación de trabajo con dual 4090?
Bajo inferencia 70B sostenida: 50–60 dB a 1 metro con refrigeración líquida personalizada. Comparable a una conversación normal de oficina. Con AIO dual 360mm: 55–65 dB (audiblemente más alto bajo carga). Refrigeración por aire: 65–75 dB (ruidoso, impráctico para uso en oficina). Para colocación junto al escritorio: el circuito personalizado o AIO silencioso es esencial. Para colocación en sala de servidores: el ruido es irrelevante.
Fuentes
- PCPartPicker — Precios de componentes en tiempo real para Threadripper, RTX 4090/5090 y RAM DDR5 a abril de 2026.
- Base de datos CPU TechPowerUp — Especificaciones oficiales de consumo de energía y conteo de núcleos del Threadripper 7970X.
- Documentación NVIDIA NVLink — Especificaciones oficiales de NVLink para agrupación de memoria y paralelismo tensorial en tarjetas RTX duales.
- vLLM Distributed Serving — Configuración de paralelismo tensorial multi-GPU para modelos 70B en hardware de consumo.