Key Takeaways
- macOS (Apple Silicon): Cero costo GPU, Ollama gratuito, maneja Llama 3.1 8B sin problemas. Mejor para usuarios ocasionales o no técnicos.
- Windows (GPU NVIDIA): Estándar de la industria para aceleración GPU. Ecosistema CUDA maduro. GPU de $150–1.600 según el tamaño del modelo.
- Linux (GPU NVIDIA o AMD): Menor sobrecarga (10–20% menos energía que Windows), mejor para servidores 24/7. Mismo costo de GPU que Windows.
- Velocidad de inferencia: Los tres SO producen la misma velocidad de salida con el mismo GPU. La dificultad de configuración del software difiere.
- Complejidad de configuración: macOS más sencillo (Ollama con un clic); Windows intermedio (requiere drivers NVIDIA); Linux requiere familiaridad con la línea de comandos.
- Costo por inferencia: Linux < Windows = macOS (igual para GPU acelerado; macOS más barato solo para CPU).
- Ecosistema: NVIDIA CUDA disponible en Windows/Linux (no nativo en Mac). AMD ROCm en Linux/Windows. Apple Metal solo en macOS.
- Mejor elección: Mac para laptop/uso casual; Windows para gaming de escritorio + LLM; Linux para servidores.
¿Cuál es el costo de hardware por sistema operativo?
macOS (generación Apple M5 — envío marzo 2026): MacBook Pro M5 Pro 64 GB ($2.499–3.199) ejecuta 70B Q4 a 15–20 tok/s. MacBook Pro M5 Max 128 GB ($3.499–4.999) ejecuta 70B Q8 a 25–35 tok/s. MacBook Air M5 32 GB ($1.099–1.299) maneja 8B sin problemas. Costo adicional total al actualizar: $0 si ya tienes un Mac; $1.099+ si compras nuevo.
Windows (GPU NVIDIA requerida — abril 2026):** RTX 5060 Ti 16 GB nueva ($450–500) ejecuta 70B Q4 a 20–40 tok/s. RTX 5090 32 GB nueva ($2.000) ejecuta 70B a 40–50 tok/s (primera GPU de consumo individual en ejecutar 70B sin dividir). RTX 4070 usada ($350), RTX 4090 ($1.000–1.400) aún disponibles. Costo adicional: $350–2.000.
Linux (GPU NVIDIA o AMD): Servidor bare-metal ($300–1.000) o reutilizar máquina antigua + RTX 5060 Ti/5090 ($450–2.000). Mismo costo GPU que Windows. Costo adicional: $150–2.600.
Novedad en abril de 2026: RTX 5090 es la primera solución GPU de consumo individual para modelos 70B. Mac mini M5 Pro esperado a mediados de 2026 (probablemente manejará 70B a 15–20 tok/s).
💡Tip: 💡 Consejo profesional: M5 Max 128 GB vs RTX 5090: M5 Max es 1,3–1,5× más lento (25–35 vs 40–50 tok/s) pero cuesta $400 menos, tiene 4× más memoria, y es silencioso (sin ruido de ventilador GPU).
¿Cuál es la configuración y la complejidad?
macOS: Descarga Ollama (1 minuto), ejecuta la app, selecciona Llama 3.1 8B (5 minutos) = 6 minutos en total, cero comandos de terminal. Mejor para usuarios no técnicos.
Windows: Instala los drivers NVIDIA (5–10 min), descarga Ollama o LM Studio (5 min), selecciona el modelo (5 min) = 15–20 minutos con GUI (sin necesidad de terminal).
Linux (Ubuntu): SSH, instala CUDA/cuDNN (20–40 min), instala Ollama/vLLM (10 min), configura systemd (10–20 min) = 40–70 minutos. Requiere comodidad con el terminal.
Mantenimiento a largo plazo: macOS (actualizaciones automáticas), Windows (actualizaciones trimestrales de drivers), Linux (ajuste del sistema, problemas ocasionales de dependencias).
La configuración de macOS es como enchufar un cargador de teléfono (un cable, funciona). Windows es como armar un mueble plano (las instrucciones importan). Linux es como construir un PC desde piezas (necesitas saber lo que haces).
🛠️Practice: 🛠️ Buena práctica: No instales macOS Sequoia el día del lanzamiento; espera 2 semanas para las correcciones de drivers Metal. El soporte GPU a veces se rompe en versiones menores.
¿Cómo se comparan las velocidades de inferencia?
macOS (generación Apple M5 — envío marzo 2026): M5 Pro (64 GB) ejecuta Llama 3.1 70B Q4 a 15–20 tok/s. M5 Max (128 GB, 614 GB/s de ancho de banda) ejecuta 70B Q8 a 25–35 tok/s — una mejora de 4× frente al M4 Max (que era impráctica para 70B).
Windows + RTX 5090 (32 GB, abril 2026): Llama 3.1 70B = 40–50 tok/s, 8B = 180+ tok/s. RTX 5090 es la primera GPU de consumo en manejar 70B sin cuantizar por debajo de Q4 ni usar división de modelo.
Windows + RTX 5060 Ti (16 GB, abril 2026): Llama 3.1 70B no cabe (necesita mínimo 24 GB). Modelos 13B–24B a 20–40 tok/s. Bueno para usuarios equivalentes a RTX 4070 con presupuesto ajustado.
Linux + RTX 5090 o RTX 5060 Ti: 1–5% más rápido que Windows por menor sobrecarga del SO. RTX 5090 en Linux alcanza 42–53 tok/s para 70B.
El equilibrio M5 Max vs RTX 5090: RTX 5090 es 1,3–1,5× más rápido pero cuesta $500 más, requiere un escritorio y consume 450 W. M5 Max es silencioso, listo para usar y tiene 4× la memoria (128 GB vs 32 GB).
El hardware GPU determina la velocidad de inferencia (RTX 5090 a 40–50 tok/s vs M5 Max a 25–35 tok/s), no el sistema operativo.
🔍Insight: 🔍 El cambio de juego del M5: La Arquitectura Fusion de Apple (dos chips 3nm unidos) entrega 4× más velocidad de procesamiento de prompts LLM frente al M4, reduciendo significativamente la brecha de velocidad con la RTX 5090.
⚠️Warning: ⚠️ Advertencia: AMD ROCm en Windows no es maduro. Elige Linux para GPU AMD; el soporte en Windows está 3–6 meses por detrás.
¿Qué herramientas y frameworks están soportados por SO?
Ollama (motor de inferencia): macOS ✓, Windows ✓, Linux ✓. Funciones idénticas en los tres.
LM Studio (GUI): macOS ✓, Windows ✓. Linux solo mediante Docker (sin GUI nativa).
vLLM (servidor API): macOS (limitado, solo Apple Metal), Windows ✓ (CUDA), Linux ✓ (CUDA/ROCm). Mejor en Linux.
NVIDIA CUDA toolkit: Windows ✓, Linux ✓. macOS ✗ (no compatible desde abril de 2026, solo Apple Metal).
PyTorch (framework de aprendizaje profundo): macOS ✓ (backend Apple Metal, más lento), Windows ✓ (CUDA), Linux ✓ (CUDA/ROCm). Más rápido en Linux/Windows con NVIDIA.
Soporte de fine-tuning: macOS (lento solo CPU o vía cloud); Windows ✓ (acelerado con CUDA); Linux ✓✓ (mejor soporte).
📌Note: 📌 Punto clave: CUDA solo funciona de forma nativa en Windows/Linux. Los usuarios de macOS deben usar la API Apple Metal, que es más reciente y tiene menos bibliotecas.
¿Cuál es el costo total de propiedad en 3 años?
| Configuración | Año 1 | Año 2–3 | Total 3 años |
|---|---|---|---|
| MacBook Air M5 (32 GB, existente) | $0 | $20 | $20 |
| MacBook Pro M5 Pro 64 GB | $2.499 | $30 | $2.529 |
| MacBook Pro M5 Max 128 GB | $3.499 | $30 | $3.529 |
| Mac mini M4 Pro 64 GB (vigente) | $2.299 | $20 | $2.319 |
| Windows + RTX 5060 Ti 16 GB | $1.650 | $80 | $1.730 |
| Windows + RTX 5090 32 GB | $2.500 | $120 | $2.620 |
| Linux + RTX 5060 Ti 16 GB | $750 | $60 | $810 |
| Linux + RTX 5090 32 GB | $1.400 | $100 | $1.500 |
Preguntas frecuentes
¿Puedo ejecutar Llama 3.1 70B en macOS?
Sí — MacBook Pro M5 Pro (64 GB) ejecuta 70B Q4 a 15–20 tok/s. M5 Max (128 GB) ejecuta 70B Q8 a 25–35 tok/s. Mac mini M4 Pro (64 GB, vigente) ejecuta 70B a 10–15 tok/s. Las configuraciones más pequeñas (32 GB o menos) no caben en 70B.
¿Puedo usar GPU AMD en lugar de NVIDIA?
Windows: Limitado (el soporte ROCm mejora pero lleva 3–6 meses de retraso respecto a CUDA). Linux: Excelente soporte ROCm para la serie RX 7000. AMD es 10–20% más lento que NVIDIA equivalente para inferencia LLM a partir de abril de 2026. Para AMD en Linux: configura HSA_OVERRIDE_GFX_VERSION antes de iniciar Ollama.
¿Linux es más difícil de configurar para principiantes?
Sí. macOS: Ollama.app se instala en 6 minutos, sin terminal. Windows: 15–20 minutos con instalación de drivers NVIDIA. Linux: 40–70 minutos, requiere terminal (apt, pip, systemctl). Si no te sientes cómodo con la línea de comandos: empieza con macOS o Windows.
¿Puedo cambiar de SO a mitad de un proyecto?
Sí. Los modelos son portables — los archivos GGUF funcionan en todos los SO. Los adaptadores fine-tuned (LoRA) también son portables. El código del framework puede necesitar pequeñas actualizaciones de rutas. Las ubicaciones de almacenamiento de modelos de Ollama difieren por SO pero los pesos del modelo son idénticos.
¿macOS usa menos electricidad?
Apple Silicon M5 Max bajo inferencia LLM sostenida consume ~30–40 W. RTX 5090 bajo carga consume ~450 W. En 3 años a 4 h/día de uso activo: M5 Max ~$15 de electricidad vs RTX 5090 ~$180. macOS gana en costo eléctrico, Linux/Windows ganan en velocidad de inferencia.
¿Qué SO es mejor para el fine-tuning de modelos?
Linux > Windows > macOS. Linux tiene el mejor soporte de CUDA y DeepSpeed. macOS M5 puede hacer fine-tuning de 7B vía MLX (el framework ML de Apple) en ~2 horas — práctico para conjuntos de datos pequeños. Para fine-tuning en producción: Linux con RTX 4090 o mejor.
¿Es MacBook Pro M5 Max mejor que RTX 5090 para modelos 70B?
RTX 5090 es 1,3–1,5× más rápido (40–50 tok/s vs 25–35 tok/s). Pero M5 Max tiene 4× más memoria (128 GB vs 32 GB) — permitiendo 70B en Q8 (mayor calidad) mientras RTX 5090 está limitado a Q4. M5 Max es silencioso y listo para usar. RTX 5090 requiere una construcción de escritorio y refrigeración. Elige M5 Max para calidad + comodidad. Elige RTX 5090 para velocidad bruta.
¿Debo esperar el Mac mini M5 o comprar Mac mini M4 Pro ahora?
Mac mini M5 Pro se espera a mediados de 2026 (posiblemente WWDC en junio, posiblemente retrasado a octubre por escasez global de RAM). Si necesitas una máquina 70B ahora, Mac mini M4 Pro 64 GB ($2.299) ejecuta 70B a 10–15 tok/s. M5 Pro mini probablemente alcanzará 15–20 tok/s — una mejora del 50%. Si puedes esperar 3–6 meses, espera.
¿Qué errores comunes debes evitar al elegir un SO?
- Asumir que macOS no puede ejecutar modelos grandes. M4 Max puede ejecutar 70B, pero lentamente. Para trabajo serio, macOS se limita a modelos de 8B-13B.
- Comprar un PC con Windows específicamente para LLMs sin considerar Mac. Si tienes un Mac, úsalo; el costo del GPU domina la decisión.
- Pensar que Linux es solo para servidores. Linux es excelente para servidores domésticos/mini PCs y tiene el menor costo de propiedad.
- Olvidar el dominio de NVIDIA en el mercado. CUDA es el estándar; AMD y Apple Metal son ecosistemas más pequeños con menos tutoriales/bibliotecas.
- Creer que el SO afecta la velocidad de inferencia. macOS en Apple Silicon y Windows en RTX 4090 producen velocidades diferentes por el hardware, no por el SO.
⚠️Warning: ⚠️ No optimices primero para el "mejor SO". Optimiza para el hardware que ya tienes. Un Mac gratuito supera a un PC Windows de $500 + GPU de $350.
Lecturas relacionadas
- LLM local en laptop: mejores modelos y configuración — Cómo ejecutar modelos Llama en MacBook Air sin GPU.
- GPU vs CPU vs Apple Silicon para LLMs locales — Cuándo comprar una GPU y cuándo prescindir de ella.
- Mejores mini PCs para LLMs locales — Servidores Linux compactos para inferencia 24/7.
- Guía de hardware para LLMs locales 2026 — Análisis completo de hardware RTX, Mac y Linux.
- Cómo instalar Ollama — Guía de configuración paso a paso para los tres SO.
- NVIDIA CUDA vs AMD ROCm: drivers GPU para LLMs locales — Qué driver GPU elegir.
Consideraciones regionales
UE (RGPD): Los tres SO admiten el procesamiento local de datos. macOS cumple por defecto; Windows requiere revisión de privacidad de drivers NVIDIA; Linux ofrece transparencia total.
Japón (APPI): Los Mac Apple Silicon procesan datos personales localmente (sin sincronización en la nube requerida). Windows y Linux requieren consentimiento explícito del usuario antes de las copias de seguridad en la nube.
China y global: Los costos de electricidad varían significativamente. Las tarifas europeas ($0,20–0,30/kWh) y las tarifas chinas ($0,08–0,12/kWh) impactan el ROI a largo plazo en GPU.
Fuentes
- Documentación de Ollama en GitHub — Documentación oficial de Ollama (abril de 2026)
- Requisitos del sistema de LM Studio — Requisitos de hardware y SO de LM Studio (abril de 2026)
- Documentación de NVIDIA CUDA Toolkit — Guía oficial de configuración de CUDA para Windows y Linux
- La operación sin conexión mantiene los datos seguros, pero las entradas no confiables aún pueden causar problemas. Aprende sobre riesgos de inyección de prompts y defensas: prompt injection y seguridad cubre patrones de ataque y mitigación.