Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/GPU vs CPU vs Apple Silicon para LLMs locales: Análisis de rendimiento
Hardware & Performance

GPU vs CPU vs Apple Silicon para LLMs locales: Análisis de rendimiento

·11 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

La RTX 5090 domina en velocidad (200 tok/s en modelos de 8B), pero Mac Studio M2 Ultra ejecuta Llama 3.3 70B de forma nativa a 35 tok/s — algo que ninguna GPU de consumo puede igualar. El ancho de banda de memoria explica la diferencia de velocidad de 30–40× entre GPU y CPU.

La RTX 5090 domina en velocidad bruta con 200 tok/s en Llama 3.2 8B, pero Mac Studio M2 Ultra (192 GB de memoria unificada) ejecuta Llama 3.3 70B de forma nativa a 35 tok/s — algo que ninguna GPU de consumo puede igualar. La inferencia por CPU a 5 tok/s es impráctica para uso en tiempo real. Esta guía compara las tres arquitecturas en términos de ancho de banda de memoria, coste y casos de uso a abril de 2026.

Slide Deck: GPU vs CPU vs Apple Silicon para LLMs locales: Análisis de rendimiento

La presentación a continuación cubre: rendimiento de NVIDIA GPU vs Apple Silicon vs CPU (150 tok/s vs 25 tok/s vs 5 tok/s), análisis de coste por token, cuándo elegir cada plataforma y errores comunes en la selección de hardware. Descarga el PDF como tarjeta de referencia para comparativa de hardware GPU vs CPU.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • GPU (NVIDIA RTX 5090): 200 tokens/s para modelos de 8B. Mejor rendimiento, $2.000.
  • GPU (NVIDIA RTX 4090): 150 tokens/s para modelos de 8B. Mejor relación calidad-precio: RTX 4070 Ti a 80 tok/s por $600.
  • Apple Silicon M2 Ultra: 60 tokens/s para 8B, 35 tok/s para 70B *de forma nativa* (sin offloading). Ventaja única: Mac Studio es el único hardware de consumo que ejecuta modelos 70B sin pérdida de calidad.
  • CPU (Intel i9): 5–6 tokens/s. Impráctica para chat en tiempo real (latencia de 5–10 segundos).
  • Para trabajo serio: la GPU gana en velocidad (30–40× más rápida gracias al ancho de banda de memoria). Apple M2 Ultra gana en modelos grandes (ejecución nativa de 70B).

Comparativa de rendimiento: velocidad y rendimiento sostenido

*con offloading a RAM — degradación significativa de la calidad

HardwareLlama 3.2 8BLlama 3.3 70BQwen2.5 32BCoste
RTX 5090 (GPU, 32 GB)200 tok/s50 tok/s70 tok/s$2.000
RTX 4090 (GPU, 24 GB)150 tok/s10 tok/s*50 tok/s$1.800
RTX 4070 Ti (GPU, 12 GB)80 tok/sNo posible25 tok/s$600
Mac Studio M2 Ultra (192 GB)60 tok/s35 tok/s45 tok/s$4.000
MacBook Pro M4 Max (128 GB)35 tok/s8 tok/s*22 tok/s$4.000
MacBook Pro M5 Max (96 GB)25 tok/s5 tok/s*15 tok/s$3.500
Intel i9 14900K (solo CPU)5 tok/s1 tok/s2 tok/s$600
AMD Ryzen 9 7950X (solo CPU)6 tok/s1 tok/s2 tok/s$650
La GPU domina en modelos de 8B: RTX 5090 a 200 tok/s (40× más rápida que la CPU a 5 tok/s). Mac Studio M2 Ultra es único: el único hardware de consumo que ejecuta Llama 3.3 70B de forma nativa a 35 tok/s.
La GPU domina en modelos de 8B: RTX 5090 a 200 tok/s (40× más rápida que la CPU a 5 tok/s). Mac Studio M2 Ultra es único: el único hardware de consumo que ejecuta Llama 3.3 70B de forma nativa a 35 tok/s.

GPU NVIDIA: El rey del rendimiento

Las GPU NVIDIA (serie RTX 40/50) son actualmente las mejores para LLMs locales en abril de 2026. Su dominio se debe a:

  • Ecosistema CUDA: más de 20 años de optimización específica para IA. La mayoría de los modelos se optimizan primero para CUDA.
  • Tensor cores: hardware especializado para operaciones matriciales (el núcleo de la inferencia de LLMs).
  • Ancho de banda de memoria: la RTX 5090 tiene 1.792 GB/s (GDDR7); la RTX 4090 tiene 1.008 GB/s; supera ampliamente a los sistemas de memoria unificada.
  • Software maduro: vLLM, llama.cpp y LM Studio están todos optimizados para NVIDIA. Mejor rendimiento de inferencia a precisión nativa.
  • RTX 5090 (insignia de 2025): 200 tok/s en Llama 3.2 8B, puede manejar 70B a 50 tok/s.

Compensaciones: alto coste inicial ($600–$2.000), consumo energético (350–575 W), requiere buena refrigeración y fuente de alimentación de 1.200 W.

Solo CPU: cuándo y por qué evitarla

Las CPU pueden ejecutar LLMs pero son impráctocas para inferencia en tiempo real:

  • Latencia: 5–10 segundos por respuesta para modelos de 7B. Inutilizable para chat.
  • Consumo energético: las CPU bajo carga total pueden consumir 200 W o más (ineficiente para inferencia).
  • Contexto: las CPU escalan mal con contextos largos (caché clave-valor).

La CPU solo es adecuada para procesamiento por lotes sin conexión (por ejemplo, procesar documentos durante la noche sin respuesta en tiempo real).

Apple Silicon: fortaleza única en modelos grandes

La serie Apple M (M2 Ultra, M3/M4 Max) destaca en la ejecución nativa de modelos grandes — una ventaja única:

  • Memoria unificada: CPU y GPU comparten el mismo pool de memoria, eliminando la sobrecarga de transferencia.
  • Capacidad para modelos grandes: Mac Studio M2 Ultra (192 GB) ejecuta Llama 3.3 70B a 35 tok/s de forma nativa, sin offloading. Exclusivo de Apple Silicon.
  • Eficiencia por vatio: M5 Max maneja 7B a 25 tok/s con solo 25 W. M4 Max es más rápido (~35 tok/s).
  • Integración: nativo en macOS, sin problemas de drivers, funciona desde el primer momento.
  • Limitación frente a GPU: la memoria compartida significa que no se puede ampliar la VRAM de forma discreta. Tamaño del modelo ≤ RAM del sistema.

Mac Studio M2 Ultra (192 GB): 60 tok/s en 8B, 35 tok/s en 70B — el único hardware de consumo con esta capacidad. Los equipos de investigación que ejecutan 70B o más deberían considerar Mac Studio.

MacBook Pro: M4 Max (128 GB) a 35 tok/s para 8B es sólido para movilidad. M5 Max (96 GB) a 25 tok/s funciona para necesidades más ligeras.

**Para benchmarks específicos de M5 Pro y M5 Max para LLM local, consulta nuestra comparativa dedicada de Apple Silicon M5 →.**

Ancho de banda de memoria: el verdadero cuello de botella

La inferencia de LLMs está limitada por la memoria, no por el cómputo. La velocidad de generación de tokens está limitada por la rapidez con que se pueden cargar los pesos del modelo desde la memoria. Mayor ancho de banda de memoria = generación de tokens más rápida.

La fórmula: Velocidad de inferencia ≈ Ancho de banda de memoria ÷ Pesos del modelo en memoria

  • Esta brecha de ancho de banda explica por qué las GPU son 30–40× más rápidas que la CPU para inferencia.
  • La memoria unificada de Apple Silicon tiene menor ancho de banda por byte que NVIDIA GDDR7/GDDR6X, pero sigue siendo 9× más rápida que la RAM DDR5.
  • Ventaja de la memoria unificada: sin sobrecarga de transferencia CPU↔GPU. El modelo permanece en un único pool de memoria.
  • Desventaja de la GPU para modelos grandes: VRAM limitada (24 GB máx. para RTX 4090). El offloading a RAM del sistema (89 GB/s) crea una penalización de velocidad de 10×.
  • Por qué Mac Studio M2 Ultra (192 GB unificada) es único: puede alojar modelos de 70B de forma nativa con 800 GB/s de ancho de banda — sin penalización por offloading, sin caída de rendimiento.
PlataformaAncho de banda de memoriaVelocidad efectiva (8B)
RTX 5090 (GDDR7)1.792 GB/s200 tok/s
RTX 4090 (GDDR6X)1.008 GB/s150 tok/s
RTX 4070 Ti (GDDR6X)504 GB/s80 tok/s
Mac Studio M2 Ultra (unificada)800 GB/s60 tok/s
MacBook Pro M4 Max (unificada)546 GB/s35 tok/s
MacBook Pro M5 Max (unificada)400 GB/s25 tok/s
RAM DDR5-5600 (solo CPU)89 GB/s5 tok/s
RAM DDR4-3200 (solo CPU)51 GB/s3 tok/s

Coste por token: análisis de coste real

Considera el coste total de inferencia (hardware amortizado en el tiempo):

HardwareCoste inicialTokens/sTokens/año (24/7)Coste a largo plazo
RTX 4090 (vida útil 3 años)$1.8001504.700 M$0,0004 por 1 M de tokens
RTX 4070 Ti (3 años)$600802.500 M$0,0002 por 1 M de tokens
M5 Max Mac (ya en propiedad)$025790 M$0 por 1 M de tokens
API OpenAI ($0,01 por 1.000 tokens)Pago por usoIlimitadoIlimitado$10 por 1 M de tokens
Coste vs rendimiento: RTX 4070 Ti ($600, 80 tok/s) ofrece la mejor relación calidad-precio. M5 Max es gratuito si ya tienes un Mac. RTX 4090 domina en rendimiento pero cuesta $1.800.
Coste vs rendimiento: RTX 4070 Ti ($600, 80 tok/s) ofrece la mejor relación calidad-precio. M5 Max es gratuito si ya tienes un Mac. RTX 4090 domina en rendimiento pero cuesta $1.800.

¿Cuándo elegir cada plataforma?

Marco de decisión:

  • Elige GPU: necesitas chat en tiempo real (<1 s de latencia), ejecutas modelos las 24 horas o procesas por lotes grandes conjuntos de datos.
  • Elige solo CPU: estás sin conexión, necesitas procesar documentos por lotes durante la noche o quieres cero inversión en hardware.
  • Elige Apple Silicon: tienes un Mac, ejecutas solo modelos de 7B y valoras el bajo consumo energético.
Matriz de decisión: la GPU gana para IA en producción y chat en tiempo real. M5 Max es ideal para usuarios de Mac con modelos de 7–13B. Solo CPU es impráctica para uso interactivo.
Matriz de decisión: la GPU gana para IA en producción y chat en tiempo real. M5 Max es ideal para usuarios de Mac con modelos de 7–13B. Solo CPU es impráctica para uso interactivo.

Errores comunes al elegir hardware

  • Creer que la CPU es viable para chat. Una latencia de 5 segundos por respuesta no es práctica. La experiencia de usuario es inutilizable.
  • Comprar una GPU de generación anterior esperando un rendimiento similar. La RTX 2080 es 10× más lenta que la RTX 4070 Ti debido a mejoras arquitectónicas.
  • Asumir que M5 Max puede manejar modelos de 70B. No puede, ni siquiera con cuantización extrema. Limitado por la arquitectura de memoria unificada.
  • Ignorar los requisitos de energía y refrigeración. La RTX 4090 necesita una fuente de 1.200 W y buena ventilación del chasis, no solo un "slot de GPU".

Preguntas frecuentes

¿Es mejor la GPU o la CPU para ejecutar LLMs locales?

La GPU es significativamente mejor para inferencia en tiempo real. NVIDIA RTX 4090 ejecuta modelos de 7B a 150 tokens/s; una CPU de gama alta como Intel i9 ejecuta el mismo modelo a 3–5 tokens/s. La inferencia por CPU produce una latencia de respuesta de 5–10 segundos, lo que la hace impráctica para chat interactivo.

¿Puede Apple Silicon ejecutar LLMs locales?

Sí. La serie Apple M (M3, M4) ejecuta modelos de 7B a 25–30 tokens/s usando memoria unificada — significativamente mejor que los sistemas x86 solo con CPU, pero más lento que las GPU NVIDIA discretas. Apple Silicon no puede ejecutar modelos de 70B debido a los límites de memoria unificada (la RAM máxima del sistema es el límite de memoria del modelo).

¿Cuánta VRAM mínima necesita una GPU para LLMs locales?

6 GB de VRAM ejecuta modelos de 7B con cuantización Q4 (4,1 GB usados). 8 GB es el mínimo práctico para una experiencia fluida con modelos de 7B en Q5. Se necesitan 16+ GB de VRAM para modelos de 13B a calidad completa. Con 24 GB se manejan modelos de 30B.

¿Cuánto más rápida es la GPU frente a la CPU en inferencia de LLMs?

Las GPU NVIDIA son 30–100× más rápidas que las CPU para inferencia de LLMs. La RTX 4090 genera 150 tokens/s para modelos de 7B; el Intel i9 genera 3–5 tokens/s. La brecha de velocidad proviene del procesamiento paralelo CUDA y de los tensor cores dedicados, no solo de la frecuencia de reloj.

¿Vale la pena comprar una GPU solo para LLMs locales?

La RTX 4070 Ti (12 GB de VRAM, ~$600) amortizada en 3 años cuesta menos que las tarifas de la API de OpenAI para usuarios intensivos que usan 2+ horas al día. A 80 tokens/s gestiona chat en tiempo real, asistencia de codificación y resumen de documentos. Los usuarios ligeros (menos de 30 min/día) están mejor servidos con la API.

¿Puedo usar múltiples núcleos de CPU para acelerar la inferencia de LLMs?

Más núcleos de CPU ayudan marginalmente. llama.cpp usa todos los hilos disponibles, pero el cuello de botella es el ancho de banda de memoria (50–100 GB/s para la RAM del sistema frente a 2.000+ GB/s para la VRAM de la GPU). Más núcleos no resuelven el problema del ancho de banda — solo lo hace una GPU o la arquitectura de memoria unificada Apple M-series.

¿Qué es el ancho de banda de memoria y por qué importa para los LLMs?

La inferencia de LLMs está limitada por la memoria, no por el cómputo. La velocidad de generación de tokens depende de qué tan rápido se cargan los pesos del modelo desde la memoria. La RTX 5090 tiene 1.792 GB/s (GDDR7); la RAM DDR5 tiene 89 GB/s. Esta brecha de ancho de banda explica por qué las GPU son 30–40× más rápidas que la CPU para inferencia.

¿Qué chip Apple Silicon es mejor para LLMs locales?

Mac Studio M2 Ultra (192 GB) para ejecutar modelos de 70B de forma nativa a 35 tok/s — ventaja única que ninguna GPU de consumo puede igualar. MacBook Pro M4 Max (128 GB) para uso portátil a 35 tok/s en modelos de 8B. M5 Max (96 GB) funciona para modelos de 7–13B. Evita el M4/M3 base (8 GB de RAM) para trabajo serio con LLMs.

¿Puede Apple Silicon ejecutar modelos de 70B?

Mac Studio M2 Ultra con 192 GB de memoria unificada ejecuta Llama 3.3 70B a 35 tok/s de forma nativa, sin offloading. Esto es único — ninguna GPU de consumo puede hacerlo. Los modelos Mac más pequeños (M5 Max, M4 Max) hacen offloading parcial a RAM, creando una penalización de velocidad de 5–10×. Calidad completa de 70B solo en Mac Studio M2 Ultra.

¿Vale la pena la RTX 5090 por $2.000 para LLMs locales?

Solo si ejecutas modelos de 70B con frecuencia o tienes cargas de trabajo de producción. La RTX 5090 (200 tok/s en 8B) es 2,5× más rápida que la RTX 4090 ($1.800). Mejor relación calidad-precio: RTX 4070 Ti ($600, 80 tok/s) para modelos de 8B–32B; Mac Studio M2 Ultra ($4.000) si necesitas soporte nativo de 70B.

Fuentes

  • Especificaciones de GPU NVIDIA — Especificaciones de GPU series RTX 40/50, VRAM, ancho de banda de memoria.
  • Rendimiento Apple M3 — Arquitectura de memoria unificada M5 Max y rendimiento de inferencia.
  • Benchmarks vLLM — Benchmarks de rendimiento de inferencia de LLMs en producción.
  • Diferentes hardware producen distintas tasas de tokens, pero toda inferencia se beneficia de prompts estructurados. Las solicitudes de contexto largo requieren técnicas distintas a las cortas: ventanas de contexto explicadas cubre estrategias para cualquier hardware.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Apple Silicon vs NVIDIA para LLMs locales 2026: Velocidad y coste