Key Takeaways
- GPU (NVIDIA RTX 5090): 200 tokens/s para modelos de 8B. Mejor rendimiento, $2.000.
- GPU (NVIDIA RTX 4090): 150 tokens/s para modelos de 8B. Mejor relación calidad-precio: RTX 4070 Ti a 80 tok/s por $600.
- Apple Silicon M2 Ultra: 60 tokens/s para 8B, 35 tok/s para 70B *de forma nativa* (sin offloading). Ventaja única: Mac Studio es el único hardware de consumo que ejecuta modelos 70B sin pérdida de calidad.
- CPU (Intel i9): 5–6 tokens/s. Impráctica para chat en tiempo real (latencia de 5–10 segundos).
- Para trabajo serio: la GPU gana en velocidad (30–40× más rápida gracias al ancho de banda de memoria). Apple M2 Ultra gana en modelos grandes (ejecución nativa de 70B).
Comparativa de rendimiento: velocidad y rendimiento sostenido
*con offloading a RAM — degradación significativa de la calidad
| Hardware | Llama 3.2 8B | Llama 3.3 70B | Qwen2.5 32B | Coste |
|---|---|---|---|---|
| RTX 5090 (GPU, 32 GB) | 200 tok/s | 50 tok/s | 70 tok/s | $2.000 |
| RTX 4090 (GPU, 24 GB) | 150 tok/s | 10 tok/s* | 50 tok/s | $1.800 |
| RTX 4070 Ti (GPU, 12 GB) | 80 tok/s | No posible | 25 tok/s | $600 |
| Mac Studio M2 Ultra (192 GB) | 60 tok/s | 35 tok/s | 45 tok/s | $4.000 |
| MacBook Pro M4 Max (128 GB) | 35 tok/s | 8 tok/s* | 22 tok/s | $4.000 |
| MacBook Pro M5 Max (96 GB) | 25 tok/s | 5 tok/s* | 15 tok/s | $3.500 |
| Intel i9 14900K (solo CPU) | 5 tok/s | 1 tok/s | 2 tok/s | $600 |
| AMD Ryzen 9 7950X (solo CPU) | 6 tok/s | 1 tok/s | 2 tok/s | $650 |
GPU NVIDIA: El rey del rendimiento
Las GPU NVIDIA (serie RTX 40/50) son actualmente las mejores para LLMs locales en abril de 2026. Su dominio se debe a:
- Ecosistema CUDA: más de 20 años de optimización específica para IA. La mayoría de los modelos se optimizan primero para CUDA.
- Tensor cores: hardware especializado para operaciones matriciales (el núcleo de la inferencia de LLMs).
- Ancho de banda de memoria: la RTX 5090 tiene 1.792 GB/s (GDDR7); la RTX 4090 tiene 1.008 GB/s; supera ampliamente a los sistemas de memoria unificada.
- Software maduro: vLLM, llama.cpp y LM Studio están todos optimizados para NVIDIA. Mejor rendimiento de inferencia a precisión nativa.
- RTX 5090 (insignia de 2025): 200 tok/s en Llama 3.2 8B, puede manejar 70B a 50 tok/s.
Compensaciones: alto coste inicial ($600–$2.000), consumo energético (350–575 W), requiere buena refrigeración y fuente de alimentación de 1.200 W.
Solo CPU: cuándo y por qué evitarla
Las CPU pueden ejecutar LLMs pero son impráctocas para inferencia en tiempo real:
- Latencia: 5–10 segundos por respuesta para modelos de 7B. Inutilizable para chat.
- Consumo energético: las CPU bajo carga total pueden consumir 200 W o más (ineficiente para inferencia).
- Contexto: las CPU escalan mal con contextos largos (caché clave-valor).
La CPU solo es adecuada para procesamiento por lotes sin conexión (por ejemplo, procesar documentos durante la noche sin respuesta en tiempo real).
Apple Silicon: fortaleza única en modelos grandes
La serie Apple M (M2 Ultra, M3/M4 Max) destaca en la ejecución nativa de modelos grandes — una ventaja única:
- Memoria unificada: CPU y GPU comparten el mismo pool de memoria, eliminando la sobrecarga de transferencia.
- Capacidad para modelos grandes: Mac Studio M2 Ultra (192 GB) ejecuta Llama 3.3 70B a 35 tok/s de forma nativa, sin offloading. Exclusivo de Apple Silicon.
- Eficiencia por vatio: M5 Max maneja 7B a 25 tok/s con solo 25 W. M4 Max es más rápido (~35 tok/s).
- Integración: nativo en macOS, sin problemas de drivers, funciona desde el primer momento.
- Limitación frente a GPU: la memoria compartida significa que no se puede ampliar la VRAM de forma discreta. Tamaño del modelo ≤ RAM del sistema.
Mac Studio M2 Ultra (192 GB): 60 tok/s en 8B, 35 tok/s en 70B — el único hardware de consumo con esta capacidad. Los equipos de investigación que ejecutan 70B o más deberían considerar Mac Studio.
MacBook Pro: M4 Max (128 GB) a 35 tok/s para 8B es sólido para movilidad. M5 Max (96 GB) a 25 tok/s funciona para necesidades más ligeras.
**Para benchmarks específicos de M5 Pro y M5 Max para LLM local, consulta nuestra comparativa dedicada de Apple Silicon M5 →.**
Ancho de banda de memoria: el verdadero cuello de botella
La inferencia de LLMs está limitada por la memoria, no por el cómputo. La velocidad de generación de tokens está limitada por la rapidez con que se pueden cargar los pesos del modelo desde la memoria. Mayor ancho de banda de memoria = generación de tokens más rápida.
La fórmula: Velocidad de inferencia ≈ Ancho de banda de memoria ÷ Pesos del modelo en memoria
- Esta brecha de ancho de banda explica por qué las GPU son 30–40× más rápidas que la CPU para inferencia.
- La memoria unificada de Apple Silicon tiene menor ancho de banda por byte que NVIDIA GDDR7/GDDR6X, pero sigue siendo 9× más rápida que la RAM DDR5.
- Ventaja de la memoria unificada: sin sobrecarga de transferencia CPU↔GPU. El modelo permanece en un único pool de memoria.
- Desventaja de la GPU para modelos grandes: VRAM limitada (24 GB máx. para RTX 4090). El offloading a RAM del sistema (89 GB/s) crea una penalización de velocidad de 10×.
- Por qué Mac Studio M2 Ultra (192 GB unificada) es único: puede alojar modelos de 70B de forma nativa con 800 GB/s de ancho de banda — sin penalización por offloading, sin caída de rendimiento.
| Plataforma | Ancho de banda de memoria | Velocidad efectiva (8B) |
|---|---|---|
| RTX 5090 (GDDR7) | 1.792 GB/s | 200 tok/s |
| RTX 4090 (GDDR6X) | 1.008 GB/s | 150 tok/s |
| RTX 4070 Ti (GDDR6X) | 504 GB/s | 80 tok/s |
| Mac Studio M2 Ultra (unificada) | 800 GB/s | 60 tok/s |
| MacBook Pro M4 Max (unificada) | 546 GB/s | 35 tok/s |
| MacBook Pro M5 Max (unificada) | 400 GB/s | 25 tok/s |
| RAM DDR5-5600 (solo CPU) | 89 GB/s | 5 tok/s |
| RAM DDR4-3200 (solo CPU) | 51 GB/s | 3 tok/s |
Coste por token: análisis de coste real
Considera el coste total de inferencia (hardware amortizado en el tiempo):
| Hardware | Coste inicial | Tokens/s | Tokens/año (24/7) | Coste a largo plazo |
|---|---|---|---|---|
| RTX 4090 (vida útil 3 años) | $1.800 | 150 | 4.700 M | $0,0004 por 1 M de tokens |
| RTX 4070 Ti (3 años) | $600 | 80 | 2.500 M | $0,0002 por 1 M de tokens |
| M5 Max Mac (ya en propiedad) | $0 | 25 | 790 M | $0 por 1 M de tokens |
| API OpenAI ($0,01 por 1.000 tokens) | Pago por uso | Ilimitado | Ilimitado | $10 por 1 M de tokens |
¿Cuándo elegir cada plataforma?
Marco de decisión:
- Elige GPU: necesitas chat en tiempo real (<1 s de latencia), ejecutas modelos las 24 horas o procesas por lotes grandes conjuntos de datos.
- Elige solo CPU: estás sin conexión, necesitas procesar documentos por lotes durante la noche o quieres cero inversión en hardware.
- Elige Apple Silicon: tienes un Mac, ejecutas solo modelos de 7B y valoras el bajo consumo energético.
Errores comunes al elegir hardware
- Creer que la CPU es viable para chat. Una latencia de 5 segundos por respuesta no es práctica. La experiencia de usuario es inutilizable.
- Comprar una GPU de generación anterior esperando un rendimiento similar. La RTX 2080 es 10× más lenta que la RTX 4070 Ti debido a mejoras arquitectónicas.
- Asumir que M5 Max puede manejar modelos de 70B. No puede, ni siquiera con cuantización extrema. Limitado por la arquitectura de memoria unificada.
- Ignorar los requisitos de energía y refrigeración. La RTX 4090 necesita una fuente de 1.200 W y buena ventilación del chasis, no solo un "slot de GPU".
Preguntas frecuentes
¿Es mejor la GPU o la CPU para ejecutar LLMs locales?
La GPU es significativamente mejor para inferencia en tiempo real. NVIDIA RTX 4090 ejecuta modelos de 7B a 150 tokens/s; una CPU de gama alta como Intel i9 ejecuta el mismo modelo a 3–5 tokens/s. La inferencia por CPU produce una latencia de respuesta de 5–10 segundos, lo que la hace impráctica para chat interactivo.
¿Puede Apple Silicon ejecutar LLMs locales?
Sí. La serie Apple M (M3, M4) ejecuta modelos de 7B a 25–30 tokens/s usando memoria unificada — significativamente mejor que los sistemas x86 solo con CPU, pero más lento que las GPU NVIDIA discretas. Apple Silicon no puede ejecutar modelos de 70B debido a los límites de memoria unificada (la RAM máxima del sistema es el límite de memoria del modelo).
¿Cuánta VRAM mínima necesita una GPU para LLMs locales?
6 GB de VRAM ejecuta modelos de 7B con cuantización Q4 (4,1 GB usados). 8 GB es el mínimo práctico para una experiencia fluida con modelos de 7B en Q5. Se necesitan 16+ GB de VRAM para modelos de 13B a calidad completa. Con 24 GB se manejan modelos de 30B.
¿Cuánto más rápida es la GPU frente a la CPU en inferencia de LLMs?
Las GPU NVIDIA son 30–100× más rápidas que las CPU para inferencia de LLMs. La RTX 4090 genera 150 tokens/s para modelos de 7B; el Intel i9 genera 3–5 tokens/s. La brecha de velocidad proviene del procesamiento paralelo CUDA y de los tensor cores dedicados, no solo de la frecuencia de reloj.
¿Vale la pena comprar una GPU solo para LLMs locales?
La RTX 4070 Ti (12 GB de VRAM, ~$600) amortizada en 3 años cuesta menos que las tarifas de la API de OpenAI para usuarios intensivos que usan 2+ horas al día. A 80 tokens/s gestiona chat en tiempo real, asistencia de codificación y resumen de documentos. Los usuarios ligeros (menos de 30 min/día) están mejor servidos con la API.
¿Puedo usar múltiples núcleos de CPU para acelerar la inferencia de LLMs?
Más núcleos de CPU ayudan marginalmente. llama.cpp usa todos los hilos disponibles, pero el cuello de botella es el ancho de banda de memoria (50–100 GB/s para la RAM del sistema frente a 2.000+ GB/s para la VRAM de la GPU). Más núcleos no resuelven el problema del ancho de banda — solo lo hace una GPU o la arquitectura de memoria unificada Apple M-series.
¿Qué es el ancho de banda de memoria y por qué importa para los LLMs?
La inferencia de LLMs está limitada por la memoria, no por el cómputo. La velocidad de generación de tokens depende de qué tan rápido se cargan los pesos del modelo desde la memoria. La RTX 5090 tiene 1.792 GB/s (GDDR7); la RAM DDR5 tiene 89 GB/s. Esta brecha de ancho de banda explica por qué las GPU son 30–40× más rápidas que la CPU para inferencia.
¿Qué chip Apple Silicon es mejor para LLMs locales?
Mac Studio M2 Ultra (192 GB) para ejecutar modelos de 70B de forma nativa a 35 tok/s — ventaja única que ninguna GPU de consumo puede igualar. MacBook Pro M4 Max (128 GB) para uso portátil a 35 tok/s en modelos de 8B. M5 Max (96 GB) funciona para modelos de 7–13B. Evita el M4/M3 base (8 GB de RAM) para trabajo serio con LLMs.
¿Puede Apple Silicon ejecutar modelos de 70B?
Mac Studio M2 Ultra con 192 GB de memoria unificada ejecuta Llama 3.3 70B a 35 tok/s de forma nativa, sin offloading. Esto es único — ninguna GPU de consumo puede hacerlo. Los modelos Mac más pequeños (M5 Max, M4 Max) hacen offloading parcial a RAM, creando una penalización de velocidad de 5–10×. Calidad completa de 70B solo en Mac Studio M2 Ultra.
¿Vale la pena la RTX 5090 por $2.000 para LLMs locales?
Solo si ejecutas modelos de 70B con frecuencia o tienes cargas de trabajo de producción. La RTX 5090 (200 tok/s en 8B) es 2,5× más rápida que la RTX 4090 ($1.800). Mejor relación calidad-precio: RTX 4070 Ti ($600, 80 tok/s) para modelos de 8B–32B; Mac Studio M2 Ultra ($4.000) si necesitas soporte nativo de 70B.
Fuentes
- Especificaciones de GPU NVIDIA — Especificaciones de GPU series RTX 40/50, VRAM, ancho de banda de memoria.
- Rendimiento Apple M3 — Arquitectura de memoria unificada M5 Max y rendimiento de inferencia.
- Benchmarks vLLM — Benchmarks de rendimiento de inferencia de LLMs en producción.
- Diferentes hardware producen distintas tasas de tokens, pero toda inferencia se beneficia de prompts estructurados. Las solicitudes de contexto largo requieren técnicas distintas a las cortas: ventanas de contexto explicadas cubre estrategias para cualquier hardware.