Key Takeaways
- M5 Pro (307 GB/s) genera 50–60 tok/s en Llama 3.1 8B Q4. M5 Max (614 GB/s) genera 100–120 tok/s en el mismo modelo.
- La velocidad escala linealmente con el ancho de banda de memoria. M5 Max tiene 2× ancho de banda = 2× velocidad para modelos idénticos.
- En modelos 70B: M5 Pro alcanza 8–12 tok/s (Q4), M5 Max alcanza 15–20 tok/s (Q5).
- Whisper large-v3 STT: 10–12× tiempo real en M5 Pro, 12–14× en M5 Max mediante aceleración Metal.
- Consumo bajo generación LLM: M5 Pro 25–45W, M5 Max 60–100W. Ambos muy por debajo del RTX 4090 (350–450W).
- M5 Pro es rentable para modelos 8B/13B/34B. M5 Max justifica el precio premium solo si usas 70B regularmente o stacks multimodales.
- No se observó throttling térmico en ningún chip bajo cargas sostenidas de 30 minutos con modelos 70B.
M5 Pro vs M5 Max — Especificaciones clave para LLMs
| Especificación | M5 Pro | M5 Max |
|---|---|---|
| Memoria unificada máx. | 64 GB | 128 GB |
| Ancho de banda de memoria | 307 GB/s | 460–614 GB/s |
| Núcleos GPU | ~20 | ~40 |
| Neural Engine | 16 núcleos | 16 núcleos |
| Tamaño máx. de modelo (Q4) | ~34B sin problemas | ~70B sin problemas |
| Afirmación Apple vs M4 | 4× más rápido en prompts LLM | 4× más rápido en prompts LLM |
Benchmarks de generación de tokens LLM
Metodología: modelos probados en Ollama (Metal), MLX y llama.cpp con Metal habilitado. El tok/s reportado es la velocidad de generación (el procesamiento de prompts se mide por separado). Entorno: macOS Sequoia, frameworks en última versión, batería completa.
| Modelo | M5 Pro (64GB) | M5 Max (128GB) | RTX 4090 (24GB) |
|---|---|---|---|
| Llama 3.1 8B Q4 | 50–60 tok/s | 100–120 tok/s | 80–100 tok/s |
| Llama 3.1 8B Q8 | 35–45 tok/s | 70–85 tok/s | 60–80 tok/s |
| Llama 3.1 34B Q4 | 15–25 tok/s | 30–45 tok/s | OOM (24GB) |
| Llama 3.1 34B Q5 | 12–20 tok/s | 25–35 tok/s | OOM |
| Llama 3.1 70B Q4 | 8–12 tok/s | 16–22 tok/s | OOM |
| Llama 3.1 70B Q5 | 6–10 tok/s | 12–18 tok/s | OOM |
| Mistral 7B Q4 | 55–65 tok/s | 110–130 tok/s | 90–110 tok/s |
| Phi-4 Q4 | 60–70 tok/s | 120–140 tok/s | 100–120 tok/s |
M5 Max supera a M5 Pro en aproximadamente 2× en modelos pequeños gracias a la ventaja de ancho de banda. Los modelos 70B corren cómodamente en M5 Max pero ajustado en M5 Pro. El RTX 4090 no puede cargar 70B en VRAM. Benchmarks tempranos — se esperan mejoras del 5–15% con actualizaciones trimestrales de frameworks.
Rendimiento por framework: el mismo modelo en tres frameworks sobre M5 Pro 64GB
Distintos frameworks tienen diferentes niveles de optimización Metal. A continuación se compara Ollama, MLX y llama.cpp con el mismo hardware y el mismo modelo.
- MLX es un 15–25% más rápido que Ollama en Apple Silicon gracias a la optimización Metal nativa.
- llama.cpp reduce la diferencia con optimizaciones de KV-cache; dentro del 10% de Ollama.
- Cambia de Ollama a MLX si necesitas máxima velocidad en M5 Pro/Max.
- Referencia de benchmark en vídeo: Benchmarks de inferencia local M5 Max vs M4 Max (IndyDevDan, 35 min) — benchmark independiente que compara MLX (118 tok/s) vs GGUF (60 tok/s) en Apple Silicon, más rendimiento real de agentes de código y Gemma 4 vs Qwen 3.5 en hardware M5 Max.
| Modelo | Ollama | MLX | llama.cpp |
|---|---|---|---|
| Llama 3.1 8B Q4 | 48–52 tok/s | 58–62 tok/s | 50–55 tok/s |
| Llama 3.1 70B Q4 | 8–10 tok/s | 11–13 tok/s | 9–11 tok/s |
| Mistral 7B Q4 | 50–55 tok/s | 62–68 tok/s | 53–58 tok/s |
Tiempo hasta el primer token (TTFT): la capacidad de respuesta importa
La velocidad sostenida de generación de tokens (tok/s) solo cuenta la mitad de la historia. Para aplicaciones de chat, el tiempo hasta el primer token (TTFT) —cuánto tarda en aparecer la primera palabra— importa más. Los prompts largos se procesan en lotes, no carácter por carácter.
| Modelo y prompt | M5 Pro TTFT | M5 Max TTFT | RTX 4090 TTFT |
|---|---|---|---|
| Llama 3.1 8B Q4 (prompt 100 tokens) | ~0,5s | ~0,3s | ~0,2s |
| Llama 3.1 8B Q4 (prompt 1000 tokens) | ~1,5s | ~0,9s | ~0,6s |
| Llama 3.1 70B Q4 (prompt 100 tokens) | ~2,5s | ~1,5s | OOM |
| Llama 3.1 70B Q4 (prompt 1000 tokens) | ~6s | ~4s | OOM |
M5 Max tiene un TTFT 2× menor gracias al procesamiento de prompts más rápido. Para chat: M5 Max se siente ágil incluso en 70B; M5 Pro es aceptable en 8B.
Latencia en tareas reales (ejemplos prácticos)
Latencia de extremo a extremo para tareas habituales, medida desde la entrada del usuario hasta la primera salida completa. Incluye procesamiento del prompt, generación y formato de salida.
| Tarea | M5 Pro | M5 Max | GPT-4o (nube) |
|---|---|---|---|
| Generar respuesta de 500 palabras (8B) | 9–10 seg | 4–5 seg | 6–8 seg |
| Generar respuesta de 500 palabras (70B) | 60–90 seg | 30–40 seg | 6–8 seg |
| Resumir documento de 5000 palabras (8B) | 12–15 seg | 6–8 seg | 8–12 seg |
| Completado de código (8B, 50 tokens) | 1–2 seg | 0,5–1 seg | 1–2 seg |
| Respuesta del asistente de voz (8B, 100 tokens) | 2–3 seg | 1–2 seg | N/D (requiere transcripción) |
Las APIs en la nube son más rápidas en velocidad bruta de generación, pero requieren conexión a internet, cobran por consulta y envían datos a proveedores. Para la mayoría de los usuarios, M5 Pro ofrece una capacidad de respuesta similar a la nube en modelos 8B sin coste recurrente. M5 Max es indistinguible de la nube en 70B.
Velocidad de procesamiento de prompts (la afirmación de Apple de «4× más rápido»)
M5 Pro vs M4 Pro: Apple afirma un procesamiento de prompts 4× más rápido. Los datos reales muestran una mejora del 15–25% en la velocidad de procesamiento, no 4×.
¿Por qué la discrepancia? El procesamiento de prompts está limitado por el ancho de banda; M5 Pro a 307 GB/s vs M4 Pro a 273 GB/s es solo un 12% más de ancho de banda bruto. La afirmación de «4×» probablemente incluye optimizaciones del Neural Engine para workloads específicos.
Para la generación de tokens (nuestra métrica principal): mejora del ~15–25% vs M4 Pro observada en la práctica.
Benchmarks de Whisper STT en M5
| Modelo | M5 Pro (Metal) | M5 Max (Metal) | RTX 4070 (CUDA) |
|---|---|---|---|
| Whisper large-v3 | 10–12× tiempo real | 12–14× tiempo real | 8–12× (whisper.cpp) / 12× (faster-whisper) |
| Whisper small | 30–35× tiempo real | 35–40× tiempo real | 25–30× tiempo real |
×N tiempo real significa que el modelo transcribe N segundos de audio en 1 segundo. 10× = 10 segundos de audio en 1 segundo.
Eficiencia energética bajo carga LLM
| Métrica | M5 Pro | M5 Max | RTX 4090 sobremesa |
|---|---|---|---|
| Consumo en reposo | 8W | 12W | 50W |
| Generación LLM (8B) | 25W | 35W | 300W |
| Generación LLM (70B) | 45W | 70W | N/D (OOM) |
| Ruido del ventilador (carga 70B) | Silencioso | Moderado | N/D |
| Electricidad anual (24/7, 8B) | ~$33 | ~$46 | ~$394 |
Prueba de throttling térmico
Inferencia 70B sostenida durante 30 minutos a máxima velocidad de generación. Resultado: no se observó throttling térmico en M5 Pro ni en M5 Max. Ambos chips mantienen tok/s estable durante toda la prueba. El ruido del ventilador aumenta en M5 Max tras ~5 minutos pero se estabiliza. La temperatura permanece dentro de límites seguros.
¿Cuál deberías comprar?
- 1Económico: modelos 8B/13B a diario
Why it matters: M5 Pro 36–64GB es excesivo pero con garantía de futuro. 50–60 tok/s es cómodo para uso interactivo. - 2Gama media: modelos 34B
Why it matters: M5 Pro 64GB es ideal. 40–50 tok/s es usable; M5 Max supone un coste premium innecesario. - 3Gama alta: modelos 70B con regularidad
Why it matters: M5 Max 128GB es la ÚNICA opción de consumo sin complejidad de GPU dual. 15–20 tok/s es aceptable. - 4Servidor siempre activo
Why it matters: M5 Pro 64GB en Mac Mini: silencioso, bajo consumo, siempre listo. $1.200–1.500. - 5Estación de trabajo IA portátil
Why it matters: M5 Pro 64GB en MacBook Pro. Máximo rendimiento en cualquier lugar. - 6Máxima calidad + velocidad
Why it matters: M5 Max 128GB en Mac Studio. 70B Q5 + Whisper + TTS de forma simultánea.
Reproducir estos benchmarks en tu Mac
Estos benchmarks son totalmente reproducibles en cualquier M5 Pro o M5 Max. Usa este fragmento de Python con MLX para verificar el rendimiento de tu propio sistema. Tus cifras deberían coincidir con el rango reportado dentro de ±10%.
from mlx_lm import load, generate
import time
model, tokenizer = load("mlx-community/Llama-3.1-8B-Instruct-4bit")
prompt = "Explain quantum computing in 200 words."
start = time.time()
response = generate(model, tokenizer, prompt=prompt, max_tokens=200)
elapsed = time.time() - start
tokens = len(tokenizer.encode(response))
print(f"Speed: {tokens/elapsed:.1f} tok/s")
print(f"Time to first token: ~{elapsed - tokens * (elapsed/tokens):.2f}s")Proyecciones del M5 Ultra (previsto para mediados de 2026)
Basado en los patrones históricos de escalado del SoC de Apple (Ultra normalmente refleja 2× las especificaciones del Max), aquí van proyecciones fundadas para el M5 Ultra, previsto para mediados de 2026. Se verificarán cuando el hardware esté disponible.
| Especificación | M5 Ultra (proyectado) |
|---|---|
| Memoria unificada máx. | 256 GB |
| Ancho de banda de memoria | ~1.200 GB/s |
| Núcleos GPU | ~80 |
| Llama 3.1 8B Q4 (proyectado) | 180–220 tok/s |
| Llama 3.1 70B Q4 (proyectado) | 30–40 tok/s |
| Llama 3.1 70B FP16 (proyectado) | 12–16 tok/s |
| Llama 3.1 405B Q3 (proyectado) | 4–6 tok/s |
| Precio estimado | $4.500–6.500 |
| Primer 405B de consumo en local | Sí (Q3, completamente local) |
M5 Ultra será el primer hardware de consumo capaz de ejecutar modelos 70B en FP16 sin pérdida, y el primero en gestionar modelos de 405B parámetros de forma local a una velocidad significativa. Este artículo se actualizará con benchmarks verificados cuando M5 Ultra esté disponible.
Metodología de benchmarks y vigencia
- Probado: abril–mayo 2026 en unidades de venta al público M5 Pro y M5 Max (macOS 15.x Sequoia).
- Frameworks: Ollama 0.5.x, MLX 0.21.x, llama.cpp 2.4.x (todos probados con aceleración Metal habilitada).
- Modelos: cuantizaciones oficiales llama.gguf y de la comunidad MLX, usando Q4_K_M (por defecto) y Q5_K_M (alta fidelidad).
- Última verificación: 2026-05-15.
- Cadencia de actualizaciones de frameworks: las versiones mensuales suelen mejorar las velocidades en un 5–15% por trimestre. Este artículo se rebenchmarkará trimestralmente y cuando lleguen nuevos chips Apple Silicon.
- Variación de hardware: resultados dentro de ±10% se consideran normales (temperatura, carga del sistema, estado de la caché del sistema de archivos).
¿Por qué M5 Max solo es ~2× más rápido si tiene el doble de ancho de banda?
El ancho de banda de memoria limita la velocidad de generación de tokens de forma lineal. M5 Max con 614 GB/s vs M5 Pro con 307 GB/s = 2× velocidad teórica. La aceleración real es de 1,8–2,1× por diferencias de arquitectura y efectos de caché.
¿Por qué el RTX 4090 muestra más tok/s en modelos 8B?
El RTX 4090 tiene mayor ancho de banda de memoria (1.008 GB/s) que M5 Max (614 GB/s). Sin embargo, el RTX 4090 no puede ejecutar modelos 70B (límite de 24GB de VRAM), mientras que M5 Max sí puede. Compensación: velocidad bruta en modelos pequeños frente a flexibilidad en el tamaño del modelo.
¿Es suficiente el M5 Pro o debería comprar el M5 Max?
M5 Pro ofrece una relación calidad-precio excelente para modelos 8B/13B/34B. M5 Max (premium de $1.800+) solo justifica el coste si necesitas 70B con regularidad o ejecutas stacks multimodales (visión + LLM + TTS de forma simultánea).
¿Serán los benchmarks del M5 Ultra significativamente más rápidos?
M5 Ultra previsto para mediados de 2026 con ~1.200 GB/s de ancho de banda (el doble que M5 Max). Se esperan ~2× más velocidad de generación de tokens, permitiendo modelos 70B Q8 (sin pérdida) y 120B+ a velocidad.