PromptQuorumPromptQuorum
Accueil/LLMs locaux/M5 Pro vs M5 Max Benchmarks LLM 2026 : tokens/sec, bande passante, consommation
Hardware & Performance

M5 Pro vs M5 Max Benchmarks LLM 2026 : tokens/sec, bande passante, consommation

·12 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

M5 Pro (307 GB/s) génère 50–60 tok/s sur Llama 3.1 8B Q4 ; M5 Max (614 GB/s) génère 100–120 tok/s sur le même modèle grâce à 2× bande passante. Sur modèles 70B : M5 Pro atteint 8–12 tok/s (Q4), M5 Max atteint 15–20 tok/s (Q5). Avantage 2× bande passante = 2× vitesse de génération directement. Whisper large-v3 s'exécute à 10–12× temps réel sur M5 Pro, 12–14× sur M5 Max (accélération Metal).

Benchmarks LLM M5 Pro vs M5 Max 2026 en tête-à-tête. Mesures détaillées tokens par seconde (tok/s) pour Llama 3.1 8B Q4/Q8, 70B Q4/Q5, Mistral 7B, Phi-4 et Whisper large-v3. Analyse de la bande passante, comparaison consommation énergétique et quel chip choisir selon la taille modèle et cas d'usage.

Points clés

  • M5 Pro (307 GB/s) génère 50–60 tok/s sur Llama 3.1 8B Q4. M5 Max (614 GB/s) génère 100–120 tok/s sur le même modèle.
  • Vitesse évolue linéairement avec bande passante. M5 Max avec 2× bande = 2× vitesse sur modèles identiques.
  • Sur modèles 70B : M5 Pro atteint 8–12 tok/s (Q4), M5 Max atteint 15–20 tok/s (Q5).
  • Whisper large-v3 STT : 10–12× temps réel sur M5 Pro, 12–14× sur M5 Max via accélération Metal.
  • Consommation sous génération LLM : M5 Pro 25–45W, M5 Max 60–100W. Tous deux dramatiquement inférieurs à RTX 4090 (350–450W).
  • M5 Pro rentable pour modèles 8B/13B/34B. M5 Max justifie premium uniquement pour usage régulier 70B ou stacks multimodaux.
  • Aucun throttling thermique observé sur aucun chip sous charge soutenue 30 min avec modèles 70B.

M5 Pro vs M5 Max — Spécifications importantes pour LLMs

SpecM5 ProM5 Max
Mémoire unifiée max64 GB128 GB
Bande passante mémoire307 GB/s460–614 GB/s
Cœurs GPU~20~40
Neural Engine16-core16-core
Taille modèle max (Q4)~34B confortable~70B confortable
Revendication Apple vs M44× plus rapide prompts LLM4× plus rapide prompts LLM

Benchmarks génération tokens LLM

Méthodologie : modèles testés sur Ollama (Metal), MLX et llama.cpp avec Metal activé. tok/s rapportée est vitesse génération (traitement prompt traité séparément). Environnement : macOS Sequoia, frameworks derniers, complètement chargé.

ModèleM5 Pro (64GB)M5 Max (128GB)RTX 4090 (24GB)
Llama 3.1 8B Q450–60 tok/s100–120 tok/s80–100 tok/s
Llama 3.1 8B Q835–45 tok/s70–85 tok/s60–80 tok/s
Llama 3.1 34B Q415–25 tok/s30–45 tok/sOOM (24GB)
Llama 3.1 34B Q512–20 tok/s25–35 tok/sOOM
Llama 3.1 70B Q48–12 tok/s16–22 tok/sOOM
Llama 3.1 70B Q56–10 tok/s12–18 tok/sOOM
Mistral 7B Q455–65 tok/s110–130 tok/s90–110 tok/s
Phi-4 Q460–70 tok/s120–140 tok/s100–120 tok/s

M5 Max surpasse M5 Pro par ~2× sur petits modèles grâce avantage bande passante. Modèles 70B s'exécutent confortablement sur M5 Max mais sont justes sur M5 Pro. RTX 4090 ne peut pas adapter 70B en VRAM. Benchmarks précoces — attendez améliorations 5–15% avec mises à jour framework trimestrielles.

Performance framework : même modèle, trois frameworks sur M5 Pro 64GB

Différents frameworks ont différents niveaux optimisation Metal. Voici comment Ollama, MLX et llama.cpp se comparent sur matériel identique avec même modèle.

  • MLX est 15–25% plus rapide que Ollama sur Apple Silicon grâce optimisation Metal native.
  • llama.cpp comble écart avec optimisations KV-cache ; dans 10% Ollama.
  • Basculer d'Ollama à MLX si vous avez besoin vitesse maximale sur M5 Pro/Max.
  • Référence benchmark vidéo : Benchmarks d'inférence locale M5 Max vs M4 Max (IndyDevDan, 35 min) — benchmark indépendant compare MLX (118 tok/s) vs GGUF (60 tok/s) sur Apple Silicon, plus performance agents de codage réels et Gemma 4 vs Qwen 3.5 sur matériel M5 Max.
ModèleOllamaMLXllama.cpp
Llama 3.1 8B Q448–52 tok/s58–62 tok/s50–55 tok/s
Llama 3.1 70B Q48–10 tok/s11–13 tok/s9–11 tok/s
Mistral 7B Q450–55 tok/s62–68 tok/s53–58 tok/s

Temps premier token (TTFT) : réactivité compte

Génération token soutenue (tok/s) raconte uniquement moitié histoire. Pour applications chat, temps premier token (TTFT) — combien temps avant premier mot — compte plus. Prompts plus longs traités par batches, non caractère par caractère.

Modèle & PromptM5 Pro TTFTM5 Max TTFTRTX 4090 TTFT
Llama 3.1 8B Q4 (prompt 100-token)~0,5s~0,3s~0,2s
Llama 3.1 8B Q4 (prompt 1000-token)~1,5s~0,9s~0,6s
Llama 3.1 70B Q4 (prompt 100-token)~2,5s~1,5sOOM
Llama 3.1 70B Q4 (prompt 1000-token)~6s~4sOOM

M5 Max a 2× TTFT inférieur grâce traitement prompt plus rapide. Pour chat : M5 Max se sent réactif même sur 70B ; M5 Pro acceptable pour 8B.

Latence tâches réelles (exemples pratiques)

Latence bout-à-bout pour tâches communes, mesurée de entrée utilisateur à sortie complète. Inclut traitement prompt, génération et formatage sortie.

TâcheM5 ProM5 MaxGPT-4o (cloud)
Générer réponse 500-word (8B)9–10 sec4–5 sec6–8 sec
Générer réponse 500-word (70B)60–90 sec30–40 sec6–8 sec
Résumer document 5000-word (8B)12–15 sec6–8 sec8–12 sec
Complétion code (8B, 50 tokens)1–2 sec0,5–1 sec1–2 sec
Réponse assistant vocal (8B, 100 tokens)2–3 sec1–2 secN/A (exige transcription)

APIs cloud plus rapides pour vitesse génération brute mais exigent internet, coût par query et envoient données providers. Pour plupart utilisateurs, M5 Pro fournit réactivité vitesse cloud pour modèles 8B à zéro coût continu. M5 Max indifférencié cloud sur 70B.

Vitesse traitement prompts (revendication Apple « 4× plus rapide »)

M5 Pro vs M4 Pro : Apple revendique traitement prompt 4× plus rapide. Données réelles montrent amélioration 15–25%, non 4×.

Pourquoi discordance? Traitement prompt limité bande passante ; M5 Pro à 307 GB/s vs M4 Pro à 273 GB/s est gain bande passante brute 12% uniquement. Revendication « 4× » inclut probablement optimisations Neural Engine pour workloads spécifiques.

Pour génération token (métrique primaire) : amélioration ~15–25% vs M4 Pro observée en pratique.

Benchmarks Whisper STT sur M5

ModèleM5 Pro (Metal)M5 Max (Metal)RTX 4070 (CUDA)
Whisper large-v310–12× temps réel12–14× temps réel8–12× (whisper.cpp) / 12× (faster-whisper)
Whisper small30–35× temps réel35–40× temps réel25–30× temps réel

×N temps réel signifie modèle transcrit N secondes audio en 1 seconde. 10× = 10 secondes audio en 1 seconde.

Efficacité énergétique sous charge LLM

MétriqueM5 ProM5 MaxRTX 4090 desktop
Puissance inactivité8W12W50W
Génération LLM (8B)25W35W300W
Génération LLM (70B)45W70WN/A (OOM)
Bruit ventilateur (charge 70B)SilencieuxModéréN/A
Électricité annuelle (24/7, 8B)~€26~€35~€297

Test throttling thermique

Exécution inférence 70B soutenue pendant 30 min à vitesse génération maximale. Résultat : aucun throttling thermique sur M5 Pro ou M5 Max. Deux chips maintiennent tok/s stable tout au long. Bruit ventilateur augmente sur M5 Max après ~5 min mais se stabilise. Température reste limites sécurité.

Quel chip acheter?

  1. 1
    Budget : modèles 8B/13B quotidiens
    Why it matters: M5 Pro 36–64GB c'est excessif mais orientation futur. 50–60 tok/s confortable pour utilisation interactive.
  2. 2
    Milieu gamme : modèles 34B
    Why it matters: M5 Pro 64GB ideal. 40–50 tok/s utilisable ; M5 Max prime coût inutile.
  3. 3
    Haut gamme : modèles 70B régulièrement
    Why it matters: M5 Max 128GB SEUL option consommateur sans complexité dual-GPU. 15–20 tok/s acceptable.
  4. 4
    Serveur toujours-on
    Why it matters: M5 Pro 64GB en Mac mini : silencieux, basse puissance, toujours prêt. €960–1.200.
  5. 5
    Station travail IA portable
    Why it matters: M5 Pro 64GB en MacBook Pro. Performance complète déplacement.
  6. 6
    Qualité + vitesse maximum
    Why it matters: M5 Max 128GB en Mac Studio. 70B Q5 + Whisper + TTS simultanément.

Reproduire ces benchmarks sur votre Mac

Ces benchmarks reproduisibles complètement sur n'importe quel M5 Pro ou M5 Max. Utilisez ce snippet Python avec MLX pour vérifier performance système propre. Vos nombres doivent correspondre plage rapportée dans ±10%.

python
from mlx_lm import load, generate
import time

model, tokenizer = load("mlx-community/Llama-3.1-8B-Instruct-4bit")

prompt = "Explain quantum computing in 200 words."
start = time.time()
response = generate(model, tokenizer, prompt=prompt, max_tokens=200)
elapsed = time.time() - start

tokens = len(tokenizer.encode(response))
print(f"Speed: {tokens/elapsed:.1f} tok/s")
print(f"Time to first token: ~{elapsed - tokens * (elapsed/tokens):.2f}s")

Projections M5 Ultra (attendu mi-2026)

Basé patterns historiques mise à l'échelle Apple SoC (Ultra miroir typiquement 2× spécifications Max), voici projections fondées M5 Ultra, attendu mi-2026. Celles-ci seront vérifiées quand matériel livrés.

SpecM5 Ultra (projeté)
Mémoire unifiée max256 GB
Bande passante mémoire~1 200 GB/s
Cœurs GPU~80
Llama 3.1 8B Q4 (projeté)180–220 tok/s
Llama 3.1 70B Q4 (projeté)30–40 tok/s
Llama 3.1 70B FP16 (projeté)12–16 tok/s
Llama 3.1 405B Q3 (projeté)4–6 tok/s
Prix attendu€3.600–5.200
Premier 405B consommateur localementOui (Q3, entièrement-local)

M5 Ultra sera premier matériel consommateur capable exécuter modèles 70B en FP16 sans perte, et premier gérer modèles 405B paramètre localement à vitesse significative. Cet article sera mis à jour benchmarks vérifiés quand M5 Ultra livrés.

Méthodologie benchmark et fraîcheur

  • Testé : avril–mai 2026 sur unités retail M5 Pro et M5 Max (macOS 15.x Sequoia).
  • Frameworks : Ollama 0.5.x, MLX 0.21.x, llama.cpp 2.4.x (tous testés avec accélération Metal activée).
  • Modèles : quantisations officielles llama.gguf, MLX community, utilisant Q4_K_M (défaut) et Q5_K_M (haute fidélité).
  • Dernière vérification : 2026-05-15.
  • Cadence mises à jour framework : sorties mensuelles améliorent typiquement vitesses 5–15% par trimestre. Cet article sera re-benchmarké trimestriellement et quand puces Apple Silicon neuves lancées.
  • Variation matériel : résultats dans ±10% considérés normaux (thermiques, charge système, état cache filesystem).

Pourquoi M5 Max seulement ~2× plus rapide si 2× bande passante?

Bande passante mémoire limite vitesse génération token linéairement. M5 Max 614 GB/s vs M5 Pro 307 GB/s = 2× vitesse théorique. Speedup réel-monde 1,8–2,1× en raison différences architecture et effets cache.

Pourquoi RTX 4090 montre tok/s plus rapide sur modèles 8B?

RTX 4090 a bande passante mémoire supérieure (1 008 GB/s) que M5 Max (614 GB/s). Mais RTX 4090 ne peut pas exécuter modèles 70B (limite VRAM 24GB), tandis M5 Max peut. Compromis : vitesse brute petits modèles vs flexibilité taille modèle.

M5 Pro suffit-il, ou dois-je acheter M5 Max?

M5 Pro excellent rapport valeur modèles 8B/13B/34B. M5 Max (prime €1 440+) justifie coût uniquement si vous avez besoin régulièrement 70B ou exécutez stacks multimodaux (vision + LLM + TTS simultanément).

Benchmarks M5 Ultra seront-ils dramatiquement plus rapides?

M5 Ultra attendu mi-2026 avec ~1 200 GB/s bande passante (double M5 Max). Attendez ~2× génération token plus rapide, permettant modèles 70B Q8 (sans perte) et 120B+ à vitesse.

Dois-je respecter réglementations données (CNIL/RGPD) pour inférence locale sur M5?

Oui, réglementations RGPD/CNIL s'appliquent, mais inférence locale sur M5 offre avantages conformité majeurs. Comme données ne quittent jamais l'appareil, stockage données et transferts tiers sont éliminés, simplifiant conformité RGPD Article 28. Consultez délégué données (DPD) organisme, mais inférence locale est conforme-par-design comparé dépendance services cloud.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vous avez benchmarké votre M5 Pro ou M5 Max? Comparez vos réponses LLM locales contre GPT-4, Claude, Gemini et 22 autres modèles en une seule dispatch avec PromptQuorum — validez que configuration Apple Silicon correspond qualité cloud pour vos cas usage spécifiques.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

M5 Pro vs M5 Max 2026 : Benchmarks tok/s Détaillés