TL;DR
- 16 Go : modèles 7B uniquement (serré)
- 36 Go : 13B confortablement, 34B Q4 serré
- 64 Go : 34B Q5 confortablement
- 70B Q5 confortablement avec 128 Go
- Impossible de mettre à niveau après l'achat — acheter le maximum à l'achat
Points clés
- La mémoire unifiée est partagée entre CPU et GPU — tout est disponible pour les modèles LLM.
- La RTX 4070 a 12 Go VRAM + 32 Go RAM (séparés). Le Mac a une mémoire unifiée = tout disponible.
- Un Mac 64 Go dispose de ~56–60 Go pour les LLM après l'overhead macOS (4–8 Go).
- Le swap existe : macOS utilise le SSD si le modèle dépasse la mémoire libre. Fonctionne mais 5–10× plus lent.
- La taille du modèle en Go varie selon la quantification : Llama 3.1 8B fait 16 Go FP16, 5 Go Q4, 8,5 Go Q8.
- Règle : Acheter le maximum de mémoire — impossible à mettre à niveau après l'achat. Le coût mémoire à la vente est de 5–10 % ; remplacer l'intégralité du Mac plus tard coûte 100 %.
Fonctionnement de la mémoire unifiée pour les LLM
La mémoire unifiée est partagée entre CPU et GPU — tout est disponible pour le modèle. Contrairement aux GPU discrets (la RTX 4070 a 12 Go VRAM + 32 Go RAM séparés), l'Apple Silicon partage un seul pool. Mac 64 Go = 64 Go disponibles pour le modèle. macOS et les applications utilisent 4–8 Go, laissant 56–60 Go pour le LLM.
Tableau principal : niveau mémoire vs taille de modèle
| Model | Parameters | Q3_K | Q4_K_M | Q5_K_M | Q8 | FP16 |
|---|---|---|---|---|---|---|
| Phi-4 | 3,8B | 2,1 Go | 2,5 Go | 2,9 Go | 4,0 Go | 7,6 Go |
| Mistral 7B | 7B | 3,8 Go | 4,5 Go | 5,2 Go | 7,5 Go | 14 Go |
| Llama 3.1 8B | 8B | 4,2 Go | 5,0 Go | 5,8 Go | 8,5 Go | 16 Go |
| Llama 3.1 13B | 13B | 7,0 Go | 8,5 Go | 9,8 Go | 14 Go | 26 Go |
| Qwen2.5 34B | 34B | 17 Go | 20 Go | 24 Go | 36 Go | 68 Go |
| Llama 3.1 70B | 70B | 36 Go | 42 Go | 49 Go | 74 Go | 140 Go |
| Llama 3.1 405B | 405B | 200+ Go | 240 Go | 280 Go | 410 Go | 810 Go |
Ajouter 4–8 Go pour l'overhead macOS lors du calcul de la compatibilité sur votre Mac.
Matrice compatible / incompatible
| Modèle + Quantification | 16 Go | 36 Go | 64 Go | 128 Go |
|---|---|---|---|---|
| Phi-4 Q4 (2,5 Go) | ✓ Largement | ✓ Largement | ✓ Largement | ✓ Largement |
| Llama 3.1 8B Q4 (5 Go) | ⚠️ Serré | ✓ Confortable | ✓ Largement | ✓ Largement |
| Llama 3.1 8B Q8 (8,5 Go) | ✗ Incompatible | ✓ Confortable | ✓ Largement | ✓ Largement |
| Llama 3.1 13B Q4 (8,5 Go) | ✗ Incompatible | ✓ Confortable | ✓ Largement | ✓ Largement |
| Qwen2.5 34B Q4 (20 Go) | ✗ Incompatible | ⚠️ Serré | ✓ Confortable | ✓ Largement |
| Qwen2.5 34B Q5 (24 Go) | ✗ Incompatible | ✗ Incompatible | ✓ Confortable | ✓ Largement |
| Llama 3.1 70B Q3 (36 Go) | ✗ Incompatible | ✗ Incompatible | ⚠️ Serré | ✓ Confortable |
| Llama 3.1 70B Q4 (42 Go) | ✗ Incompatible | ✗ Incompatible | ⚠️ Très serré | ✓ Confortable |
| Llama 3.1 70B Q5 (49 Go) | ✗ Incompatible | ✗ Incompatible | ✗ Incompatible | ✓ Confortable |
| Llama 3.1 70B Q8 (74 Go) | ✗ Incompatible | ✗ Incompatible | ✗ Incompatible | ✓ Compatible |
✓ Largement = 4+ Go libres | ✓ Confortable = 2–4 Go libres | ⚠️ Serré = moins de 2 Go libres | ✗ Incompatible = swap ou plantage
Ce qui tient dans chaque niveau mémoire (pratique)
- 116 Go (M5 base, MacBook Air)
Why it matters: Llama 3.1 8B Q4 tient (5 Go modèle + 8 Go OS = 13 Go) ✓ mais serré. Llama 8B Q8 ne tient pas sans swap. Whisper small tient à côté. - 236 Go (M5 Pro base)
Why it matters: Llama 3.1 8B Q8 tient confortablement. Llama 13B Q4 tient. Qwen2.5 34B Q4 tient tout juste (20 Go + 8 Go OS = 28 Go). Multi-modèle : Whisper + LLaVA + TTS tiennent ✓ - 364 Go (M5 Pro max)
Why it matters: Qwen2.5 34B Q5 tient confortablement (24 Go). Llama 70B Q3 tient à peine. Les stacks multi-modèles ont beaucoup de place. - 4128 Go (M5 Max)
Why it matters: Llama 3.1 70B Q5 tient confortablement (49 Go). 70B Q8 tient (74 Go). Multi-modal : Whisper + modèle vision 90B + LLM 8B tiennent simultanément ✓
Besoins mémoire pour les stacks multi-modèles
| Cas d'utilisation (stack) | Mémoire nécessaire |
|---|---|
| LLM seul (Llama 8B Q4) | 5 Go + OS = 13 Go |
| LLM + STT (Llama 8B + Whisper large-v3) | 8 Go + OS = 16 Go |
| LLM + STT + TTS (assistant vocal) | 9 Go + OS = 17 Go |
| LLM + Vision (Llama 8B + LLaVA 7B) | 11 Go + OS = 19 Go |
| Multimodal complet (LLM + Vision + STT + TTS) | 14 Go + OS = 22 Go |
| LLM + RAG (Llama 8B + embeddings + ChromaDB) | 8 Go + OS = 16 Go |
| Multimodal lourd (Llama 70B Q4 + Vision 90B) | 100+ Go |
Les stacks dépassant 22 Go nécessitent un Mac minimum 36 Go. Les stacks dépassant 50 Go nécessitent un Mac minimum 64 Go. Le stack multimodal lourd ne fonctionne que sur M5 Max 128 Go.
La fenêtre de contexte génère un overhead mémoire supplémentaire
Le cache KV évolue avec la longueur du contexte — plus la fenêtre de contexte est grande, plus le modèle utilise de mémoire à l'exécution. C'est un piège courant qui peut faire basculer une configuration serrée vers le swap.
- Llama 3.1 8B avec contexte 8K : +0,5 Go
- Llama 3.1 8B avec contexte 32K : +2 Go
- Llama 3.1 8B avec contexte 128K : +8 Go
- Llama 3.1 70B avec contexte 32K : +6 Go
- Llama 3.1 70B avec contexte 128K : +24 Go
Acheter le maximum de mémoire — voici pourquoi
- La mémoire Apple Silicon ne peut pas être mise à niveau après l'achat.
- Les tailles de modèles augmentent : 8B aujourd'hui → sweet spot 13–34B en 2027.
- 16 Go est déjà marginal pour les LLM — 36 Go minimum recommandé.
- Différence de prix : 36 Go→64 Go coûte ~200 € à l'achat, économise l'achat d'un nouveau Mac dans 2 ans quand les modèles dépasseront 36 Go.
- M5 Pro 36 Go coûte aujourd'hui ~1 000 € ; 64 Go coûte ~1 200 €. Nouveau Mac dans 2 ans : 1 500 €+ pour la même configuration M5 Pro 64 Go.
Impact de la quantification sur la qualité
Q4_K_M (4 bits) : ~1–2 % de perte de qualité vs FP16. Imperceptible pour la plupart des usages. Meilleur choix par défaut.
Q5_K_M (5 bits) : ~0,5–1 % de perte de qualité. Négligeable. Recommandé si de la mémoire est disponible.
Q8 (8 bits) : ~0,1 % de perte de qualité. Essentiellement sans perte.
Q3_K (3 bits) : 3–5 % de perte de qualité. Perceptible sur le raisonnement complexe. Acceptable uniquement pour les scénarios contraints en espace.
Dois-je choisir 36 Go ou 64 Go ?
Prendre 64 Go si le budget le permet (~200 € de plus). 36 Go fonctionne aujourd'hui mais deviendra serré dans 12 mois avec la croissance des modèles. 64 Go est à l'épreuve du temps jusqu'en 2027–2028.
Puis-je mettre à niveau la mémoire plus tard ?
Non. La mémoire Apple Silicon est soudée et non mise à niveau. Acheter le maximum à l'achat.
Pourquoi 16 Go ne suffit-il pas ?
16 Go pour LLM + 4–8 Go pour macOS = 8–12 Go disponibles. Llama 8B Q4 nécessite 5 Go, ne laissant aucune place pour Whisper ou autres tâches. Trop serré.
Ai-je vraiment besoin de 128 Go ?
Seulement si vous exécutez régulièrement des modèles 70B ou avez besoin de Vision + LLM + STT simultanément. Sinon, 64 Go est largement suffisant.
48 Go suffisent-ils pour les LLM locaux ?
Oui — 48 Go (disponible sur M4 Pro et certaines configs M5 Pro) est un bon compromis. Fait tourner tous les modèles 34B, 70B Q3 à la limite, et les stacks multimodaux complets. Mieux que 36 Go ; si 64 Go est abordable, l'avenir le justifie.
Quelle mémoire pour exécuter Llama 3.1 70B en local ?
Minimum 48 Go (quantification Q3, perte de qualité perceptible). Recommandé 64 Go (quantification Q4, fit serré). Confortable 128 Go (quantification Q5/Q8, haute qualité). Le niveau 64 Go exige une gestion mémoire soigneuse ; 128 Go est la seule option sans contrainte pour le 70B.
Ai-je besoin de 128 Go pour l'IA locale en 2026 ?
Seulement pour exécuter régulièrement des modèles 70B ou des stacks Vision + LLM + STT simultanément. Pour l'usage LLM courant (modèles 8B–34B, RAG, assistance au code), le M5 Pro 64 Go est le sweet spot. 128 Go représente un surcoût de 2–3× pour un bénéfice marginal sans besoin spécifique de 70B.
Les LLM locaux sur M5 Max sont-ils conformes au RGPD ?
Oui. Toutes les données étant traitées localement sans transmission vers des serveurs externes, aucune donnée personnelle n'est soumise à l'article 28 RGPD. La CNIL recommande les solutions d'IA en local pour les traitements de données sensibles, en particulier dans les secteurs médical, juridique et financier.