Guide de dimensionnement mémoire pour les LLM locaux sur Mac : quels modèles tiennent dans 16 Go, 36 Go, 64 Go, 128 Go. Tableau de quantification (Q3, Q4, Q5, Q8), overhead réel et conseils d'achat. Tableau complet des tailles de modèles : de 3,8B (2,1 Go) aux modèles 405B.

TL;DR

16 Go : modèles 7B uniquement (serré)
36 Go : 13B confortablement, 34B Q4 serré
64 Go : 34B Q5 confortablement
70B Q5 confortablement avec 128 Go
Impossible de mettre à niveau après l'achat — acheter le maximum à l'achat

Points clés

La mémoire unifiée est partagée entre CPU et GPU — tout est disponible pour les modèles LLM.
La RTX 4070 a 12 Go VRAM + 32 Go RAM (séparés). Le Mac a une mémoire unifiée = tout disponible.
Un Mac 64 Go dispose de ~56–60 Go pour les LLM après l'overhead macOS (4–8 Go).
Le swap existe : macOS utilise le SSD si le modèle dépasse la mémoire libre. Fonctionne mais 5–10× plus lent.
La taille du modèle en Go varie selon la quantification : Llama 3.1 8B fait 16 Go FP16, 5 Go Q4, 8,5 Go Q8.
Règle : Acheter le maximum de mémoire — impossible à mettre à niveau après l'achat. Le coût mémoire à la vente est de 5–10 % ; remplacer l'intégralité du Mac plus tard coûte 100 %.

Fonctionnement de la mémoire unifiée pour les LLM

La mémoire unifiée est partagée entre CPU et GPU — tout est disponible pour le modèle. Contrairement aux GPU discrets (la RTX 4070 a 12 Go VRAM + 32 Go RAM séparés), l'Apple Silicon partage un seul pool. Mac 64 Go = 64 Go disponibles pour le modèle. macOS et les applications utilisent 4–8 Go, laissant 56–60 Go pour le LLM.

Tableau principal : niveau mémoire vs taille de modèle

Model	Parameters	Q3_K	Q4_K_M	Q5_K_M	Q8	FP16
Phi-4	3,8B	2,1 Go	2,5 Go	2,9 Go	4,0 Go	7,6 Go
Mistral 7B	7B	3,8 Go	4,5 Go	5,2 Go	7,5 Go	14 Go
Llama 3.1 8B	8B	4,2 Go	5,0 Go	5,8 Go	8,5 Go	16 Go
Llama 3.1 13B	13B	7,0 Go	8,5 Go	9,8 Go	14 Go	26 Go
Qwen2.5 34B	34B	17 Go	20 Go	24 Go	36 Go	68 Go
Llama 3.1 70B	70B	36 Go	42 Go	49 Go	74 Go	140 Go
Llama 3.1 405B	405B	200+ Go	240 Go	280 Go	410 Go	810 Go

Ajouter 4–8 Go pour l'overhead macOS lors du calcul de la compatibilité sur votre Mac.

Matrice compatible / incompatible

Modèle + Quantification	16 Go	36 Go	64 Go	128 Go
Phi-4 Q4 (2,5 Go)	✓ Largement	✓ Largement	✓ Largement	✓ Largement
Llama 3.1 8B Q4 (5 Go)	⚠️ Serré	✓ Confortable	✓ Largement	✓ Largement
Llama 3.1 8B Q8 (8,5 Go)	✗ Incompatible	✓ Confortable	✓ Largement	✓ Largement
Llama 3.1 13B Q4 (8,5 Go)	✗ Incompatible	✓ Confortable	✓ Largement	✓ Largement
Qwen2.5 34B Q4 (20 Go)	✗ Incompatible	⚠️ Serré	✓ Confortable	✓ Largement
Qwen2.5 34B Q5 (24 Go)	✗ Incompatible	✗ Incompatible	✓ Confortable	✓ Largement
Llama 3.1 70B Q3 (36 Go)	✗ Incompatible	✗ Incompatible	⚠️ Serré	✓ Confortable
Llama 3.1 70B Q4 (42 Go)	✗ Incompatible	✗ Incompatible	⚠️ Très serré	✓ Confortable
Llama 3.1 70B Q5 (49 Go)	✗ Incompatible	✗ Incompatible	✗ Incompatible	✓ Confortable
Llama 3.1 70B Q8 (74 Go)	✗ Incompatible	✗ Incompatible	✗ Incompatible	✓ Compatible

✓ Largement = 4+ Go libres | ✓ Confortable = 2–4 Go libres | ⚠️ Serré = moins de 2 Go libres | ✗ Incompatible = swap ou plantage

Ce qui tient dans chaque niveau mémoire (pratique)

1
16 Go (M5 base, MacBook Air)
Why it matters: Llama 3.1 8B Q4 tient (5 Go modèle + 8 Go OS = 13 Go) ✓ mais serré. Llama 8B Q8 ne tient pas sans swap. Whisper small tient à côté.
2
36 Go (M5 Pro base)
Why it matters: Llama 3.1 8B Q8 tient confortablement. Llama 13B Q4 tient. Qwen2.5 34B Q4 tient tout juste (20 Go + 8 Go OS = 28 Go). Multi-modèle : Whisper + LLaVA + TTS tiennent ✓
3
64 Go (M5 Pro max)
Why it matters: Qwen2.5 34B Q5 tient confortablement (24 Go). Llama 70B Q3 tient à peine. Les stacks multi-modèles ont beaucoup de place.
4
128 Go (M5 Max)
Why it matters: Llama 3.1 70B Q5 tient confortablement (49 Go). 70B Q8 tient (74 Go). Multi-modal : Whisper + modèle vision 90B + LLM 8B tiennent simultanément ✓

Besoins mémoire pour les stacks multi-modèles

Cas d'utilisation (stack)	Mémoire nécessaire
LLM seul (Llama 8B Q4)	5 Go + OS = 13 Go
LLM + STT (Llama 8B + Whisper large-v3)	8 Go + OS = 16 Go
LLM + STT + TTS (assistant vocal)	9 Go + OS = 17 Go
LLM + Vision (Llama 8B + LLaVA 7B)	11 Go + OS = 19 Go
Multimodal complet (LLM + Vision + STT + TTS)	14 Go + OS = 22 Go
LLM + RAG (Llama 8B + embeddings + ChromaDB)	8 Go + OS = 16 Go
Multimodal lourd (Llama 70B Q4 + Vision 90B)	100+ Go

Les stacks dépassant 22 Go nécessitent un Mac minimum 36 Go. Les stacks dépassant 50 Go nécessitent un Mac minimum 64 Go. Le stack multimodal lourd ne fonctionne que sur M5 Max 128 Go.

La fenêtre de contexte génère un overhead mémoire supplémentaire

Le cache KV évolue avec la longueur du contexte — plus la fenêtre de contexte est grande, plus le modèle utilise de mémoire à l'exécution. C'est un piège courant qui peut faire basculer une configuration serrée vers le swap.

Llama 3.1 8B avec contexte 8K : +0,5 Go
Llama 3.1 8B avec contexte 32K : +2 Go
Llama 3.1 8B avec contexte 128K : +8 Go
Llama 3.1 70B avec contexte 32K : +6 Go
Llama 3.1 70B avec contexte 128K : +24 Go

Acheter le maximum de mémoire — voici pourquoi

La mémoire Apple Silicon ne peut pas être mise à niveau après l'achat.
Les tailles de modèles augmentent : 8B aujourd'hui → sweet spot 13–34B en 2027.
16 Go est déjà marginal pour les LLM — 36 Go minimum recommandé.
Différence de prix : 36 Go→64 Go coûte ~200 € à l'achat, économise l'achat d'un nouveau Mac dans 2 ans quand les modèles dépasseront 36 Go.
M5 Pro 36 Go coûte aujourd'hui ~1 000 € ; 64 Go coûte ~1 200 €. Nouveau Mac dans 2 ans : 1 500 €+ pour la même configuration M5 Pro 64 Go.

Impact de la quantification sur la qualité

Q4_K_M (4 bits) : ~1–2 % de perte de qualité vs FP16. Imperceptible pour la plupart des usages. Meilleur choix par défaut.

Q5_K_M (5 bits) : ~0,5–1 % de perte de qualité. Négligeable. Recommandé si de la mémoire est disponible.

Q8 (8 bits) : ~0,1 % de perte de qualité. Essentiellement sans perte.

Q3_K (3 bits) : 3–5 % de perte de qualité. Perceptible sur le raisonnement complexe. Acceptable uniquement pour les scénarios contraints en espace.

Dois-je choisir 36 Go ou 64 Go ?

Prendre 64 Go si le budget le permet (~200 € de plus). 36 Go fonctionne aujourd'hui mais deviendra serré dans 12 mois avec la croissance des modèles. 64 Go est à l'épreuve du temps jusqu'en 2027–2028.

Puis-je mettre à niveau la mémoire plus tard ?

Non. La mémoire Apple Silicon est soudée et non mise à niveau. Acheter le maximum à l'achat.

Pourquoi 16 Go ne suffit-il pas ?

16 Go pour LLM + 4–8 Go pour macOS = 8–12 Go disponibles. Llama 8B Q4 nécessite 5 Go, ne laissant aucune place pour Whisper ou autres tâches. Trop serré.

Ai-je vraiment besoin de 128 Go ?

Seulement si vous exécutez régulièrement des modèles 70B ou avez besoin de Vision + LLM + STT simultanément. Sinon, 64 Go est largement suffisant.

48 Go suffisent-ils pour les LLM locaux ?

Oui — 48 Go (disponible sur M4 Pro et certaines configs M5 Pro) est un bon compromis. Fait tourner tous les modèles 34B, 70B Q3 à la limite, et les stacks multimodaux complets. Mieux que 36 Go ; si 64 Go est abordable, l'avenir le justifie.

Quelle mémoire pour exécuter Llama 3.1 70B en local ?

Minimum 48 Go (quantification Q3, perte de qualité perceptible). Recommandé 64 Go (quantification Q4, fit serré). Confortable 128 Go (quantification Q5/Q8, haute qualité). Le niveau 64 Go exige une gestion mémoire soigneuse ; 128 Go est la seule option sans contrainte pour le 70B.

Ai-je besoin de 128 Go pour l'IA locale en 2026 ?

Seulement pour exécuter régulièrement des modèles 70B ou des stacks Vision + LLM + STT simultanément. Pour l'usage LLM courant (modèles 8B–34B, RAG, assistance au code), le M5 Pro 64 Go est le sweet spot. 128 Go représente un surcoût de 2–3× pour un bénéfice marginal sans besoin spécifique de 70B.

Les LLM locaux sur M5 Max sont-ils conformes au RGPD ?

Oui. Toutes les données étant traitées localement sans transmission vers des serveurs externes, aucune donnée personnelle n'est soumise à l'article 28 RGPD. La CNIL recommande les solutions d'IA en local pour les traitements de données sensibles, en particulier dans les secteurs médical, juridique et financier.

Quelle mémoire unifiée pour les LLM locaux ? 16 Go vs 36 Go vs 64 Go vs 128 Go (2026)

De quelle quantité de mémoire Mac ai-je besoin pour les LLM locaux ?

TL;DR

Fonctionnement de la mémoire unifiée pour les LLM

Tableau principal : niveau mémoire vs taille de modèle

Matrice compatible / incompatible

Ce qui tient dans chaque niveau mémoire (pratique)

Besoins mémoire pour les stacks multi-modèles

La fenêtre de contexte génère un overhead mémoire supplémentaire

Acheter le maximum de mémoire — voici pourquoi

Impact de la quantification sur la qualité

Dois-je choisir 36 Go ou 64 Go ?

Puis-je mettre à niveau la mémoire plus tard ?

Pourquoi 16 Go ne suffit-il pas ?

Ai-je vraiment besoin de 128 Go ?

48 Go suffisent-ils pour les LLM locaux ?

Quelle mémoire pour exécuter Llama 3.1 70B en local ?

Ai-je besoin de 128 Go pour l'IA locale en 2026 ?

Les LLM locaux sur M5 Max sont-ils conformes au RGPD ?

A Note on Third-Party Facts

Quelle mémoire unifiée pour les LLM locaux ? 16 Go vs 36 Go vs 64 Go vs 128 Go (2026)

De quelle quantité de mémoire Mac ai-je besoin pour les LLM locaux ?

TL;DR

Fonctionnement de la mémoire unifiée pour les LLM

Tableau principal : niveau mémoire vs taille de modèle

Matrice compatible / incompatible

Ce qui tient dans chaque niveau mémoire (pratique)

Besoins mémoire pour les stacks multi-modèles

La fenêtre de contexte génère un overhead mémoire supplémentaire

Acheter le maximum de mémoire — voici pourquoi

Impact de la quantification sur la qualité

Dois-je choisir 36 Go ou 64 Go ?

Puis-je mettre à niveau la mémoire plus tard ?

Pourquoi 16 Go ne suffit-il pas ?

Ai-je vraiment besoin de 128 Go ?

48 Go suffisent-ils pour les LLM locaux ?

Quelle mémoire pour exécuter Llama 3.1 70B en local ?

Ai-je besoin de 128 Go pour l'IA locale en 2026 ?

Les LLM locaux sur M5 Max sont-ils conformes au RGPD ?

Articles connexes

A Note on Third-Party Facts