PromptQuorumPromptQuorum
Accueil/LLMs locaux/Quelle mémoire unifiée pour les LLM locaux ? 16 Go vs 36 Go vs 64 Go vs 128 Go (2026)
Hardware & Performance

Quelle mémoire unifiée pour les LLM locaux ? 16 Go vs 36 Go vs 64 Go vs 128 Go (2026)

·10 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

16 Go : modèles 7B uniquement (serré). 36 Go : 13B confortablement, 34B Q4 serré. 64 Go : 34B Q5 confortablement. 128 Go : 70B Q5 confortablement. Acheter le maximum de mémoire à l'achat — impossible à mettre à niveau après. 36 Go minimum recommandé ; M5 Pro 64 Go est à l'épreuve du temps jusqu'en 2027.

Guide de dimensionnement mémoire pour les LLM locaux sur Mac : quels modèles tiennent dans 16 Go, 36 Go, 64 Go, 128 Go. Tableau de quantification (Q3, Q4, Q5, Q8), overhead réel et conseils d'achat. Tableau complet des tailles de modèles : de 3,8B (2,1 Go) aux modèles 405B.

TL;DR

  • 16 Go : modèles 7B uniquement (serré)
  • 36 Go : 13B confortablement, 34B Q4 serré
  • 64 Go : 34B Q5 confortablement
  • 70B Q5 confortablement avec 128 Go
  • Impossible de mettre à niveau après l'achat — acheter le maximum à l'achat

Points clés

  • La mémoire unifiée est partagée entre CPU et GPU — tout est disponible pour les modèles LLM.
  • La RTX 4070 a 12 Go VRAM + 32 Go RAM (séparés). Le Mac a une mémoire unifiée = tout disponible.
  • Un Mac 64 Go dispose de ~56–60 Go pour les LLM après l'overhead macOS (4–8 Go).
  • Le swap existe : macOS utilise le SSD si le modèle dépasse la mémoire libre. Fonctionne mais 5–10× plus lent.
  • La taille du modèle en Go varie selon la quantification : Llama 3.1 8B fait 16 Go FP16, 5 Go Q4, 8,5 Go Q8.
  • Règle : Acheter le maximum de mémoire — impossible à mettre à niveau après l'achat. Le coût mémoire à la vente est de 5–10 % ; remplacer l'intégralité du Mac plus tard coûte 100 %.

Fonctionnement de la mémoire unifiée pour les LLM

La mémoire unifiée est partagée entre CPU et GPU — tout est disponible pour le modèle. Contrairement aux GPU discrets (la RTX 4070 a 12 Go VRAM + 32 Go RAM séparés), l'Apple Silicon partage un seul pool. Mac 64 Go = 64 Go disponibles pour le modèle. macOS et les applications utilisent 4–8 Go, laissant 56–60 Go pour le LLM.

Tableau principal : niveau mémoire vs taille de modèle

ModelParametersQ3_KQ4_K_MQ5_K_MQ8FP16
Phi-43,8B2,1 Go2,5 Go2,9 Go4,0 Go7,6 Go
Mistral 7B7B3,8 Go4,5 Go5,2 Go7,5 Go14 Go
Llama 3.1 8B8B4,2 Go5,0 Go5,8 Go8,5 Go16 Go
Llama 3.1 13B13B7,0 Go8,5 Go9,8 Go14 Go26 Go
Qwen2.5 34B34B17 Go20 Go24 Go36 Go68 Go
Llama 3.1 70B70B36 Go42 Go49 Go74 Go140 Go
Llama 3.1 405B405B200+ Go240 Go280 Go410 Go810 Go

Ajouter 4–8 Go pour l'overhead macOS lors du calcul de la compatibilité sur votre Mac.

Matrice compatible / incompatible

Modèle + Quantification16 Go36 Go64 Go128 Go
Phi-4 Q4 (2,5 Go)✓ Largement✓ Largement✓ Largement✓ Largement
Llama 3.1 8B Q4 (5 Go)⚠️ Serré✓ Confortable✓ Largement✓ Largement
Llama 3.1 8B Q8 (8,5 Go)✗ Incompatible✓ Confortable✓ Largement✓ Largement
Llama 3.1 13B Q4 (8,5 Go)✗ Incompatible✓ Confortable✓ Largement✓ Largement
Qwen2.5 34B Q4 (20 Go)✗ Incompatible⚠️ Serré✓ Confortable✓ Largement
Qwen2.5 34B Q5 (24 Go)✗ Incompatible✗ Incompatible✓ Confortable✓ Largement
Llama 3.1 70B Q3 (36 Go)✗ Incompatible✗ Incompatible⚠️ Serré✓ Confortable
Llama 3.1 70B Q4 (42 Go)✗ Incompatible✗ Incompatible⚠️ Très serré✓ Confortable
Llama 3.1 70B Q5 (49 Go)✗ Incompatible✗ Incompatible✗ Incompatible✓ Confortable
Llama 3.1 70B Q8 (74 Go)✗ Incompatible✗ Incompatible✗ Incompatible✓ Compatible

✓ Largement = 4+ Go libres | ✓ Confortable = 2–4 Go libres | ⚠️ Serré = moins de 2 Go libres | ✗ Incompatible = swap ou plantage

Ce qui tient dans chaque niveau mémoire (pratique)

  1. 1
    16 Go (M5 base, MacBook Air)
    Why it matters: Llama 3.1 8B Q4 tient (5 Go modèle + 8 Go OS = 13 Go) ✓ mais serré. Llama 8B Q8 ne tient pas sans swap. Whisper small tient à côté.
  2. 2
    36 Go (M5 Pro base)
    Why it matters: Llama 3.1 8B Q8 tient confortablement. Llama 13B Q4 tient. Qwen2.5 34B Q4 tient tout juste (20 Go + 8 Go OS = 28 Go). Multi-modèle : Whisper + LLaVA + TTS tiennent ✓
  3. 3
    64 Go (M5 Pro max)
    Why it matters: Qwen2.5 34B Q5 tient confortablement (24 Go). Llama 70B Q3 tient à peine. Les stacks multi-modèles ont beaucoup de place.
  4. 4
    128 Go (M5 Max)
    Why it matters: Llama 3.1 70B Q5 tient confortablement (49 Go). 70B Q8 tient (74 Go). Multi-modal : Whisper + modèle vision 90B + LLM 8B tiennent simultanément ✓

Besoins mémoire pour les stacks multi-modèles

Cas d'utilisation (stack)Mémoire nécessaire
LLM seul (Llama 8B Q4)5 Go + OS = 13 Go
LLM + STT (Llama 8B + Whisper large-v3)8 Go + OS = 16 Go
LLM + STT + TTS (assistant vocal)9 Go + OS = 17 Go
LLM + Vision (Llama 8B + LLaVA 7B)11 Go + OS = 19 Go
Multimodal complet (LLM + Vision + STT + TTS)14 Go + OS = 22 Go
LLM + RAG (Llama 8B + embeddings + ChromaDB)8 Go + OS = 16 Go
Multimodal lourd (Llama 70B Q4 + Vision 90B)100+ Go

Les stacks dépassant 22 Go nécessitent un Mac minimum 36 Go. Les stacks dépassant 50 Go nécessitent un Mac minimum 64 Go. Le stack multimodal lourd ne fonctionne que sur M5 Max 128 Go.

La fenêtre de contexte génère un overhead mémoire supplémentaire

Le cache KV évolue avec la longueur du contexte — plus la fenêtre de contexte est grande, plus le modèle utilise de mémoire à l'exécution. C'est un piège courant qui peut faire basculer une configuration serrée vers le swap.

  • Llama 3.1 8B avec contexte 8K : +0,5 Go
  • Llama 3.1 8B avec contexte 32K : +2 Go
  • Llama 3.1 8B avec contexte 128K : +8 Go
  • Llama 3.1 70B avec contexte 32K : +6 Go
  • Llama 3.1 70B avec contexte 128K : +24 Go

Acheter le maximum de mémoire — voici pourquoi

  • La mémoire Apple Silicon ne peut pas être mise à niveau après l'achat.
  • Les tailles de modèles augmentent : 8B aujourd'hui → sweet spot 13–34B en 2027.
  • 16 Go est déjà marginal pour les LLM — 36 Go minimum recommandé.
  • Différence de prix : 36 Go→64 Go coûte ~200 € à l'achat, économise l'achat d'un nouveau Mac dans 2 ans quand les modèles dépasseront 36 Go.
  • M5 Pro 36 Go coûte aujourd'hui ~1 000 € ; 64 Go coûte ~1 200 €. Nouveau Mac dans 2 ans : 1 500 €+ pour la même configuration M5 Pro 64 Go.

Impact de la quantification sur la qualité

Q4_K_M (4 bits) : ~1–2 % de perte de qualité vs FP16. Imperceptible pour la plupart des usages. Meilleur choix par défaut.

Q5_K_M (5 bits) : ~0,5–1 % de perte de qualité. Négligeable. Recommandé si de la mémoire est disponible.

Q8 (8 bits) : ~0,1 % de perte de qualité. Essentiellement sans perte.

Q3_K (3 bits) : 3–5 % de perte de qualité. Perceptible sur le raisonnement complexe. Acceptable uniquement pour les scénarios contraints en espace.

Dois-je choisir 36 Go ou 64 Go ?

Prendre 64 Go si le budget le permet (~200 € de plus). 36 Go fonctionne aujourd'hui mais deviendra serré dans 12 mois avec la croissance des modèles. 64 Go est à l'épreuve du temps jusqu'en 2027–2028.

Puis-je mettre à niveau la mémoire plus tard ?

Non. La mémoire Apple Silicon est soudée et non mise à niveau. Acheter le maximum à l'achat.

Pourquoi 16 Go ne suffit-il pas ?

16 Go pour LLM + 4–8 Go pour macOS = 8–12 Go disponibles. Llama 8B Q4 nécessite 5 Go, ne laissant aucune place pour Whisper ou autres tâches. Trop serré.

Ai-je vraiment besoin de 128 Go ?

Seulement si vous exécutez régulièrement des modèles 70B ou avez besoin de Vision + LLM + STT simultanément. Sinon, 64 Go est largement suffisant.

48 Go suffisent-ils pour les LLM locaux ?

Oui — 48 Go (disponible sur M4 Pro et certaines configs M5 Pro) est un bon compromis. Fait tourner tous les modèles 34B, 70B Q3 à la limite, et les stacks multimodaux complets. Mieux que 36 Go ; si 64 Go est abordable, l'avenir le justifie.

Quelle mémoire pour exécuter Llama 3.1 70B en local ?

Minimum 48 Go (quantification Q3, perte de qualité perceptible). Recommandé 64 Go (quantification Q4, fit serré). Confortable 128 Go (quantification Q5/Q8, haute qualité). Le niveau 64 Go exige une gestion mémoire soigneuse ; 128 Go est la seule option sans contrainte pour le 70B.

Ai-je besoin de 128 Go pour l'IA locale en 2026 ?

Seulement pour exécuter régulièrement des modèles 70B ou des stacks Vision + LLM + STT simultanément. Pour l'usage LLM courant (modèles 8B–34B, RAG, assistance au code), le M5 Pro 64 Go est le sweet spot. 128 Go représente un surcoût de 2–3× pour un bénéfice marginal sans besoin spécifique de 70B.

Les LLM locaux sur M5 Max sont-ils conformes au RGPD ?

Oui. Toutes les données étant traitées localement sans transmission vers des serveurs externes, aucune donnée personnelle n'est soumise à l'article 28 RGPD. La CNIL recommande les solutions d'IA en local pour les traitements de données sensibles, en particulier dans les secteurs médical, juridique et financier.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vous avez acheté votre Mac avec la bonne quantité de mémoire ? Comparez les réponses de votre LLM local avec GPT-4, Claude, Gemini et 22 autres modèles avec PromptQuorum — vérifiez que votre configuration mémoire fournit une qualité comparable au cloud pour vos tâches.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Guide Mémoire LLM local 2026: 16–128Go | PromptQuorum