PromptQuorumPromptQuorum
Accueil/LLMs locaux/Ollama sur Mac 2026 : Guide d'installation complet Apple Silicon (M1–M5, GPU Metal)
Hardware & Performance

Ollama sur Mac 2026 : Guide d'installation complet Apple Silicon (M1–M5, GPU Metal)

·10 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Installer Ollama : `brew install ollama`. GPU Metal automatique. Télécharger des modèles : `ollama pull llama2`. Exécuter : `ollama run llama2`. REST API disponible sur `localhost:11434`.

Guide d'installation complet d'Ollama pour Apple Silicon Mac 2026. Installation en une commande, vérification du GPU Metal, gestion des modèles (pull, run, list), optimisation mémoire pour les configurations multi-modèles et configuration REST API pour les développeurs.

Installation rapide (3 commandes)

  1. 1
    Installer Ollama
    Why it matters: `brew install ollama` — installation en un clic.
  2. 2
    Télécharger un modèle
    Why it matters: `ollama pull llama2` — télécharge Llama 2 7B.
  3. 3
    Commencer à chatter
    Why it matters: `ollama run llama2` — interface de chat interactive.

Vérification GPU Metal

L'accélération GPU Metal est automatique dans Ollama sur macOS. Aucune configuration nécessaire. Pour vérifier que Metal fonctionne :

  1. 1
    Exécuter avec sortie détaillée
    Why it matters: `ollama run llama3.1:8b --verbose` et rechercher `ggml_metal_init: found device: Apple M[X]` dans la sortie console.
  2. 2
    Vérifier la vitesse pendant l'inférence
    Why it matters: Observer le taux de génération de tokens : doit être 20–60 tok/s selon le Mac (M5 Pro : ~50 tok/s sur Llama 3.1 8B). Fallback CPU uniquement : ~1–5 tok/s.
  3. 3
    Surveiller l'utilisation GPU
    Why it matters: Ouvrir le Moniteur d'activité (Applications → Utilitaires) et vérifier la section GPU. Doit montrer 80–100% d'utilisation GPU pendant l'inférence si Metal fonctionne.

Gestion des modèles

  1. 1
    `ollama pull <modèle>`
    Why it matters: Télécharger un modèle. Exemple : `ollama pull mistral`.
  2. 2
    `ollama list`
    Why it matters: Lister tous les modèles téléchargés.
  3. 3
    `ollama run <modèle>`
    Why it matters: Démarrer un chat interactif avec le modèle.
  4. 4
    `ollama rm <modèle>`
    Why it matters: Supprimer le modèle pour libérer de l'espace.

Optimisation mémoire pour Apple Silicon

  • OLLAMA_MAX_LOADED_MODELS : Nombre de modèles conservés en mémoire. Par défaut : 1. Définir à 2–3 pour les configurations multi-modèles.
  • Couches GPU : Par défaut, Ollama utilise toute la mémoire unifiée disponible. Pour une mémoire insuffisante, définir `num_gpu_layers` dans le Modelfile.
  • Whisper : Combiner avec un modèle d'embedding et un LLM — tient dans 64 Go M5 Pro avec Ollama.

Exécuter plusieurs modèles simultanément

Besoin d'exécuter Whisper STT + Llama 3.1 8B + LLaVA Vision en même temps ? Configurer Ollama pour tout garder chargé en mémoire.

bash
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama

# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b

# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'

Démarrage automatique à la connexion

Ollama peut démarrer automatiquement à la connexion sur votre Mac via brew services.

bash
# Enable auto-start
brew services start ollama

# Check status
brew services list | grep ollama

# Disable auto-start (optional)
brew services stop ollama

Configuration API pour développeurs

Ollama expose une API REST compatible OpenAI sur `localhost:11434`. Démarrer le serveur avec `ollama serve` ou utiliser brew services. Ensuite envoyer des requêtes depuis n'importe quel langage de programmation.

bash
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "Write a Python function"}],
  "stream": false
}'

# Python example
import requests
response = requests.post(
  "http://localhost:11434/api/chat",
  json={
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": False
  }
)
print(response.json()["message"]["content"])

Personnalisation Modelfile

Créer des modèles personnalisés avec des prompts système et des paramètres.

  • `ollama create llm-expert -f Modelfile` — crée le modèle personnalisé
  • `ollama run llm-expert` — démarre un chat interactif avec votre modèle personnalisé
  • `ollama run llm-expert "Code review this function"` — envoyer un prompt directement
dockerfile
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9

Problèmes courants et solutions

  • Metal non détecté : Vérifier avec `ollama run llama3.1:8b --verbose` et chercher `ggml_metal_init: found device: Apple M[X]`. Si absent, redémarrer : `brew services restart ollama` ou `pkill ollama && ollama serve &`.
  • Inférence lente (fallback CPU) : Cause : Metal n'a pas pu s'initialiser, modèle sur CPU. Vérifier le Moniteur d'activité — GPU doit être à 80–100% pendant l'inférence. Si GPU affiche 0% : redémarrer Ollama.
  • Mémoire insuffisante (OOM) : Le modèle plante ou la réponse est tronquée. Cause : modèle + contexte + surcharge macOS dépasse la RAM. Solutions : (1) Utiliser une quantification plus petite (`ollama pull llama3.1:8b-q4_K_M`), (2) Réduire le contexte (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Utiliser un modèle plus petit (`ollama pull phi4` — 2,5 Go).
  • Téléchargement du modèle bloqué : Cause : limitation réseau ou limites de débit HuggingFace. Fix : `pkill ollama && ollama pull llama3.1:8b` (reprend depuis la progression précédente).
  • Port 11434 déjà utilisé : Une autre instance Ollama fonctionne ou un service différent utilise le port. Trouver : `lsof -i :11434`. Fix : `pkill ollama` puis redémarrer.
  • Le modèle produit du charabia / caractères aléatoires : Cause : paramètres Modelfile hors plage ou mauvais template. Fix : récupérer le modèle officiel `ollama pull llama3.1:8b` (écrase le personnalisé), puis tester : `ollama run llama3.1:8b "Hello, how are you?"`.
  • Le stockage se remplit : Les modèles sont stockés dans `~/.ollama/models/`. Vérifier la taille : `du -sh ~/.ollama/`. Supprimer les inutilisés : `ollama rm <nom-du-modèle>`.

Ollama est-il gratuit ?

Oui. Ollama est open-source. Les modèles (Llama, Mistral) sont licenciés gratuitement. Aucun frais.

Puis-je utiliser Ollama sans GPU ?

Oui, mais lent. CPU uniquement : ~1–5 tok/s sur les modèles 7B. GPU (Metal sur Mac) : 20–60 tok/s selon le Mac.

Par quel modèle devrais-je commencer ?

Mistral 7B ou Llama 2 7B. Les deux fonctionnent sur tout Mac M1+, produisent de bons résultats. Environ 4 Go chacun.

Plusieurs personnes peuvent-elles utiliser l'API Ollama simultanément ?

Oui. `ollama serve` sur un appareil, tout le monde sur le réseau local peut accéder à l'API REST sur l'IP de cet appareil:11434.

Où Ollama stocke-t-il les modèles téléchargés sur Mac ?

Emplacement par défaut : `~/.ollama/models/`. Chaque modèle fait plusieurs Go. Vérifier l'espace total : `du -sh ~/.ollama/`. Changer l'emplacement : définir `OLLAMA_MODELS=/chemin/vers/modèles` avant de démarrer Ollama.

Puis-je exécuter Ollama sur des Mac Intel ?

Oui, mais sans accélération GPU Metal. Les performances seront CPU uniquement : 1–5 tok/s sur les modèles 7B vs 20–60 tok/s sur Apple Silicon. Utilisable pour les tests mais pas pour la production.

Ollama fonctionne-t-il hors ligne après l'installation ?

Oui. Une fois les modèles téléchargés, Ollama fonctionne entièrement hors ligne. Aucune connexion internet requise pour l'inférence. Seuls les téléchargements de modèles (`ollama pull`) nécessitent un accès internet.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Ollama fonctionne sur votre Mac ? Comparez votre sortie Llama 3.1 ou Mistral locale avec GPT-4, Claude, Gemini et 22 autres modèles avec PromptQuorum — validez que votre configuration locale atteint la qualité cloud pour vos cas d'usage spécifiques.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Ollama sur Mac 2026 : Configuration en 2 minutes