Guide d'installation complet d'Ollama pour Apple Silicon Mac 2026. Installation en une commande, vérification du GPU Metal, gestion des modèles (pull, run, list), optimisation mémoire pour les configurations multi-modèles et configuration REST API pour les développeurs.

Installation rapide (3 commandes)

1
Installer Ollama
Why it matters: `brew install ollama` — installation en un clic.
2
Télécharger un modèle
Why it matters: `ollama pull llama2` — télécharge Llama 2 7B.
3
Commencer à chatter
Why it matters: `ollama run llama2` — interface de chat interactive.

Vérification GPU Metal

L'accélération GPU Metal est automatique dans Ollama sur macOS. Aucune configuration nécessaire. Pour vérifier que Metal fonctionne :

1
Exécuter avec sortie détaillée
Why it matters: `ollama run llama3.1:8b --verbose` et rechercher `ggml_metal_init: found device: Apple M[X]` dans la sortie console.
2
Vérifier la vitesse pendant l'inférence
Why it matters: Observer le taux de génération de tokens : doit être 20–60 tok/s selon le Mac (M5 Pro : ~50 tok/s sur Llama 3.1 8B). Fallback CPU uniquement : ~1–5 tok/s.
3
Surveiller l'utilisation GPU
Why it matters: Ouvrir le Moniteur d'activité (Applications → Utilitaires) et vérifier la section GPU. Doit montrer 80–100% d'utilisation GPU pendant l'inférence si Metal fonctionne.

Gestion des modèles

1
`ollama pull <modèle>`
Why it matters: Télécharger un modèle. Exemple : `ollama pull mistral`.
2
`ollama list`
Why it matters: Lister tous les modèles téléchargés.
3
`ollama run <modèle>`
Why it matters: Démarrer un chat interactif avec le modèle.
4
`ollama rm <modèle>`
Why it matters: Supprimer le modèle pour libérer de l'espace.

Optimisation mémoire pour Apple Silicon

OLLAMA_MAX_LOADED_MODELS : Nombre de modèles conservés en mémoire. Par défaut : 1. Définir à 2–3 pour les configurations multi-modèles.
Couches GPU : Par défaut, Ollama utilise toute la mémoire unifiée disponible. Pour une mémoire insuffisante, définir `num_gpu_layers` dans le Modelfile.
Whisper : Combiner avec un modèle d'embedding et un LLM — tient dans 64 Go M5 Pro avec Ollama.

Exécuter plusieurs modèles simultanément

Besoin d'exécuter Whisper STT + Llama 3.1 8B + LLaVA Vision en même temps ? Configurer Ollama pour tout garder chargé en mémoire.

bash

export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama

# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b

# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'

Démarrage automatique à la connexion

Ollama peut démarrer automatiquement à la connexion sur votre Mac via brew services.

bash

# Enable auto-start
brew services start ollama

# Check status
brew services list | grep ollama

# Disable auto-start (optional)
brew services stop ollama

Configuration API pour développeurs

Ollama expose une API REST compatible OpenAI sur `localhost:11434`. Démarrer le serveur avec `ollama serve` ou utiliser brew services. Ensuite envoyer des requêtes depuis n'importe quel langage de programmation.

bash

# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "Write a Python function"}],
  "stream": false
}'

# Python example
import requests
response = requests.post(
  "http://localhost:11434/api/chat",
  json={
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": False
  }
)
print(response.json()["message"]["content"])

Personnalisation Modelfile

Créer des modèles personnalisés avec des prompts système et des paramètres.

`ollama create llm-expert -f Modelfile` — crée le modèle personnalisé
`ollama run llm-expert` — démarre un chat interactif avec votre modèle personnalisé
`ollama run llm-expert "Code review this function"` — envoyer un prompt directement

dockerfile

FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9

Problèmes courants et solutions

Metal non détecté : Vérifier avec `ollama run llama3.1:8b --verbose` et chercher `ggml_metal_init: found device: Apple M[X]`. Si absent, redémarrer : `brew services restart ollama` ou `pkill ollama && ollama serve &`.
Inférence lente (fallback CPU) : Cause : Metal n'a pas pu s'initialiser, modèle sur CPU. Vérifier le Moniteur d'activité — GPU doit être à 80–100% pendant l'inférence. Si GPU affiche 0% : redémarrer Ollama.
Mémoire insuffisante (OOM) : Le modèle plante ou la réponse est tronquée. Cause : modèle + contexte + surcharge macOS dépasse la RAM. Solutions : (1) Utiliser une quantification plus petite (`ollama pull llama3.1:8b-q4_K_M`), (2) Réduire le contexte (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Utiliser un modèle plus petit (`ollama pull phi4` — 2,5 Go).
Téléchargement du modèle bloqué : Cause : limitation réseau ou limites de débit HuggingFace. Fix : `pkill ollama && ollama pull llama3.1:8b` (reprend depuis la progression précédente).
Port 11434 déjà utilisé : Une autre instance Ollama fonctionne ou un service différent utilise le port. Trouver : `lsof -i :11434`. Fix : `pkill ollama` puis redémarrer.
Le modèle produit du charabia / caractères aléatoires : Cause : paramètres Modelfile hors plage ou mauvais template. Fix : récupérer le modèle officiel `ollama pull llama3.1:8b` (écrase le personnalisé), puis tester : `ollama run llama3.1:8b "Hello, how are you?"`.
Le stockage se remplit : Les modèles sont stockés dans `~/.ollama/models/`. Vérifier la taille : `du -sh ~/.ollama/`. Supprimer les inutilisés : `ollama rm <nom-du-modèle>`.

Ollama est-il gratuit ?

Oui. Ollama est open-source. Les modèles (Llama, Mistral) sont licenciés gratuitement. Aucun frais.

Puis-je utiliser Ollama sans GPU ?

Oui, mais lent. CPU uniquement : ~1–5 tok/s sur les modèles 7B. GPU (Metal sur Mac) : 20–60 tok/s selon le Mac.

Par quel modèle devrais-je commencer ?

Mistral 7B ou Llama 2 7B. Les deux fonctionnent sur tout Mac M1+, produisent de bons résultats. Environ 4 Go chacun.

Plusieurs personnes peuvent-elles utiliser l'API Ollama simultanément ?

Oui. `ollama serve` sur un appareil, tout le monde sur le réseau local peut accéder à l'API REST sur l'IP de cet appareil:11434.

Où Ollama stocke-t-il les modèles téléchargés sur Mac ?

Emplacement par défaut : `~/.ollama/models/`. Chaque modèle fait plusieurs Go. Vérifier l'espace total : `du -sh ~/.ollama/`. Changer l'emplacement : définir `OLLAMA_MODELS=/chemin/vers/modèles` avant de démarrer Ollama.

Puis-je exécuter Ollama sur des Mac Intel ?

Oui, mais sans accélération GPU Metal. Les performances seront CPU uniquement : 1–5 tok/s sur les modèles 7B vs 20–60 tok/s sur Apple Silicon. Utilisable pour les tests mais pas pour la production.

Ollama fonctionne-t-il hors ligne après l'installation ?

Oui. Une fois les modèles téléchargés, Ollama fonctionne entièrement hors ligne. Aucune connexion internet requise pour l'inférence. Seuls les téléchargements de modèles (`ollama pull`) nécessitent un accès internet.

Ollama sur Mac 2026 : Guide d'installation complet Apple Silicon (M1–M5, GPU Metal)

Comment installer Ollama sur Mac ?

Installation rapide (3 commandes)

Vérification GPU Metal

Gestion des modèles

Optimisation mémoire pour Apple Silicon

Exécuter plusieurs modèles simultanément

Démarrage automatique à la connexion

Configuration API pour développeurs

Personnalisation Modelfile

Problèmes courants et solutions

Ollama est-il gratuit ?

Puis-je utiliser Ollama sans GPU ?

Par quel modèle devrais-je commencer ?

Plusieurs personnes peuvent-elles utiliser l'API Ollama simultanément ?

Où Ollama stocke-t-il les modèles téléchargés sur Mac ?

Puis-je exécuter Ollama sur des Mac Intel ?

Ollama fonctionne-t-il hors ligne après l'installation ?

A Note on Third-Party Facts

Ollama sur Mac 2026 : Guide d'installation complet Apple Silicon (M1–M5, GPU Metal)

Comment installer Ollama sur Mac ?

Installation rapide (3 commandes)

Vérification GPU Metal

Gestion des modèles

Optimisation mémoire pour Apple Silicon

Exécuter plusieurs modèles simultanément

Démarrage automatique à la connexion

Configuration API pour développeurs

Personnalisation Modelfile

Problèmes courants et solutions

Articles connexes

Ollama est-il gratuit ?

Puis-je utiliser Ollama sans GPU ?

Par quel modèle devrais-je commencer ?

Plusieurs personnes peuvent-elles utiliser l'API Ollama simultanément ?

Où Ollama stocke-t-il les modèles téléchargés sur Mac ?

Puis-je exécuter Ollama sur des Mac Intel ?

Ollama fonctionne-t-il hors ligne après l'installation ?

A Note on Third-Party Facts