Installation rapide (3 commandes)
- 1Installer Ollama
Why it matters: `brew install ollama` — installation en un clic. - 2Télécharger un modèle
Why it matters: `ollama pull llama2` — télécharge Llama 2 7B. - 3Commencer à chatter
Why it matters: `ollama run llama2` — interface de chat interactive.
Vérification GPU Metal
L'accélération GPU Metal est automatique dans Ollama sur macOS. Aucune configuration nécessaire. Pour vérifier que Metal fonctionne :
- 1Exécuter avec sortie détaillée
Why it matters: `ollama run llama3.1:8b --verbose` et rechercher `ggml_metal_init: found device: Apple M[X]` dans la sortie console. - 2Vérifier la vitesse pendant l'inférence
Why it matters: Observer le taux de génération de tokens : doit être 20–60 tok/s selon le Mac (M5 Pro : ~50 tok/s sur Llama 3.1 8B). Fallback CPU uniquement : ~1–5 tok/s. - 3Surveiller l'utilisation GPU
Why it matters: Ouvrir le Moniteur d'activité (Applications → Utilitaires) et vérifier la section GPU. Doit montrer 80–100% d'utilisation GPU pendant l'inférence si Metal fonctionne.
Gestion des modèles
- 1`ollama pull <modèle>`
Why it matters: Télécharger un modèle. Exemple : `ollama pull mistral`. - 2`ollama list`
Why it matters: Lister tous les modèles téléchargés. - 3`ollama run <modèle>`
Why it matters: Démarrer un chat interactif avec le modèle. - 4`ollama rm <modèle>`
Why it matters: Supprimer le modèle pour libérer de l'espace.
Optimisation mémoire pour Apple Silicon
- OLLAMA_MAX_LOADED_MODELS : Nombre de modèles conservés en mémoire. Par défaut : 1. Définir à 2–3 pour les configurations multi-modèles.
- Couches GPU : Par défaut, Ollama utilise toute la mémoire unifiée disponible. Pour une mémoire insuffisante, définir `num_gpu_layers` dans le Modelfile.
- Whisper : Combiner avec un modèle d'embedding et un LLM — tient dans 64 Go M5 Pro avec Ollama.
Exécuter plusieurs modèles simultanément
Besoin d'exécuter Whisper STT + Llama 3.1 8B + LLaVA Vision en même temps ? Configurer Ollama pour tout garder chargé en mémoire.
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama
# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b
# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'Démarrage automatique à la connexion
Ollama peut démarrer automatiquement à la connexion sur votre Mac via brew services.
# Enable auto-start
brew services start ollama
# Check status
brew services list | grep ollama
# Disable auto-start (optional)
brew services stop ollamaConfiguration API pour développeurs
Ollama expose une API REST compatible OpenAI sur `localhost:11434`. Démarrer le serveur avec `ollama serve` ou utiliser brew services. Ensuite envoyer des requêtes depuis n'importe quel langage de programmation.
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Write a Python function"}],
"stream": false
}'
# Python example
import requests
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Hello"}],
"stream": False
}
)
print(response.json()["message"]["content"])Personnalisation Modelfile
Créer des modèles personnalisés avec des prompts système et des paramètres.
- `ollama create llm-expert -f Modelfile` — crée le modèle personnalisé
- `ollama run llm-expert` — démarre un chat interactif avec votre modèle personnalisé
- `ollama run llm-expert "Code review this function"` — envoyer un prompt directement
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9Problèmes courants et solutions
- Metal non détecté : Vérifier avec `ollama run llama3.1:8b --verbose` et chercher `ggml_metal_init: found device: Apple M[X]`. Si absent, redémarrer : `brew services restart ollama` ou `pkill ollama && ollama serve &`.
- Inférence lente (fallback CPU) : Cause : Metal n'a pas pu s'initialiser, modèle sur CPU. Vérifier le Moniteur d'activité — GPU doit être à 80–100% pendant l'inférence. Si GPU affiche 0% : redémarrer Ollama.
- Mémoire insuffisante (OOM) : Le modèle plante ou la réponse est tronquée. Cause : modèle + contexte + surcharge macOS dépasse la RAM. Solutions : (1) Utiliser une quantification plus petite (`ollama pull llama3.1:8b-q4_K_M`), (2) Réduire le contexte (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Utiliser un modèle plus petit (`ollama pull phi4` — 2,5 Go).
- Téléchargement du modèle bloqué : Cause : limitation réseau ou limites de débit HuggingFace. Fix : `pkill ollama && ollama pull llama3.1:8b` (reprend depuis la progression précédente).
- Port 11434 déjà utilisé : Une autre instance Ollama fonctionne ou un service différent utilise le port. Trouver : `lsof -i :11434`. Fix : `pkill ollama` puis redémarrer.
- Le modèle produit du charabia / caractères aléatoires : Cause : paramètres Modelfile hors plage ou mauvais template. Fix : récupérer le modèle officiel `ollama pull llama3.1:8b` (écrase le personnalisé), puis tester : `ollama run llama3.1:8b "Hello, how are you?"`.
- Le stockage se remplit : Les modèles sont stockés dans `~/.ollama/models/`. Vérifier la taille : `du -sh ~/.ollama/`. Supprimer les inutilisés : `ollama rm <nom-du-modèle>`.
Ollama est-il gratuit ?
Oui. Ollama est open-source. Les modèles (Llama, Mistral) sont licenciés gratuitement. Aucun frais.
Puis-je utiliser Ollama sans GPU ?
Oui, mais lent. CPU uniquement : ~1–5 tok/s sur les modèles 7B. GPU (Metal sur Mac) : 20–60 tok/s selon le Mac.
Par quel modèle devrais-je commencer ?
Mistral 7B ou Llama 2 7B. Les deux fonctionnent sur tout Mac M1+, produisent de bons résultats. Environ 4 Go chacun.
Plusieurs personnes peuvent-elles utiliser l'API Ollama simultanément ?
Oui. `ollama serve` sur un appareil, tout le monde sur le réseau local peut accéder à l'API REST sur l'IP de cet appareil:11434.
Où Ollama stocke-t-il les modèles téléchargés sur Mac ?
Emplacement par défaut : `~/.ollama/models/`. Chaque modèle fait plusieurs Go. Vérifier l'espace total : `du -sh ~/.ollama/`. Changer l'emplacement : définir `OLLAMA_MODELS=/chemin/vers/modèles` avant de démarrer Ollama.
Puis-je exécuter Ollama sur des Mac Intel ?
Oui, mais sans accélération GPU Metal. Les performances seront CPU uniquement : 1–5 tok/s sur les modèles 7B vs 20–60 tok/s sur Apple Silicon. Utilisable pour les tests mais pas pour la production.
Ollama fonctionne-t-il hors ligne après l'installation ?
Oui. Une fois les modèles téléchargés, Ollama fonctionne entièrement hors ligne. Aucune connexion internet requise pour l'inférence. Seuls les téléchargements de modèles (`ollama pull`) nécessitent un accès internet.