Points clés
- `ollama pull <model>` -- Télécharger un modèle (p. ex. `ollama pull llama3.2:3b`).
- `ollama run <model>` -- Démarrer une conversation avec un modèle.
- `ollama list` -- Afficher tous les modèles téléchargés et leurs tailles.
- `ollama rm <model>` -- Supprimer un modèle téléchargé.
- `ollama serve` -- Démarrer le serveur API Ollama (s'exécute automatiquement sur Mac/Windows).
- `ollama create <name> -f <modelfile>` -- Créer un modèle personnalisé à partir d'un Modelfile.
- À partir d'avril 2026, ces commandes sont stables et couvrent tous les cas d'usage courants.
Quelles sont les commandes Ollama essentielles?
- `ollama list` -- Afficher les modèles téléchargés, l'utilisation du disque et la date de modification.
- `ollama pull <model>` -- Télécharger un modèle par nom (p. ex. `ollama pull mistral`).
- `ollama run <model>` -- Démarrer une session de conversation avec un modèle.
- `ollama rm <model>` -- Supprimer un modèle et libérer l'espace disque.
- `ollama serve` -- Démarrer le serveur API REST (s'exécute généralement automatiquement).
- `ollama help` -- Afficher toutes les commandes disponibles.
Comment gérez-vous les modèles dans Ollama?
La gestion des modèles dans Ollama est entièrement basée sur les commandes:
# Lister tous les modèles téléchargés
ollama list
# Télécharger un modèle depuis la bibliothèque Ollama
ollama pull llama3.2:3b # Version 7 bits (~2.5 GB)
ollama pull llama3.2:3b-fp16 # Précision complète (~6.5 GB)
# Télécharger une quantification spécifique
ollama pull qwen2.5:7b-q4 # Quantification 4 bits
ollama pull qwen2.5:7b-q8 # Quantification 8 bits
# Voir l'utilisation du disque
du -sh ~/.ollama/models
# Supprimer un modèle
ollama rm llama3.2:3b
# Tirer depuis un registre personnalisé (avancé)
ollama pull localhost:5000/custom-modelComment exécutez-vous et servez-vous des modèles?
Il existe deux façons d'utiliser Ollama:
# 1. Chat interactif (CLI)
ollama run llama3.2:3b
# Entrez maintenant vos invites et appuyez sur Entrée
# 2. Démarrer le serveur API (s'exécute en arrière-plan)
ollama serve
# L'API écoute sur http://localhost:11434/v1
# 3. Utiliser le modèle via l'API à partir d'un autre terminal
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "Bonjour"}]
}'Comment créez-vous des modèles personnalisés avec les Modelfiles?
Un Modelfile est un fichier de configuration (comme un Dockerfile) qui définit un modèle personnalisé en partant d'un modèle de base et en ajoutant des invites système, des paramètres et des poids.
# Créer un fichier nommé Modelfile
FROM llama3.2:3b
# Ajouter une invite système
SYSTEM """
Vous êtes un expert utile en apprentissage automatique.
Expliquez toujours les concepts complexes en termes simples.
"""
# Ajuster les paramètres
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# Construire le modèle personnalisé
ollama create ml-expert -f Modelfile
# L'utiliser
ollama run ml-expertQuelles options de quantification Ollama supporte-t-il?
La quantification réduit la taille du modèle et la VRAM en utilisant des nombres de précision inférieure. Ollama supporte le format GGUF avec plusieurs quantifications:
| Quantification | Taille (7B) | VRAM | Qualité | Vitesse |
|---|---|---|---|---|
| FP16 (précision complète) | 14 GB | 16 GB | Meilleure | Plus lente |
| Q8_0 (8 bits) | 7 GB | 8 GB | Excellente | Rapide |
| Q6_K (6 bits) | 5.5 GB | 6 GB | Très bonne | Rapide |
| Q5_K_M (5 bits) | 5 GB | 5.5 GB | Bonne | Très rapide |
| Q4_K_M (4 bits) | 4.7 GB | 5 GB | Bonne | Très rapide |
| Q3_K_M (3 bits) | 3.3 GB | 4 GB | Acceptable | Plus rapide |
Quels modèles d'embedding sont disponibles avec Ollama?
Les modèles d'embedding convertissent le texte en vecteurs numériques pour la recherche sémantique, RAG et autres applications. Ollama supporte plusieurs modèles d'embedding:
- `nomic-embed-text` -- Petit modèle d'embedding rapide (~260 MB). Bon pour RAG et recherche locale.
- `mxbai-embed-large` -- Modèle plus large avec meilleure qualité (~335 MB). Meilleure détection sémantique.
- Utilisation: `ollama pull nomic-embed-text` puis demande API avec `"model": "nomic-embed-text"`.
Quelles variables d'environnement pouvez-vous définir?
Les variables d'environnement contrôlent le comportement d'Ollama sans recompilation:
- `OLLAMA_HOST` -- Définissez l'adresse API (par défaut: `127.0.0.1:11434`).
- `OLLAMA_MODELS` -- Spécifiez le répertoire des modèles (par défaut: `~/.ollama/models`).
- `OLLAMA_NUM_PARALLEL` -- Nombre de requêtes parallèles (par défaut: 1).
- `OLLAMA_KEEP_ALIVE` -- Durée pendant laquelle un modèle reste en mémoire (par défaut: 5 minutes).
- `OLLAMA_NOPRUNE` -- Empêche la suppression automatique des modèles inutilisés.
- Exemple: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`
Quelles erreurs courantes devez-vous éviter?
- Mauvais nom de modèle. `ollama pull llama` ne fonctionne pas; utilisez `ollama pull llama3.2:3b` ou `ollama pull llama2:7b`.
- Trop de VRAM requis. Choisissez des modèles plus petits ou une quantification plus forte. Q4_K_M est souvent le meilleur compromis.
- Les modèles ne sont pas mis à jour avec `serve`. Si vous modifiez un modèle avec `ollama pull`, vous devez redémarrer `ollama serve`.
- Oublier de démarrer `ollama serve`. L'API ne s'exécute pas si vous ne la démarrez pas explicitement (automatique sur Mac/Windows, pas sur Linux).
- Erreurs de syntaxe dans le Modelfile. Vérifiez la casse: `FROM`, `SYSTEM`, `PARAMETER` doivent être en majuscules.
Questions courantes sur les commandes Ollama
Comment mettre à jour un modèle téléchargé?
Exécutez `ollama pull <model>` à nouveau. Ollama met à jour le modèle s'il existe une nouvelle version. Vous n'avez pas besoin de supprimer l'ancien manuellement.
Comment modifier l'invocation par défaut du chat?
Utilisez un Modelfile avec la commande SYSTEM. Créez un Modelfile avec votre invocation personnalisée, puis `ollama create <name> -f Modelfile`.
Puis-je partager des modèles Ollama?
Oui, vous pouvez envoyer des modèles personnalisés vers un registre: `ollama push <registry>/<model>`. D'autres peuvent les récupérer avec `ollama pull`.
Quel modèle devrais-je choisir pour débuter?
`ollama pull llama3.2:3b` est un bon choix: petit (~2 GB), rapide et raisonnablement intelligent. Pour une meilleure qualité, essayez `mistral:7b` (~4.5 GB).
Comment réduire l'utilisation de l'espace disque?
Utilisez la quantification: `ollama pull llama3.2:3b-q4` au lieu de FP16. Q4_K_M ou Q5_K_M offrent le meilleur équilibre.
Puis-je exécuter plusieurs modèles simultanément?
Seulement si vous démarrez plusieurs instances avec différents ports. La configuration standard charge un modèle en mémoire. Utilisez `OLLAMA_NUM_PARALLEL` pour le pipeline de requêtes.
Sources
- Documentation officielle d'Ollama -- ollama.com
- Dépôt GitHub Ollama -- github.com/ollama/ollama
- Format de modèle GGUF -- github.com/ggerganov/ggml
- Spécification Modelfile d'Ollama -- ollama.com/docs/modelfile