Ollama est un outil en ligne de commande, et comprendre ses commandes le rend beaucoup plus puissant. Ce guide couvre les commandes essentielles: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` et options avancées comme la quantification de modèle et les Modelfiles personnalisés. À partir d'avril 2026, ces commandes couvrent 95% des cas d'usage réels.

Points clés

`ollama pull <model>` -- Télécharger un modèle (p. ex. `ollama pull llama3.2:3b`).
`ollama run <model>` -- Démarrer une conversation avec un modèle.
`ollama list` -- Afficher tous les modèles téléchargés et leurs tailles.
`ollama rm <model>` -- Supprimer un modèle téléchargé.
`ollama serve` -- Démarrer le serveur API Ollama (s'exécute automatiquement sur Mac/Windows).
`ollama create <name> -f <modelfile>` -- Créer un modèle personnalisé à partir d'un Modelfile.
À partir d'avril 2026, ces commandes sont stables et couvrent tous les cas d'usage courants.

Quelles sont les commandes Ollama essentielles?

`ollama list` -- Afficher les modèles téléchargés, l'utilisation du disque et la date de modification.
`ollama pull <model>` -- Télécharger un modèle par nom (p. ex. `ollama pull mistral`).
`ollama run <model>` -- Démarrer une session de conversation avec un modèle.
`ollama rm <model>` -- Supprimer un modèle et libérer l'espace disque.
`ollama serve` -- Démarrer le serveur API REST (s'exécute généralement automatiquement).
`ollama help` -- Afficher toutes les commandes disponibles.

Comment gérez-vous les modèles dans Ollama?

La gestion des modèles dans Ollama est entièrement basée sur les commandes:

bash

# Lister tous les modèles téléchargés
ollama list

# Télécharger un modèle depuis la bibliothèque Ollama
ollama pull llama3.2:3b       # Version 7 bits (~2.5 GB)
ollama pull llama3.2:3b-fp16  # Précision complète (~6.5 GB)

# Télécharger une quantification spécifique
ollama pull qwen2.5:7b-q4   # Quantification 4 bits
ollama pull qwen2.5:7b-q8   # Quantification 8 bits

# Voir l'utilisation du disque
du -sh ~/.ollama/models

# Supprimer un modèle
ollama rm llama3.2:3b

# Tirer depuis un registre personnalisé (avancé)
ollama pull localhost:5000/custom-model

Comment exécutez-vous et servez-vous des modèles?

Il existe deux façons d'utiliser Ollama:

bash

# 1. Chat interactif (CLI)
ollama run llama3.2:3b
# Entrez maintenant vos invites et appuyez sur Entrée

# 2. Démarrer le serveur API (s'exécute en arrière-plan)
ollama serve
# L'API écoute sur http://localhost:11434/v1

# 3. Utiliser le modèle via l'API à partir d'un autre terminal
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Bonjour"}]
  }'

Comment créez-vous des modèles personnalisés avec les Modelfiles?

Un Modelfile est un fichier de configuration (comme un Dockerfile) qui définit un modèle personnalisé en partant d'un modèle de base et en ajoutant des invites système, des paramètres et des poids.

bash

# Créer un fichier nommé Modelfile
FROM llama3.2:3b

# Ajouter une invite système
SYSTEM """
Vous êtes un expert utile en apprentissage automatique.
Expliquez toujours les concepts complexes en termes simples.
"""

# Ajuster les paramètres
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# Construire le modèle personnalisé
ollama create ml-expert -f Modelfile

# L'utiliser
ollama run ml-expert

Quelles options de quantification Ollama supporte-t-il?

La quantification réduit la taille du modèle et la VRAM en utilisant des nombres de précision inférieure. Ollama supporte le format GGUF avec plusieurs quantifications:

Quantification	Taille (7B)	VRAM	Qualité	Vitesse
FP16 (précision complète)	14 GB	16 GB	Meilleure	Plus lente
Q8_0 (8 bits)	7 GB	8 GB	Excellente	Rapide
Q6_K (6 bits)	5.5 GB	6 GB	Très bonne	Rapide
Q5_K_M (5 bits)	5 GB	5.5 GB	Bonne	Très rapide
Q4_K_M (4 bits)	4.7 GB	5 GB	Bonne	Très rapide
Q3_K_M (3 bits)	3.3 GB	4 GB	Acceptable	Plus rapide

Quels modèles d'embedding sont disponibles avec Ollama?

Les modèles d'embedding convertissent le texte en vecteurs numériques pour la recherche sémantique, RAG et autres applications. Ollama supporte plusieurs modèles d'embedding:

`nomic-embed-text` -- Petit modèle d'embedding rapide (~260 MB). Bon pour RAG et recherche locale.
`mxbai-embed-large` -- Modèle plus large avec meilleure qualité (~335 MB). Meilleure détection sémantique.
Utilisation: `ollama pull nomic-embed-text` puis demande API avec `"model": "nomic-embed-text"`.

Quelles variables d'environnement pouvez-vous définir?

Les variables d'environnement contrôlent le comportement d'Ollama sans recompilation:

`OLLAMA_HOST` -- Définissez l'adresse API (par défaut: `127.0.0.1:11434`).
`OLLAMA_MODELS` -- Spécifiez le répertoire des modèles (par défaut: `~/.ollama/models`).
`OLLAMA_NUM_PARALLEL` -- Nombre de requêtes parallèles (par défaut: 1).
`OLLAMA_KEEP_ALIVE` -- Durée pendant laquelle un modèle reste en mémoire (par défaut: 5 minutes).
`OLLAMA_NOPRUNE` -- Empêche la suppression automatique des modèles inutilisés.
Exemple: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`

Quelles erreurs courantes devez-vous éviter?

Mauvais nom de modèle. `ollama pull llama` ne fonctionne pas; utilisez `ollama pull llama3.2:3b` ou `ollama pull llama2:7b`.
Trop de VRAM requis. Choisissez des modèles plus petits ou une quantification plus forte. Q4_K_M est souvent le meilleur compromis.
Les modèles ne sont pas mis à jour avec `serve`. Si vous modifiez un modèle avec `ollama pull`, vous devez redémarrer `ollama serve`.
Oublier de démarrer `ollama serve`. L'API ne s'exécute pas si vous ne la démarrez pas explicitement (automatique sur Mac/Windows, pas sur Linux).
Erreurs de syntaxe dans le Modelfile. Vérifiez la casse: `FROM`, `SYSTEM`, `PARAMETER` doivent être en majuscules.

Questions courantes sur les commandes Ollama

Comment mettre à jour un modèle téléchargé?

Exécutez `ollama pull <model>` à nouveau. Ollama met à jour le modèle s'il existe une nouvelle version. Vous n'avez pas besoin de supprimer l'ancien manuellement.

Comment modifier l'invocation par défaut du chat?

Utilisez un Modelfile avec la commande SYSTEM. Créez un Modelfile avec votre invocation personnalisée, puis `ollama create <name> -f Modelfile`.

Puis-je partager des modèles Ollama?

Oui, vous pouvez envoyer des modèles personnalisés vers un registre: `ollama push <registry>/<model>`. D'autres peuvent les récupérer avec `ollama pull`.

Quel modèle devrais-je choisir pour débuter?

`ollama pull llama3.2:3b` est un bon choix: petit (~2 GB), rapide et raisonnablement intelligent. Pour une meilleure qualité, essayez `mistral:7b` (~4.5 GB).

Comment réduire l'utilisation de l'espace disque?

Utilisez la quantification: `ollama pull llama3.2:3b-q4` au lieu de FP16. Q4_K_M ou Q5_K_M offrent le meilleur équilibre.

Puis-je exécuter plusieurs modèles simultanément?

Seulement si vous démarrez plusieurs instances avec différents ports. La configuration standard charge un modèle en mémoire. Utilisez `OLLAMA_NUM_PARALLEL` pour le pipeline de requêtes.

Sources

Documentation officielle d'Ollama -- ollama.com
Dépôt GitHub Ollama -- github.com/ollama/ollama
Format de modèle GGUF -- github.com/ggerganov/ggml
Spécification Modelfile d'Ollama -- ollama.com/docs/modelfile

Guide des commandes Ollama: Toutes les commandes expliquées (2026)

Quelles sont les commandes Ollama essentielles?

Comment gérez-vous les modèles dans Ollama?

Comment exécutez-vous et servez-vous des modèles?

Comment créez-vous des modèles personnalisés avec les Modelfiles?

Quelles options de quantification Ollama supporte-t-il?

Quels modèles d'embedding sont disponibles avec Ollama?

Quelles variables d'environnement pouvez-vous définir?

Quelles erreurs courantes devez-vous éviter?

Questions courantes sur les commandes Ollama

Comment mettre à jour un modèle téléchargé?

Comment modifier l'invocation par défaut du chat?

Puis-je partager des modèles Ollama?

Quel modèle devrais-je choisir pour débuter?

Comment réduire l'utilisation de l'espace disque?

Puis-je exécuter plusieurs modèles simultanément?

Sources

A Note on Third-Party Facts

Guide des commandes Ollama: Toutes les commandes expliquées (2026)

Quelles sont les commandes Ollama essentielles?

Comment gérez-vous les modèles dans Ollama?

Comment exécutez-vous et servez-vous des modèles?

Comment créez-vous des modèles personnalisés avec les Modelfiles?

Quelles options de quantification Ollama supporte-t-il?

Quels modèles d'embedding sont disponibles avec Ollama?

Quelles variables d'environnement pouvez-vous définir?

Quelles erreurs courantes devez-vous éviter?

Questions courantes sur les commandes Ollama

Comment mettre à jour un modèle téléchargé?

Comment modifier l'invocation par défaut du chat?

Puis-je partager des modèles Ollama?

Quel modèle devrais-je choisir pour débuter?

Comment réduire l'utilisation de l'espace disque?

Puis-je exécuter plusieurs modèles simultanément?

Lectures connexes

Sources

A Note on Third-Party Facts