Points clés
- macOS : téléchargez le .dmg depuis ollama.com, ou exécutez `brew install ollama` -- puis `ollama run llama3.2` pour discuter.
- Windows : téléchargez le programme d'installation depuis ollama.com/download. Ollama s'exécute comme service en arrière-plan dans la barre des tâches système.
- Linux : une seule commande curl installe tout -- `curl -fsSL https://ollama.com/install.sh | sh`.
- Configuration minimale : 4 Go de RAM pour un modèle 3B, 8 Go de RAM pour un modèle 7B. Aucun GPU requis pour commencer.
- Ollama expose une API REST compatible OpenAI sur `http://localhost:11434` -- toute application SDK OpenAI peut l'utiliser sans modifications de code.
Avant d'installer : L'inférence locale convient-elle à votre cas d'usage ?
L'installation d'Ollama prend 5 minutes, mais faire fonctionner correctement votre premier modèle peut prendre 20–40 minutes si vous rencontrez des problèmes de détection GPU, des incompatibilités de pilotes ou des contraintes de RAM.
Si vous hésitez sur le fait que l'inférence locale soit le bon choix pour vous, **comparez d'abord le compromis complet entre local et cloud** — vous découvrirez peut-être que commencer par une API cloud (prête en 5 minutes, sans dépannage) est le chemin plus intelligent. De nombreux utilisateurs découvrent cela après l'installation ; il est préférable de décider maintenant.
Pour les utilisateurs engagés dans le local, continuez ci-dessous. Pour les utilisateurs évaluant d'abord le cloud, consultez la comparaison complète.
Qu'est-ce qu'Ollama et pourquoi l'utiliser ?
En une phrase : Ollama est un outil pour télécharger et exécuter localement des modèles de langage open-source (comme Mistral ou Llama 3.1) sur votre ordinateur avec une seule commande.
Ollama est un moteur d'inférence open-source qui exécute de grands modèles de langage localement. Il combine la gestion de modèles, le backend d'inférence llama.cpp et une API REST compatible OpenAI dans une seule application légère. Aucun Python, aucun environnement conda et aucune configuration CUDA requise.
Ollama maintient une bibliothèque de modèles triée sur le volet (ollama.com/library) avec des téléchargements en une seule commande pour Meta Llama 3.1, Microsoft Phi-3, Google Gemma 2, Mistral, Qwen2.5 et plus de 100 autres modèles. Un modèle est téléchargé une fois et mis en cache sur le disque -- les exécutions ultérieures démarrent en moins de 5 secondes.
Pour les alternatives à Ollama, voir Installateurs Local LLM en un clic. Pour comparer Ollama avec LM Studio, voir Installation de LM Studio.
Comment installer Ollama sur macOS ?
En une phrase : Ollama s'exécute comme service en arrière-plan sur macOS -- une fois installé et démarré, l'API locale écoute sur `http://localhost:11434` les requêtes de modèles.
Il y a deux méthodes. Le téléchargement du programme d'installation est plus rapide ; Homebrew est mieux si vous gérez les logiciels avec brew.
- 1Allez sur ollama.com/download et cliquez sur « Télécharger pour macOS ».
- 2Ouvrez le fichier Ollama.dmg téléchargé et glissez Ollama vers votre dossier Applications.
- 3Lancez Ollama depuis Applications. Une icône llama apparaît dans votre barre de menu -- Ollama s'exécute maintenant comme service en arrière-plan.
- 4Ouvrez Terminal et exécutez votre premier modèle : `ollama run llama3.2`
- 5Le modèle est téléchargé (~2 Go pour llama3.2:3b) et une invite de chat apparaît. Tapez un message et appuyez sur Entrée.
Comment installer Ollama sur macOS avec Homebrew ?
brew install ollama
# Démarrer le service Ollama
ollama serve &
# Télécharger et exécuter un modèle
ollama run llama3.2Comment installer Ollama sur Windows ?
- 1Allez sur ollama.com/download et cliquez sur « Télécharger pour Windows ».
- 2Exécutez le programme d'installation OllamaSetup.exe téléchargé. Ollama s'installe dans %LOCALAPPDATA%\Programs\Ollama.
- 3Ollama démarre automatiquement et s'affiche comme icône de la barre des tâches système.
- 4Ouvrez PowerShell ou Invite de commandes et exécutez : `ollama run llama3.2`
- 5Le modèle est téléchargé à la première exécution. Les exécutions ultérieures utilisent le modèle en cache.
Comment activer le support GPU sur Windows ?
Ollama sur Windows détecte et utilise automatiquement les GPU NVIDIA (CUDA 11.3+) et AMD (ROCm 6+). Si vous avez une carte NVIDIA RTX, Ollama déchargera automatiquement les couches de modèles vers la VRAM -- aucune configuration manuelle requise. Pour vérifier que le GPU est utilisé, exécutez `ollama run llama3.2` et consultez le Gestionnaire des tâches → GPU pour l'activité.
Comment installer Ollama sur Linux ?
Une seule commande installe Ollama sur toute distribution Linux :
curl -fsSL https://ollama.com/install.sh | shComment exécuter Ollama comme service systemd sur Linux ?
Le script d'installation enregistre automatiquement Ollama comme service systemd. Pour le gérer :
# Vérifier l'état du service
systemctl status ollama
# Démarrer / Arrêter / Redémarrer
systemctl start ollama
systemctl stop ollama
systemctl restart ollama
# Afficher les journaux
journalctl -u ollama -fComment télécharger et exécuter votre premier modèle dans Ollama ?
Après l'installation d'Ollama, exécutez cette commande pour télécharger et démarrer un modèle :
# Télécharger un modèle (stockage dans ~/.ollama/models)
ollama pull llama3.2
# L'exécuter de manière interactive
ollama run llama3.2
# Ou télécharger et exécuter en une étape
ollama run llama3.2Quel modèle utiliser pour commencer ?
Pour un premier passage, ces trois modèles couvrent différents profils matériels :
| Modèle | Taille du téléchargement | RAM requise | Meilleur pour |
|---|---|---|---|
| Llama 3.2 3B | ~2 Go | 4 Go | Premier test -- toute machine |
| Llama 3.1 8B | ~4,7 Go | 8 Go | Utilisation générale sur la plupart des ordinateurs portables |
| phi4-mini | ~2,3 Go | 4 Go | Réponses rapides, faible RAM |
Comment vérifier qu'Ollama fonctionne ?
Testez l'API REST directement pour confirmer qu'Ollama s'exécute et est accessible :
# Vérifier qu'Ollama s'exécute
curl http://localhost:11434
# Attendu: "Ollama is running"
# Lister les modèles téléchargés
ollama list
# Envoyer une invite via l'API (compatible OpenAI)
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Qu'est-ce que 2+2 ?",
"stream": false
}'Quelles commandes Ollama sont les plus utiles ?
| Commande | Fonction |
|---|---|
| ollama list | Afficher tous les modèles téléchargés et leurs tailles |
| ollama pull <model> | Télécharger un modèle sans l'exécuter |
| ollama rm <model> | Supprimer un modèle du disque |
| ollama ps | Afficher les modèles actuellement chargés en mémoire |
| ollama show <model> | Afficher les détails du modèle (paramètres, modèle, licence) |
| ollama serve | Démarrer le serveur Ollama manuellement (s'il n'est pas exécuté en tant que service) |
Comment résoudre les problèmes courants d'installation d'Ollama ?
Ollama dit « could not connect to ollama app, is it running? » (impossible de se connecter à l'application Ollama, fonctionne-t-elle ?)
Ollama ne s'exécute pas comme service en arrière-plan. Sur macOS : ouvrez l'application Ollama depuis Applications. Sous Linux : exécutez `systemctl start ollama` ou `ollama serve` dans un terminal. Sous Windows : lancez Ollama depuis le menu Démarrer.
Le téléchargement du modèle est très lent ou bloqué
Les téléchargements de modèles sont volumineux (2-47 Go). Si le téléchargement s'arrête, appuyez sur Ctrl+C et réexécutez `ollama pull <model>` -- Ollama reprend les téléchargements partiels. Pour des téléchargements plus rapides, utilisez une connexion filaire plutôt que le Wi-Fi.
J'obtiens l'erreur « error: model requires more system memory » (le modèle nécessite plus de mémoire système)
Le modèle est trop volumineux pour votre RAM disponible. Essayez une quantification plus petite : `ollama run llama3.2-instruct-q4_0` au lieu de la Q4_K_M par défaut. Ou passez à un modèle plus petit comme `llama3.2:3b`. Voir Les meilleurs modèles Local LLM pour débutants pour des recommandations adaptées à la RAM.
Ollama s'exécute mais mon GPU n'est pas utilisé
Sous Windows, vérifiez que votre driver NVIDIA est version 452.39 ou supérieure. Sous Linux, confirmez que NVIDIA container toolkit est installé (`nvidia-smi` devrait retourner les informations GPU). Ollama décharge automatiquement les couches vers le GPU quand la VRAM est disponible -- exécutez `ollama ps` après le démarrage d'un modèle pour voir l'utilisation du GPU.
Où sont stockés les fichiers de modèles Ollama ?
Les modèles sont stockés dans ~/.ollama/models sur macOS et Linux. Sous Windows, le chemin par défaut est C:\Users\<username>\.ollama\models. Vous pouvez modifier l'emplacement de stockage en définissant la variable d'environnement OLLAMA_MODELS avant de démarrer le service.
Que faire après l'installation d'Ollama ?
Une fois Ollama en cours d'exécution, l'étape suivante est Exécuter votre premier LLM local pour comprendre le prompting, la longueur du contexte et ce qu'il faut attendre de la vitesse d'inférence locale. Pour choisir le meilleur modèle pour votre matériel, consultez Les meilleurs modèles Local LLM pour débutants. Si vous préférez une interface de chat graphique au terminal, Installation de LM Studio couvre l'alternative de l'application de bureau.
Contexte de déploiement régional et conformité
UE / RGPD: Ollama s'exécutant localement sur site signifie que les données personnelles ne quittent jamais l'infrastructure de l'organisation. Le RGPD Article 5 (minimisation des données) est satisfait par défaut car l'inférence se produit sur votre machine. Les autorités allemandes de protection des données et la CNIL française recommandent le déploiement de modèles LLM locaux pour traiter les données des employés ou des clients. La liaison d'Ollama à `localhost` (la valeur par défaut) garantit aucun accès réseau externe.
Japon / METI: Les lignes directrices de gouvernance de l'IA du METI japonais exigent de documenter où l'inférence de l'IA se produit. Les organisations peuvent déployer Ollama sur site pour se conformer aux règles de résidence des données, particulièrement dans les services financiers, la santé et la fabrication. Le déploiement local avec Ollama est reconnu comme une approche préservant la vie privée qui s'aligne sur les exigences de la LAPPD (Loi sur la protection des informations personnelles).
Chine / CAC: Les mesures intérimaires de l'Administration du cyberespace de Chine pour les services d'IA générative (2023) réglementent les services d'IA offerts aux utilisateurs chinois. Un déploiement Ollama s'exécutant localement entièrement sur site se situe en dehors de la définition du fournisseur du CAC, réduisant considérablement le fardeau de conformité pour les cas d'utilisation en entreprise traitant les données sensibles.
Sources
- Documentation officielle Ollama -- Guides d'installation et documentation API
- Dépôt Ollama GitHub -- Code source, problèmes et notes de version
- Bibliothèque de modèles Ollama -- Liste complète des modèles disponibles avec liens de téléchargement
Quelles sont les erreurs courantes lors de l'installation d'Ollama ?
- Ne pas vérifier qu'Ollama s'exécute comme service en arrière-plan avant de s'attendre à ce que l'API réponde. Sur macOS, vérifiez que l'icône llama s'affiche dans la barre de menu. Sous Linux, exécutez `systemctl status ollama`. Sous Windows, consultez la barre des tâches système.
- Tenter d'exécuter des modèles plus volumineux que la RAM disponible sans vérifier d'abord les exigences de mémoire. Un modèle 7B avec quantification Q4 nécessite ~4-5 Go de VRAM. Multipliez toujours la taille du fichier de modèle par 1,2 pour estimer la RAM totale requise.
- Ignorer la détection du GPU -- Ollama supporte NVIDIA et AMD mais nécessite des drivers à jour. Sous Windows, vérifiez la version du driver NVIDIA 452.39+ avec `nvidia-smi`. Sous Linux, confirmez que NVIDIA container toolkit est installé.
- Confondre VRAM (mémoire GPU) avec RAM système. Ollama peut s'exécuter sur CPU, mais l'accélération GPU est 5-10× plus rapide. Si vous avez un GPU discret mais l'inférence est lente, Ollama peut se rabattre sur le CPU en raison de drivers GPU manquants ou obsolètes.
- Ne pas comprendre que les téléchargements de modèles sont mis en cache. À la première exécution, `ollama pull llama3.2` prend 5-10 minutes pour un téléchargement de 2 Go. Les exécutions ultérieures utilisent le modèle en cache et démarrent en moins de 5 secondes.
FAQ
Ollama est-il gratuit ?
Oui, Ollama est gratuit et open-source sous licence MIT. Il n'y a pas de limites d'utilisation, pas de clés API requises, et toute l'inférence s'exécute localement sur votre machine.
Ollama fonctionne-t-il sur Windows ?
Oui. Ollama dispose d'un programme d'installation Windows natif stable depuis 2024 (2026 avec performances améliorées). Téléchargez-le depuis ollama.com. Il supporte les GPU NVIDIA via CUDA et les GPU AMD via ROCm sur Windows.
Combien de RAM me faut-il pour exécuter Ollama ?
Un minimum de 8 Go de RAM pour les modèles 3B-7B à quantification Q4. 16 Go de RAM gère confortablement les modèles 7B et les modèles 13B à Q4. 32 Go+ de RAM sont recommandés pour les modèles 34B exécutés sur CPU uniquement.
Comment mettent à jour Ollama vers la dernière version ?
Sur macOS, Ollama se met à jour automatiquement. Sous Windows, téléchargez et exécutez le dernier programme d'installation depuis ollama.com. Sous Linux, réexécutez le script d'installation : curl -fsSL https://ollama.com/install.sh | sh
Puis-je utiliser Ollama via le SDK OpenAI sans modifications de code ?
Oui. Définissez base_url sur http://localhost:11434/v1 dans le SDK OpenAI et transmettez n'importe quelle chaîne comme clé API. L'API REST d'Ollama est entièrement compatible OpenAI, donc toute application écrite pour GPT ou Claude peut utiliser votre modèle local.
Pourquoi mon inférence Ollama est-elle lente (moins de 5 tokens/sec) ?
Le modèle s'exécute probablement sur CPU au lieu du GPU. Vérifiez avec ollama ps que le modèle est chargé. Si l'utilisation du GPU est 0%, vérifiez que vos drivers GPU sont installés et à jour. Sur NVIDIA : nvidia-smi devrait afficher votre GPU. Sur AMD : rocm-smi. Sur Mac : l'accélération GPU Metal est automatique sur Apple Silicon.
Ollama peut-il exécuter plusieurs modèles simultanément ?
Ollama peut exécuter un modèle à la fois par processus. Cependant, vous pouvez exécuter plusieurs instances d'Ollama sur des ports différents (par exemple, OLLAMA_HOST=localhost:11434 et OLLAMA_HOST=localhost:11435) pour servir plusieurs modèles en parallèle. Cela nécessite plus de RAM.
Quelle est la différence entre ollama pull et ollama run ?
ollama pull télécharge un modèle depuis la bibliothèque Ollama sans le charger en mémoire. ollama run télécharge le modèle (s'il n'est pas en cache) et démarre immédiatement une session de chat. Pour utiliser un modèle via l'API sans l'interface de chat, pull d'abord puis interrogez l'API.
Un LLM local avec Ollama est-il conforme au RGPD ?
Pas automatiquement. Un LLM local traite les données localement, mais la conformité au RGPD nécessite en outre : chiffrement du disque, contrôle d'accès, registre de traitement et éventuellement contrats de traitement. Le traitement local avec Ollama est une étape importante, mais pas une preuve complète de conformité au RGPD. Consultez votre délégué à la protection des données (DPO) pour la conformité.
Puis-je utiliser Ollama en production dans une PME française ?
Oui. De nombreuses PME utilisent Ollama localement pour le traitement interne de documents, la révision de code et l'analyse de données. Important : liez Ollama à localhost (valeur par défaut), activez le chiffrement du disque pour les données sensibles, et vérifiez vos exigences de conformité (en particulier avec les données clients). Avec ces mesures, Ollama est un moyen rentable de l'IA dans les opérations, sans dépendances cloud.