Ollama est un moteur d'inférence léger qui exécute de grands modèles de langage localement avec une seule commande. Après une installation de 2 minutes, `ollama pull llama3.2:3b` télécharge un modèle de 2 Go, et `ollama run llama3.2` ouvre une interface de chat. Ollama combine la gestion de modèles, le backend d'inférence llama.cpp et une API REST compatible OpenAI sur `localhost:11434` dans une seule application sans environnement Python, sans fichiers de configuration et sans GPU requis pour commencer. En avril 2026, Ollama supporte plus de 200 modèles incluant Meta Llama 3.2, Qwen2.5, Mistral et DeepSeek, et expose son API à tout SDK OpenAI sans modifications de code.

Points clés

macOS : téléchargez le .dmg depuis ollama.com, ou exécutez `brew install ollama` -- puis `ollama run llama3.2` pour discuter.
Windows : téléchargez le programme d'installation depuis ollama.com/download. Ollama s'exécute comme service en arrière-plan dans la barre des tâches système.
Linux : une seule commande curl installe tout -- `curl -fsSL https://ollama.com/install.sh | sh`.
Configuration minimale : 4 Go de RAM pour un modèle 3B, 8 Go de RAM pour un modèle 7B. Aucun GPU requis pour commencer.
Ollama expose une API REST compatible OpenAI sur `http://localhost:11434` -- toute application SDK OpenAI peut l'utiliser sans modifications de code.

Avant d'installer : L'inférence locale convient-elle à votre cas d'usage ?

L'installation d'Ollama prend 5 minutes, mais faire fonctionner correctement votre premier modèle peut prendre 20–40 minutes si vous rencontrez des problèmes de détection GPU, des incompatibilités de pilotes ou des contraintes de RAM.

Si vous hésitez sur le fait que l'inférence locale soit le bon choix pour vous, **comparez d'abord le compromis complet entre local et cloud** — vous découvrirez peut-être que commencer par une API cloud (prête en 5 minutes, sans dépannage) est le chemin plus intelligent. De nombreux utilisateurs découvrent cela après l'installation ; il est préférable de décider maintenant.

Pour les utilisateurs engagés dans le local, continuez ci-dessous. Pour les utilisateurs évaluant d'abord le cloud, consultez la comparaison complète.

Qu'est-ce qu'Ollama et pourquoi l'utiliser ?

En une phrase : Ollama est un outil pour télécharger et exécuter localement des modèles de langage open-source (comme Mistral ou Llama 3.1) sur votre ordinateur avec une seule commande.

Ollama est un moteur d'inférence open-source qui exécute de grands modèles de langage localement. Il combine la gestion de modèles, le backend d'inférence llama.cpp et une API REST compatible OpenAI dans une seule application légère. Aucun Python, aucun environnement conda et aucune configuration CUDA requise.

Ollama maintient une bibliothèque de modèles triée sur le volet (ollama.com/library) avec des téléchargements en une seule commande pour Meta Llama 3.1, Microsoft Phi-3, Google Gemma 2, Mistral, Qwen2.5 et plus de 100 autres modèles. Un modèle est téléchargé une fois et mis en cache sur le disque -- les exécutions ultérieures démarrent en moins de 5 secondes.

Pour les alternatives à Ollama, voir Installateurs Local LLM en un clic. Pour comparer Ollama avec LM Studio, voir Installation de LM Studio.

Comment installer Ollama sur macOS ?

En une phrase : Ollama s'exécute comme service en arrière-plan sur macOS -- une fois installé et démarré, l'API locale écoute sur `http://localhost:11434` les requêtes de modèles.

Il y a deux méthodes. Le téléchargement du programme d'installation est plus rapide ; Homebrew est mieux si vous gérez les logiciels avec brew.

1
Allez sur ollama.com/download et cliquez sur « Télécharger pour macOS ».
2
Ouvrez le fichier Ollama.dmg téléchargé et glissez Ollama vers votre dossier Applications.
3
Lancez Ollama depuis Applications. Une icône llama apparaît dans votre barre de menu -- Ollama s'exécute maintenant comme service en arrière-plan.
4
Ouvrez Terminal et exécutez votre premier modèle : `ollama run llama3.2`
5
Le modèle est téléchargé (~2 Go pour llama3.2:3b) et une invite de chat apparaît. Tapez un message et appuyez sur Entrée.

Comment installer Ollama sur macOS avec Homebrew ?

bash

brew install ollama

# Démarrer le service Ollama
ollama serve &

# Télécharger et exécuter un modèle
ollama run llama3.2

Comment installer Ollama sur Windows ?

1
Allez sur ollama.com/download et cliquez sur « Télécharger pour Windows ».
2
Exécutez le programme d'installation OllamaSetup.exe téléchargé. Ollama s'installe dans %LOCALAPPDATA%\Programs\Ollama.
3
Ollama démarre automatiquement et s'affiche comme icône de la barre des tâches système.
4
Ouvrez PowerShell ou Invite de commandes et exécutez : `ollama run llama3.2`
5
Le modèle est téléchargé à la première exécution. Les exécutions ultérieures utilisent le modèle en cache.

Comment activer le support GPU sur Windows ?

Ollama sur Windows détecte et utilise automatiquement les GPU NVIDIA (CUDA 11.3+) et AMD (ROCm 6+). Si vous avez une carte NVIDIA RTX, Ollama déchargera automatiquement les couches de modèles vers la VRAM -- aucune configuration manuelle requise. Pour vérifier que le GPU est utilisé, exécutez `ollama run llama3.2` et consultez le Gestionnaire des tâches → GPU pour l'activité.

Comment installer Ollama sur Linux ?

Une seule commande installe Ollama sur toute distribution Linux :

bash

curl -fsSL https://ollama.com/install.sh | sh

Comment exécuter Ollama comme service systemd sur Linux ?

Le script d'installation enregistre automatiquement Ollama comme service systemd. Pour le gérer :

bash

# Vérifier l'état du service
systemctl status ollama

# Démarrer / Arrêter / Redémarrer
systemctl start ollama
systemctl stop ollama
systemctl restart ollama

# Afficher les journaux
journalctl -u ollama -f

Comment télécharger et exécuter votre premier modèle dans Ollama ?

Après l'installation d'Ollama, exécutez cette commande pour télécharger et démarrer un modèle :

bash

# Télécharger un modèle (stockage dans ~/.ollama/models)
ollama pull llama3.2

# L'exécuter de manière interactive
ollama run llama3.2

# Ou télécharger et exécuter en une étape
ollama run llama3.2

Quel modèle utiliser pour commencer ?

Pour un premier passage, ces trois modèles couvrent différents profils matériels :

Modèle	Taille du téléchargement	RAM requise	Meilleur pour
Llama 3.2 3B	~2 Go	4 Go	Premier test -- toute machine
Llama 3.1 8B	~4,7 Go	8 Go	Utilisation générale sur la plupart des ordinateurs portables
phi4-mini	~2,3 Go	4 Go	Réponses rapides, faible RAM

Comment vérifier qu'Ollama fonctionne ?

Testez l'API REST directement pour confirmer qu'Ollama s'exécute et est accessible :

bash

# Vérifier qu'Ollama s'exécute
curl http://localhost:11434
# Attendu: "Ollama is running"

# Lister les modèles téléchargés
ollama list

# Envoyer une invite via l'API (compatible OpenAI)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Qu'est-ce que 2+2 ?",
  "stream": false
}'

Quelles commandes Ollama sont les plus utiles ?

Commande	Fonction
ollama list	Afficher tous les modèles téléchargés et leurs tailles
ollama pull <model>	Télécharger un modèle sans l'exécuter
ollama rm <model>	Supprimer un modèle du disque
ollama ps	Afficher les modèles actuellement chargés en mémoire
ollama show <model>	Afficher les détails du modèle (paramètres, modèle, licence)
ollama serve	Démarrer le serveur Ollama manuellement (s'il n'est pas exécuté en tant que service)

Comment résoudre les problèmes courants d'installation d'Ollama ?

Ollama dit « could not connect to ollama app, is it running? » (impossible de se connecter à l'application Ollama, fonctionne-t-elle ?)

Ollama ne s'exécute pas comme service en arrière-plan. Sur macOS : ouvrez l'application Ollama depuis Applications. Sous Linux : exécutez `systemctl start ollama` ou `ollama serve` dans un terminal. Sous Windows : lancez Ollama depuis le menu Démarrer.

Le téléchargement du modèle est très lent ou bloqué

Les téléchargements de modèles sont volumineux (2-47 Go). Si le téléchargement s'arrête, appuyez sur Ctrl+C et réexécutez `ollama pull <model>` -- Ollama reprend les téléchargements partiels. Pour des téléchargements plus rapides, utilisez une connexion filaire plutôt que le Wi-Fi.

J'obtiens l'erreur « error: model requires more system memory » (le modèle nécessite plus de mémoire système)

Le modèle est trop volumineux pour votre RAM disponible. Essayez une quantification plus petite : `ollama run llama3.2-instruct-q4_0` au lieu de la Q4_K_M par défaut. Ou passez à un modèle plus petit comme `llama3.2:3b`. Voir Les meilleurs modèles Local LLM pour débutants pour des recommandations adaptées à la RAM.

Ollama s'exécute mais mon GPU n'est pas utilisé

Sous Windows, vérifiez que votre driver NVIDIA est version 452.39 ou supérieure. Sous Linux, confirmez que NVIDIA container toolkit est installé (`nvidia-smi` devrait retourner les informations GPU). Ollama décharge automatiquement les couches vers le GPU quand la VRAM est disponible -- exécutez `ollama ps` après le démarrage d'un modèle pour voir l'utilisation du GPU.

Où sont stockés les fichiers de modèles Ollama ?

Les modèles sont stockés dans ~/.ollama/models sur macOS et Linux. Sous Windows, le chemin par défaut est C:\Users\<username>\.ollama\models. Vous pouvez modifier l'emplacement de stockage en définissant la variable d'environnement OLLAMA_MODELS avant de démarrer le service.

Que faire après l'installation d'Ollama ?

Une fois Ollama en cours d'exécution, l'étape suivante est Exécuter votre premier LLM local pour comprendre le prompting, la longueur du contexte et ce qu'il faut attendre de la vitesse d'inférence locale. Pour choisir le meilleur modèle pour votre matériel, consultez Les meilleurs modèles Local LLM pour débutants. Si vous préférez une interface de chat graphique au terminal, Installation de LM Studio couvre l'alternative de l'application de bureau.

Contexte de déploiement régional et conformité

UE / RGPD: Ollama s'exécutant localement sur site signifie que les données personnelles ne quittent jamais l'infrastructure de l'organisation. Le RGPD Article 5 (minimisation des données) est satisfait par défaut car l'inférence se produit sur votre machine. Les autorités allemandes de protection des données et la CNIL française recommandent le déploiement de modèles LLM locaux pour traiter les données des employés ou des clients. La liaison d'Ollama à `localhost` (la valeur par défaut) garantit aucun accès réseau externe.

Japon / METI: Les lignes directrices de gouvernance de l'IA du METI japonais exigent de documenter où l'inférence de l'IA se produit. Les organisations peuvent déployer Ollama sur site pour se conformer aux règles de résidence des données, particulièrement dans les services financiers, la santé et la fabrication. Le déploiement local avec Ollama est reconnu comme une approche préservant la vie privée qui s'aligne sur les exigences de la LAPPD (Loi sur la protection des informations personnelles).

Chine / CAC: Les mesures intérimaires de l'Administration du cyberespace de Chine pour les services d'IA générative (2023) réglementent les services d'IA offerts aux utilisateurs chinois. Un déploiement Ollama s'exécutant localement entièrement sur site se situe en dehors de la définition du fournisseur du CAC, réduisant considérablement le fardeau de conformité pour les cas d'utilisation en entreprise traitant les données sensibles.

Sources

Documentation officielle Ollama -- Guides d'installation et documentation API
Dépôt Ollama GitHub -- Code source, problèmes et notes de version
Bibliothèque de modèles Ollama -- Liste complète des modèles disponibles avec liens de téléchargement

Quelles sont les erreurs courantes lors de l'installation d'Ollama ?

Ne pas vérifier qu'Ollama s'exécute comme service en arrière-plan avant de s'attendre à ce que l'API réponde. Sur macOS, vérifiez que l'icône llama s'affiche dans la barre de menu. Sous Linux, exécutez `systemctl status ollama`. Sous Windows, consultez la barre des tâches système.
Tenter d'exécuter des modèles plus volumineux que la RAM disponible sans vérifier d'abord les exigences de mémoire. Un modèle 7B avec quantification Q4 nécessite ~4-5 Go de VRAM. Multipliez toujours la taille du fichier de modèle par 1,2 pour estimer la RAM totale requise.
Ignorer la détection du GPU -- Ollama supporte NVIDIA et AMD mais nécessite des drivers à jour. Sous Windows, vérifiez la version du driver NVIDIA 452.39+ avec `nvidia-smi`. Sous Linux, confirmez que NVIDIA container toolkit est installé.
Confondre VRAM (mémoire GPU) avec RAM système. Ollama peut s'exécuter sur CPU, mais l'accélération GPU est 5-10× plus rapide. Si vous avez un GPU discret mais l'inférence est lente, Ollama peut se rabattre sur le CPU en raison de drivers GPU manquants ou obsolètes.
Ne pas comprendre que les téléchargements de modèles sont mis en cache. À la première exécution, `ollama pull llama3.2` prend 5-10 minutes pour un téléchargement de 2 Go. Les exécutions ultérieures utilisent le modèle en cache et démarrent en moins de 5 secondes.

FAQ

Ollama est-il gratuit ?

Oui, Ollama est gratuit et open-source sous licence MIT. Il n'y a pas de limites d'utilisation, pas de clés API requises, et toute l'inférence s'exécute localement sur votre machine.

Ollama fonctionne-t-il sur Windows ?

Oui. Ollama dispose d'un programme d'installation Windows natif stable depuis 2024 (2026 avec performances améliorées). Téléchargez-le depuis ollama.com. Il supporte les GPU NVIDIA via CUDA et les GPU AMD via ROCm sur Windows.

Combien de RAM me faut-il pour exécuter Ollama ?

Un minimum de 8 Go de RAM pour les modèles 3B-7B à quantification Q4. 16 Go de RAM gère confortablement les modèles 7B et les modèles 13B à Q4. 32 Go+ de RAM sont recommandés pour les modèles 34B exécutés sur CPU uniquement.

Comment mettent à jour Ollama vers la dernière version ?

Sur macOS, Ollama se met à jour automatiquement. Sous Windows, téléchargez et exécutez le dernier programme d'installation depuis ollama.com. Sous Linux, réexécutez le script d'installation : curl -fsSL https://ollama.com/install.sh | sh

Puis-je utiliser Ollama via le SDK OpenAI sans modifications de code ?

Oui. Définissez base_url sur http://localhost:11434/v1 dans le SDK OpenAI et transmettez n'importe quelle chaîne comme clé API. L'API REST d'Ollama est entièrement compatible OpenAI, donc toute application écrite pour GPT ou Claude peut utiliser votre modèle local.

Pourquoi mon inférence Ollama est-elle lente (moins de 5 tokens/sec) ?

Le modèle s'exécute probablement sur CPU au lieu du GPU. Vérifiez avec ollama ps que le modèle est chargé. Si l'utilisation du GPU est 0%, vérifiez que vos drivers GPU sont installés et à jour. Sur NVIDIA : nvidia-smi devrait afficher votre GPU. Sur AMD : rocm-smi. Sur Mac : l'accélération GPU Metal est automatique sur Apple Silicon.

Ollama peut-il exécuter plusieurs modèles simultanément ?

Ollama peut exécuter un modèle à la fois par processus. Cependant, vous pouvez exécuter plusieurs instances d'Ollama sur des ports différents (par exemple, OLLAMA_HOST=localhost:11434 et OLLAMA_HOST=localhost:11435) pour servir plusieurs modèles en parallèle. Cela nécessite plus de RAM.

Quelle est la différence entre ollama pull et ollama run ?

ollama pull télécharge un modèle depuis la bibliothèque Ollama sans le charger en mémoire. ollama run télécharge le modèle (s'il n'est pas en cache) et démarre immédiatement une session de chat. Pour utiliser un modèle via l'API sans l'interface de chat, pull d'abord puis interrogez l'API.

Un LLM local avec Ollama est-il conforme au RGPD ?

Pas automatiquement. Un LLM local traite les données localement, mais la conformité au RGPD nécessite en outre : chiffrement du disque, contrôle d'accès, registre de traitement et éventuellement contrats de traitement. Le traitement local avec Ollama est une étape importante, mais pas une preuve complète de conformité au RGPD. Consultez votre délégué à la protection des données (DPO) pour la conformité.

Puis-je utiliser Ollama en production dans une PME française ?

Oui. De nombreuses PME utilisent Ollama localement pour le traitement interne de documents, la révision de code et l'analyse de données. Important : liez Ollama à localhost (valeur par défaut), activez le chiffrement du disque pour les données sensibles, et vérifiez vos exigences de conformité (en particulier avec les données clients). Avec ces mesures, Ollama est un moyen rentable de l'IA dans les opérations, sans dépendances cloud.

Installation d'Ollama : Guide complet de configuration pour macOS, Windows et Linux

Avant d'installer : L'inférence locale convient-elle à votre cas d'usage ?

Qu'est-ce qu'Ollama et pourquoi l'utiliser ?

Comment installer Ollama sur macOS ?

Comment installer Ollama sur macOS avec Homebrew ?

Comment installer Ollama sur Windows ?

Comment activer le support GPU sur Windows ?

Comment installer Ollama sur Linux ?

Comment exécuter Ollama comme service systemd sur Linux ?

Comment télécharger et exécuter votre premier modèle dans Ollama ?

Quel modèle utiliser pour commencer ?

Comment vérifier qu'Ollama fonctionne ?

Quelles commandes Ollama sont les plus utiles ?

Comment résoudre les problèmes courants d'installation d'Ollama ?

Ollama dit « could not connect to ollama app, is it running? » (impossible de se connecter à l'application Ollama, fonctionne-t-elle ?)

Le téléchargement du modèle est très lent ou bloqué

J'obtiens l'erreur « error: model requires more system memory » (le modèle nécessite plus de mémoire système)

Ollama s'exécute mais mon GPU n'est pas utilisé

Où sont stockés les fichiers de modèles Ollama ?

Que faire après l'installation d'Ollama ?

Contexte de déploiement régional et conformité

Sources

Quelles sont les erreurs courantes lors de l'installation d'Ollama ?

FAQ

Ollama est-il gratuit ?

Ollama fonctionne-t-il sur Windows ?

Combien de RAM me faut-il pour exécuter Ollama ?

Comment mettent à jour Ollama vers la dernière version ?

Puis-je utiliser Ollama via le SDK OpenAI sans modifications de code ?

Pourquoi mon inférence Ollama est-elle lente (moins de 5 tokens/sec) ?

Ollama peut-il exécuter plusieurs modèles simultanément ?

Quelle est la différence entre ollama pull et ollama run ?

Un LLM local avec Ollama est-il conforme au RGPD ?

Puis-je utiliser Ollama en production dans une PME française ?

A Note on Third-Party Facts

Installation d'Ollama : Guide complet de configuration pour macOS, Windows et Linux

Avant d'installer : L'inférence locale convient-elle à votre cas d'usage ?

Qu'est-ce qu'Ollama et pourquoi l'utiliser ?

Comment installer Ollama sur macOS ?

Comment installer Ollama sur macOS avec Homebrew ?

Comment installer Ollama sur Windows ?

Comment activer le support GPU sur Windows ?

Comment installer Ollama sur Linux ?

Comment exécuter Ollama comme service systemd sur Linux ?

Comment télécharger et exécuter votre premier modèle dans Ollama ?

Quel modèle utiliser pour commencer ?

Comment vérifier qu'Ollama fonctionne ?

Quelles commandes Ollama sont les plus utiles ?

Comment résoudre les problèmes courants d'installation d'Ollama ?

Ollama dit « could not connect to ollama app, is it running? » (impossible de se connecter à l'application Ollama, fonctionne-t-elle ?)

Le téléchargement du modèle est très lent ou bloqué

J'obtiens l'erreur « error: model requires more system memory » (le modèle nécessite plus de mémoire système)

Ollama s'exécute mais mon GPU n'est pas utilisé

Où sont stockés les fichiers de modèles Ollama ?

Que faire après l'installation d'Ollama ?

Contexte de déploiement régional et conformité

Sources

Quelles sont les erreurs courantes lors de l'installation d'Ollama ?

Lectures recommandées

FAQ

Ollama est-il gratuit ?

Ollama fonctionne-t-il sur Windows ?

Combien de RAM me faut-il pour exécuter Ollama ?

Comment mettent à jour Ollama vers la dernière version ?

Puis-je utiliser Ollama via le SDK OpenAI sans modifications de code ?

Pourquoi mon inférence Ollama est-elle lente (moins de 5 tokens/sec) ?

Ollama peut-il exécuter plusieurs modèles simultanément ?

Quelle est la différence entre ollama pull et ollama run ?

Un LLM local avec Ollama est-il conforme au RGPD ?

Puis-je utiliser Ollama en production dans une PME française ?

A Note on Third-Party Facts