Points clés
- Le chemin le plus rapide : installez Ollama → exécutez `ollama run llama3.2` → discutez dans votre terminal. Durée totale : moins de 5 minutes avec une connexion rapide.
- Pour les machines avec 8 Go de RAM : commencez avec `llama3.2:3b` (2 Go de téléchargement) ou `phi4-mini` (2,3 Go). Les deux fonctionnent sur n'importe quel laptop moderne.
- Attendez 15-40 tokens/sec sur CPU, 60-120 tokens/sec sur un GPU milieu de gamme ou Apple Silicon.
- Les premières réponses peuvent sembler plus lentes que les APIs cloud -- les modèles locaux échangent vitesse contre confidentialité et coût zéro.
- Après le téléchargement initial du modèle, tout fonctionne hors ligne. Aucune connexion Internet requise pour les sessions suivantes.
Étape 1 : Installer Ollama
Ollama est le moyen le plus rapide d'exécuter un LLM local. Installez-le avec une commande ou un téléchargement de 2 minutes :
# macOS (Homebrew)
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: download installer from ollama.com/downloadVérifier qu'Ollama fonctionne
Après l'installation, confirmez qu'Ollama est actif :
curl http://localhost:11434
# Expected output: Ollama is runningÉtape 2 : Choisir votre premier modèle
Choisissez un modèle en fonction de votre RAM disponible. En cas de doute, commencez avec `llama3.2:3b` -- il fonctionne sur toute machine avec 4 Go de RAM et produit des résultats utiles :
| Votre RAM | Modèle recommandé | Taille du téléchargement | Pourquoi |
|---|---|---|---|
| 4 Go | llama3.2:1b | ~1,3 Go | Plus petit modèle Llama utilisable |
| 8 Go | Llama 3.2 3B | ~2 Go | Meilleur rapport qualité/taille pour débutants |
| 8-16 Go | Llama 3.1 8B | ~4,7 Go | Modèle polyvalent performant |
| 16+ Go | mistral:7b ou qwen2.5:7b | ~4-5 Go | Qualité compétitive, inférence rapide |
Étape 3 : Télécharger le modèle
Téléchargez le modèle avec `ollama pull`. Le modèle est enregistré dans `~/.ollama/models` et ne doit être téléchargé qu'une seule fois :
ollama pull llama3.2
# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8bÀ quoi ressemble le téléchargement ?
Ollama affiche la progression du téléchargement dans le terminal. Un modèle `llama3.2:3b` prend 2-5 minutes sur une connexion haut débit classique. Le modèle est stocké compressé -- les 2 Go téléchargés s'expandent à environ 2,3 Go sur disque.
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏ 42 B
verifying sha256 digest
writing manifest
successÉtape 4 : Lancer le modèle et envoyer votre premier prompt
Démarrez une session de chat interactive :
ollama run llama3.2
# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)Votre première conversation
Tapez un message et appuyez sur Entrée. Le modèle diffuse sa réponse token par token :
>>> What are local LLMs?
Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...À quoi s'attendre : vitesse, qualité et limitations
Vitesse variable selon le matériel. Sur un laptop 2023 sans GPU : attendez 15-25 tokens/sec pour un modèle 3B et 8-15 tokens/sec pour un 8B. Sur Apple M3 Pro : 50-80 tokens/sec pour 8B. Sur NVIDIA RTX 4070 Ti : 90-130 tokens/sec pour 8B.
Qualité de `llama3.2:3b` nettement inférieure à GPT-4o ou Claude Opus 4.7 sur des tâches complexes. Pour la synthèse, les Q&A simples et l'explication de code, la sortie est utile. Pour le raisonnement multi-étapes ou la rédaction longue, passez à un modèle 8B ou 13B.
Fenêtre de contexte : `llama3.2:3b` supporte 128K tokens par défaut dans Ollama. En pratique, la qualité se dégrade après ~16K tokens dans une seule conversation.
Délai de première réponse : la première réponse après `ollama run` inclut le temps de chargement du modèle (5-30 secondes). Les réponses suivantes dans la même session sont plus rapides.
Comment utiliser votre LLM local au-delà du terminal ?
Le chat terminal Ollama est utile pour les tests, mais la plupart des cas d'usage réels nécessitent une meilleure interface :
- Open WebUI : une interface web complète pour Ollama. Lancez-la avec Docker : `docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`. Accès sur http://localhost:3000.
- LM Studio : si vous préférez une interface desktop, Comment installer LM Studio couvre la configuration complète.
- Intégration API : l'API Ollama sur `localhost:11434` est compatible avec le SDK OpenAI. Toute application acceptant une URL de base OpenAI peut se connecter à votre modèle local.
- VS Code / Cursor : des extensions comme Continue.dev se connectent à Ollama et fournissent une assistance de codage IA locale directement dans votre éditeur.
Lancer votre premier LLM local : contexte régional
UE / RGPD : exécuter un LLM local avec Ollama signifie qu'aucune donnée de prompt, contexte ou sortie ne quitte votre machine -- les mécanismes de transfert RGPD Article 46 ne s'appliquent pas. Pour les professionnels européens traitant des données personnelles, c'est l'alternative préservant la confidentialité aux APIs cloud. Votre premier modèle local (llama3.2:3b) utilise 2 Go de disque, génère zéro appel API externe, et satisfait les directives de minimisation des données BSI allemandes par conception.
Japon (METI) : les directives de gouvernance IA METI exigent de documenter où s'effectue l'inférence IA. Votre première configuration Ollama crée un environnement local complet et auditable.
Chine : pour les flux de travail en chinois, remplacez llama3.2:3b par qwen2.5:3b comme premier modèle : `ollama pull qwen2.5:3b`. Qwen2.5 traite le texte chinois 30-40% plus efficacement en tokens que Llama.
Questions fréquentes sur votre premier LLM local
La réponse du modèle est très lente -- est-ce normal ?
Sur un matériel CPU uniquement, 8-20 tokens/sec est normal pour un modèle 7B. Chaque token représente environ 0,75 mot. À 10 tokens/sec, une réponse de 100 mots prend environ 13 secondes. Pour accélérer l'inférence, utilisez un modèle plus petit (3B au lieu de 8B), activez le déchargement GPU si disponible, ou utilisez le niveau de quantification Q4_K_M qui est le paramètre commun le plus rapide.
Puis-je exécuter deux modèles en même temps ?
Ollama peut garder plusieurs modèles chargés simultanément si vous avez assez de RAM. Par défaut, Ollama décharge un modèle après 5 minutes d'inactivité. Vous pouvez changer cela avec la variable d'environnement OLLAMA_KEEP_ALIVE. L'exécution de deux modèles 7B simultanément nécessite ~16 Go de RAM.
Comment arrêter Ollama en arrière-plan ?
Sur macOS : cliquez sur l'icône llama dans la barre de menu et sélectionnez Quitter. Sur Linux : exécutez `systemctl stop ollama`. Sur Windows : clic droit sur l'icône dans la barre système et sélectionnez Quitter.
Quelle est la façon la plus simple d'exécuter un LLM local pour la première fois ?
Installez Ollama (ollama.com), exécutez `ollama pull llama3.2:3b`, puis `ollama run llama3.2:3b`. C'est tout. Trois commandes, 2-5 minutes, et vous avez un modèle IA fonctionnel sur votre machine.
Comment savoir si mon LLM local fonctionne correctement ?
Exécutez `ollama ps` dans le terminal. Si le modèle fonctionne, il apparaîtra dans la liste avec son nom, sa taille et son utilisation mémoire. Envoyez un prompt simple comme "Combien font 2+2 ?" -- si la réponse est "4", le modèle fonctionne correctement.
Mon ordinateur a-t-il besoin d'un GPU pour exécuter un LLM local ?
Non. Les LLMs locaux s'exécutent sur CPU. Un GPU rend l'inférence 5-10× plus rapide, mais CPU seul convient pour l'apprentissage et beaucoup de cas d'usage réels. Les laptops modernes avec Apple M1/M2, AMD Ryzen ou Intel 12e génération peuvent exécuter des modèles 3B-7B à des vitesses raisonnables (10-30 tokens/sec).
Combien d'espace disque occupe un LLM local ?
`llama3.2:1b` fait 1,3 Go, `llama3.2:3b` fait 2 Go, `llama3.1:8b` fait 4,7 Go. Ce sont les tailles compressées telles que stockées par Ollama.
Puis-je utiliser mon LLM local sans connexion Internet ?
Oui, complètement. Téléchargez le modèle une fois avec Ollama (nécessite Internet), puis exécutez en local pour toujours sans Internet. Parfait pour les réseaux privés, les avions ou les environnements totalement hors ligne.
En quoi un LLM local diffère-t-il de ChatGPT ?
ChatGPT fonctionne sur les serveurs d'Anthropic. Les LLMs locaux fonctionnent sur votre machine. Local = zéro donnée quitte votre appareil, pleine confidentialité, aucun coût API. ChatGPT = meilleure qualité sur les tâches complexes, nécessite Internet et un abonnement payant.
Quel est le meilleur premier modèle à essayer avec Ollama ?
`ollama pull llama3.2:3b` -- il fait 2 Go, fonctionne sur n'importe quel laptop moderne, produit des réponses compétentes, et est le point de départ recommandé par Ollama.
Prochaines étapes après votre premier essai
Maintenant que vous avez un LLM local fonctionnel, explorez ce qu'il peut faire. Pour comprendre quels modèles fonctionnent le mieux pour votre matériel, consultez Meilleurs modèles LLM locaux pour débutants. Pour les conseils de performance spécifiques aux laptops, voir Comment exécuter des LLMs locaux sur un laptop.
Sources
- **Bibliothèque de modèles Ollama** -- Liste officielle des modèles téléchargeables et leurs spécifications
- **Dépôt GitHub Ollama** -- Code source ouvert, documentation et suivi des problèmes
- **Fiche modèle Meta Llama 3.2** -- Spécifications officielles, données d'entraînement et benchmarks de performance
Erreurs courantes après votre premier essai
- Confondre nombre de tokens et vitesse -- un modèle 7B générant 100 tokens à 20 tokens/sec prend 5 secondes, pas instantané.
- Exécuter l'inférence pendant que le système est occupé par d'autres tâches, réduisant significativement les tokens/sec effectifs.
- Ne pas vérifier les limites de fenêtre de contexte -- la plupart des modèles débutants supportent 2K-8K tokens, pas les 100K+ des modèles frontier.
- Attendre des réponses instantanées au premier lancement -- la première réponse inclut le temps de chargement du modèle (5-30 secondes). Les réponses suivantes sont 2-5× plus rapides.
- Utiliser le mauvais tag de modèle -- `llama3.1:8b-text` est le mode completion texte de base et bouclera/répétera indéfiniment. Utilisez les tags `-instruct` comme `llama3.1:8b-instruct` pour le chat.