PromptQuorumPromptQuorum
Accueil/LLMs locaux/Exécutez votre premier LLM local: de l'installation à la première réponse en 10 minutes
Premiers pas

Exécutez votre premier LLM local: de l'installation à la première réponse en 10 minutes

·7 min read·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Exécuter votre premier LLM local avec Ollama prend moins de 10 minutes. Installez Ollama, exécutez une commande pour charger un modèle, et commencez à discuter dans votre terminal -- pas de clé API, pas de compte, et pas de connexion Internet après le téléchargement initial. En avril 2026, le modèle débutant le plus rapide est Llama 3.2 3B à 25-45 tokens/sec sur une CPU portable moderne.

4-Step Local LLM PipelineA horizontal flow diagram showing the four steps to run a local LLM: Install Ollama, Pull a Model, Run the Model, and Start Chatting.1. Installollama.com2. Pullllama3.2:3b3. Runollama run4. ChatLocal AI2 min2-5 min<1 secInstant

Position: intro

Points clés

  • Le chemin le plus rapide : installez Ollama → exécutez `ollama run llama3.2` → discutez dans votre terminal. Durée totale : moins de 5 minutes avec une connexion rapide.
  • Pour les machines avec 8 Go de RAM : commencez avec `llama3.2:3b` (2 Go de téléchargement) ou `phi4-mini` (2,3 Go). Les deux fonctionnent sur n'importe quel laptop moderne.
  • Attendez 15-40 tokens/sec sur CPU, 60-120 tokens/sec sur un GPU milieu de gamme ou Apple Silicon.
  • Les premières réponses peuvent sembler plus lentes que les APIs cloud -- les modèles locaux échangent vitesse contre confidentialité et coût zéro.
  • Après le téléchargement initial du modèle, tout fonctionne hors ligne. Aucune connexion Internet requise pour les sessions suivantes.

Étape 1 : Installer Ollama

Ollama est le moyen le plus rapide d'exécuter un LLM local. Installez-le avec une commande ou un téléchargement de 2 minutes :

bash
# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

Vérifier qu'Ollama fonctionne

Après l'installation, confirmez qu'Ollama est actif :

bash
curl http://localhost:11434
# Expected output: Ollama is running

Étape 2 : Choisir votre premier modèle

Choisissez un modèle en fonction de votre RAM disponible. En cas de doute, commencez avec `llama3.2:3b` -- il fonctionne sur toute machine avec 4 Go de RAM et produit des résultats utiles :

Votre RAMModèle recommandéTaille du téléchargementPourquoi
4 Gollama3.2:1b~1,3 GoPlus petit modèle Llama utilisable
8 GoLlama 3.2 3B~2 GoMeilleur rapport qualité/taille pour débutants
8-16 GoLlama 3.1 8B~4,7 GoModèle polyvalent performant
16+ Gomistral:7b ou qwen2.5:7b~4-5 GoQualité compétitive, inférence rapide

Étape 3 : Télécharger le modèle

Téléchargez le modèle avec `ollama pull`. Le modèle est enregistré dans `~/.ollama/models` et ne doit être téléchargé qu'une seule fois :

bash
ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

À quoi ressemble le téléchargement ?

Ollama affiche la progression du téléchargement dans le terminal. Un modèle `llama3.2:3b` prend 2-5 minutes sur une connexion haut débit classique. Le modèle est stocké compressé -- les 2 Go téléchargés s'expandent à environ 2,3 Go sur disque.

text
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

Étape 4 : Lancer le modèle et envoyer votre premier prompt

Démarrez une session de chat interactive :

bash
ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

Votre première conversation

Tapez un message et appuyez sur Entrée. Le modèle diffuse sa réponse token par token :

text
>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

À quoi s'attendre : vitesse, qualité et limitations

Vitesse variable selon le matériel. Sur un laptop 2023 sans GPU : attendez 15-25 tokens/sec pour un modèle 3B et 8-15 tokens/sec pour un 8B. Sur Apple M3 Pro : 50-80 tokens/sec pour 8B. Sur NVIDIA RTX 4070 Ti : 90-130 tokens/sec pour 8B.

Qualité de `llama3.2:3b` nettement inférieure à GPT-4o ou Claude Opus 4.7 sur des tâches complexes. Pour la synthèse, les Q&A simples et l'explication de code, la sortie est utile. Pour le raisonnement multi-étapes ou la rédaction longue, passez à un modèle 8B ou 13B.

Fenêtre de contexte : `llama3.2:3b` supporte 128K tokens par défaut dans Ollama. En pratique, la qualité se dégrade après ~16K tokens dans une seule conversation.

Délai de première réponse : la première réponse après `ollama run` inclut le temps de chargement du modèle (5-30 secondes). Les réponses suivantes dans la même session sont plus rapides.

Comment utiliser votre LLM local au-delà du terminal ?

Le chat terminal Ollama est utile pour les tests, mais la plupart des cas d'usage réels nécessitent une meilleure interface :

  • Open WebUI : une interface web complète pour Ollama. Lancez-la avec Docker : `docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`. Accès sur http://localhost:3000.
  • LM Studio : si vous préférez une interface desktop, Comment installer LM Studio couvre la configuration complète.
  • Intégration API : l'API Ollama sur `localhost:11434` est compatible avec le SDK OpenAI. Toute application acceptant une URL de base OpenAI peut se connecter à votre modèle local.
  • VS Code / Cursor : des extensions comme Continue.dev se connectent à Ollama et fournissent une assistance de codage IA locale directement dans votre éditeur.

Lancer votre premier LLM local : contexte régional

UE / RGPD : exécuter un LLM local avec Ollama signifie qu'aucune donnée de prompt, contexte ou sortie ne quitte votre machine -- les mécanismes de transfert RGPD Article 46 ne s'appliquent pas. Pour les professionnels européens traitant des données personnelles, c'est l'alternative préservant la confidentialité aux APIs cloud. Votre premier modèle local (llama3.2:3b) utilise 2 Go de disque, génère zéro appel API externe, et satisfait les directives de minimisation des données BSI allemandes par conception.

Japon (METI) : les directives de gouvernance IA METI exigent de documenter où s'effectue l'inférence IA. Votre première configuration Ollama crée un environnement local complet et auditable.

Chine : pour les flux de travail en chinois, remplacez llama3.2:3b par qwen2.5:3b comme premier modèle : `ollama pull qwen2.5:3b`. Qwen2.5 traite le texte chinois 30-40% plus efficacement en tokens que Llama.

Questions fréquentes sur votre premier LLM local

La réponse du modèle est très lente -- est-ce normal ?

Sur un matériel CPU uniquement, 8-20 tokens/sec est normal pour un modèle 7B. Chaque token représente environ 0,75 mot. À 10 tokens/sec, une réponse de 100 mots prend environ 13 secondes. Pour accélérer l'inférence, utilisez un modèle plus petit (3B au lieu de 8B), activez le déchargement GPU si disponible, ou utilisez le niveau de quantification Q4_K_M qui est le paramètre commun le plus rapide.

Puis-je exécuter deux modèles en même temps ?

Ollama peut garder plusieurs modèles chargés simultanément si vous avez assez de RAM. Par défaut, Ollama décharge un modèle après 5 minutes d'inactivité. Vous pouvez changer cela avec la variable d'environnement OLLAMA_KEEP_ALIVE. L'exécution de deux modèles 7B simultanément nécessite ~16 Go de RAM.

Comment arrêter Ollama en arrière-plan ?

Sur macOS : cliquez sur l'icône llama dans la barre de menu et sélectionnez Quitter. Sur Linux : exécutez `systemctl stop ollama`. Sur Windows : clic droit sur l'icône dans la barre système et sélectionnez Quitter.

Quelle est la façon la plus simple d'exécuter un LLM local pour la première fois ?

Installez Ollama (ollama.com), exécutez `ollama pull llama3.2:3b`, puis `ollama run llama3.2:3b`. C'est tout. Trois commandes, 2-5 minutes, et vous avez un modèle IA fonctionnel sur votre machine.

Comment savoir si mon LLM local fonctionne correctement ?

Exécutez `ollama ps` dans le terminal. Si le modèle fonctionne, il apparaîtra dans la liste avec son nom, sa taille et son utilisation mémoire. Envoyez un prompt simple comme "Combien font 2+2 ?" -- si la réponse est "4", le modèle fonctionne correctement.

Mon ordinateur a-t-il besoin d'un GPU pour exécuter un LLM local ?

Non. Les LLMs locaux s'exécutent sur CPU. Un GPU rend l'inférence 5-10× plus rapide, mais CPU seul convient pour l'apprentissage et beaucoup de cas d'usage réels. Les laptops modernes avec Apple M1/M2, AMD Ryzen ou Intel 12e génération peuvent exécuter des modèles 3B-7B à des vitesses raisonnables (10-30 tokens/sec).

Combien d'espace disque occupe un LLM local ?

`llama3.2:1b` fait 1,3 Go, `llama3.2:3b` fait 2 Go, `llama3.1:8b` fait 4,7 Go. Ce sont les tailles compressées telles que stockées par Ollama.

Puis-je utiliser mon LLM local sans connexion Internet ?

Oui, complètement. Téléchargez le modèle une fois avec Ollama (nécessite Internet), puis exécutez en local pour toujours sans Internet. Parfait pour les réseaux privés, les avions ou les environnements totalement hors ligne.

En quoi un LLM local diffère-t-il de ChatGPT ?

ChatGPT fonctionne sur les serveurs d'Anthropic. Les LLMs locaux fonctionnent sur votre machine. Local = zéro donnée quitte votre appareil, pleine confidentialité, aucun coût API. ChatGPT = meilleure qualité sur les tâches complexes, nécessite Internet et un abonnement payant.

Quel est le meilleur premier modèle à essayer avec Ollama ?

`ollama pull llama3.2:3b` -- il fait 2 Go, fonctionne sur n'importe quel laptop moderne, produit des réponses compétentes, et est le point de départ recommandé par Ollama.

Prochaines étapes après votre premier essai

Maintenant que vous avez un LLM local fonctionnel, explorez ce qu'il peut faire. Pour comprendre quels modèles fonctionnent le mieux pour votre matériel, consultez Meilleurs modèles LLM locaux pour débutants. Pour les conseils de performance spécifiques aux laptops, voir Comment exécuter des LLMs locaux sur un laptop.

Sources

Erreurs courantes après votre premier essai

  • Confondre nombre de tokens et vitesse -- un modèle 7B générant 100 tokens à 20 tokens/sec prend 5 secondes, pas instantané.
  • Exécuter l'inférence pendant que le système est occupé par d'autres tâches, réduisant significativement les tokens/sec effectifs.
  • Ne pas vérifier les limites de fenêtre de contexte -- la plupart des modèles débutants supportent 2K-8K tokens, pas les 100K+ des modèles frontier.
  • Attendre des réponses instantanées au premier lancement -- la première réponse inclut le temps de chargement du modèle (5-30 secondes). Les réponses suivantes sont 2-5× plus rapides.
  • Utiliser le mauvais tag de modèle -- `llama3.1:8b-text` est le mode completion texte de base et bouclera/répétera indéfiniment. Utilisez les tags `-instruct` comme `llama3.1:8b-instruct` pour le chat.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Lancer votre premier LLM local en 10 minutes avec Ollama