Points clés
- LLM local = exécution sur votre CPU/GPU, zéro coût API, zéro partage de données.
- Trois composants : le fichier modèle (GGUF ou safetensors), un moteur d'inférence (Ollama, LM Studio, llama.cpp), optionnellement une interface.
- Minimum : 8 GB RAM pour un modèle 7B en quantification 4-bit. 16 GB pour les usages courants.
- Plus lent que le cloud sur consumer : 15-40 tokens/sec local vs ~100 tokens/sec avec GPT-4o Mini.
- Cas idéaux : données sensibles, travail hors ligne, zéro coût récurrent, compréhension des LLMs.
Qu'est-ce qu'un LLM local ?
Un LLM local est un modèle IA fonctionnant sur votre propre matériel -- laptop, desktop, serveur local. Les poids sont stockés comme fichier, tous les calculs se font sur votre CPU ou GPU. Aucune donnée ne quitte votre machine.
Ce terme les distingue des services cloud comme GPT-4o, Claude 4.6 ou Gemini 3.1 Pro, qui traitent vos prompts sur des serveurs distants.
Les LLMs locaux vont de modèles 1B sur téléphone à 70B nécessitant 48 GB VRAM. Les plus accessibles : Llama 3.2 3B, Phi-3 Mini, Gemma 2 2B (tous sur un laptop 8 GB).
Comment fonctionne un LLM local ?
Trois couches : fichier modèle, moteur d'inférence, interface.
Fichier modèle : contient les poids du réseau neuronal. Stockés en GGUF (format du projet llama.cpp, compressé) ou safetensors. Un modèle 7B quantifié 4-bit ≈ 4.5 GB.
Moteur d'inférence : lit le fichier et effectue calculs matriciels. Principaux : Ollama (service API compatible OpenAI), LM Studio (interface desktop), llama.cpp (librairie C++ sous-jacente).
Interface : terminal, web UI, ou API. Ollama expose une API REST sur `http://localhost:11434` compatible OpenAI.
Quel matériel pour un LLM local ?
Les besoins dépendent du modèle et de la rapidité désirée.
| Taille modèle | RAM | Vitesse (CPU) | Exemples |
|---|---|---|---|
| 1B-3B param. | 4-6 GB | 20-60 tok/sec | Llama 3.2 1B, Phi-3 Mini |
| 7B-8B param. | 6-8 GB | 10-30 tok/sec | Llama 3.1 8B, Mistral 7B |
| 13B-14B param. | 10-12 GB | 5-15 tok/sec | Llama 3.2 13B, Qwen2.5 14B |
| 32B-34B param. | 20-24 GB | 2-6 tok/sec | Qwen2.5 32B, DeepSeek-R1 32B |
| 70B+ param. | 40-48 GB | 1-3 tok/sec | Llama 3.3 70B, Qwen2.5 72B |
Une GPU accélère-t-elle un LLM local ?
Oui, énormément. NVIDIA RTX 4070 Ti (12 GB VRAM) : 80-120 tokens/sec (4-8× plus rapide). Apple Silicon Macs (M1-M5) : 40-80 tokens/sec sans GPU discret grâce à la mémoire unifiée. Voir LLMs locaux sur laptop pour tips matériel spécifiques.
Différence : LLM local vs API cloud ?
Compromis : confidentialité + coût vs puissance + vitesse. Voir la comparaison complète.
| Aspect | LLM local | API cloud |
|---|---|---|
| Confidentialité | Totale -- données ne quittent jamais | Traitement serveur |
| Coût | 0€/token (après matériel) | 0.15-15€/1M tokens |
| Vitesse | 10-120 tok/sec | 50-200 tok/sec |
| Qualité | Bonne à 70B | Meilleure (GPT-4o, Claude) |
| Installation | 5-15 min | 2-5 min clé API |
| Hors ligne | Oui | Non |
Formats de modèles pour LLMs locaux ?
GGUF : format dominant. Développé par llama.cpp, supporte quantifications multiples en un fichier. `ollama pull llama3.2` télécharge GGUF en interne.
Safetensors : format Hugging Face, utilisé avec PyTorch (transformers, vLLM). Plus courant en recherche.
Quantification : réduit précision pour moins de RAM. 7B FP16 = ~14 GB; 7B Q4_K_M = ~4.5 GB (minimal qualité perte). Débutants : Q4_K_M ou Q5_K_M.
Quand utiliser un LLM local ?
- Données sensibles : dossiers médicaux, légaux, financiers, donnees personnelles (RGPD).
- Éliminer coûts API : traitement batch haute-volume où coûts cloud s'accumulent.
- Hors ligne ou sécurisé : terrain, installations sécurisées, zéro connexion internet.
- Apprentissage : comprendre LLMs, tester prompts sans frais, outils IA locaux.
- Faible latence : quand round-trip réseau inacceptable et modèle 7B suffisant.
Questions fréquentes
Un LLM local peut-il égaler GPT-4o ?
Non, sur hardware consumer. GPT-4o et Claude 4.6 gagnent sur raisonnement complexe, génération code, benchmarks. Mais 13B-34B bien quantifiés font très bien summarization, traduction, écriture courante -- résultats quasi-indistinguibles.
Besoin d'une GPU ?
Non. Ollama, LM Studio, llama.cpp tournent sur CPU. GPU accélère beaucoup : RTX 4060 = 60-90 tok/sec vs 10-20 sur CPU. Apple Silicon Macs (M1-M5) excellent sans GPU discret grâce mémoire unifiée.
Où télécharger modèles ?
Trois sources : Ollama (ollama.com/library, easy downloads), Hugging Face (huggingface.co, GGUF + safetensors), LM Studio (browser intégré). Voir Installer Ollama et Installer LM Studio.
LLM local = privé ?
Oui, avec réserves. Inférence locale = privée. Mais applications peut-être envoient données ailleurs. Vérifier télémétrie/sync cloud. Voir Checklist Sécurité LLM local.
Comment démarrer ?
Chemin rapide : Installer Ollama -- une commande, 5 min sur macOS/Windows/Linux. GUI préféré : Installer LM Studio. Modèle ? Meilleurs LLMs débutants.
Sources
- llama.cpp -- GitHub : librairie C++ pour modèles quantifiés locaux
- Hugging Face -- Hub : 100k+ GGUF, safetensors, formats
- Ollama Model Library : modèles pré-quantifiés, téléchargement un-clic
Erreurs courantes
- Supposer tout LLM local equally privé -- interfaces peuvent logger données.
- Lancer modèles trop gros → RAM insuffisante → disk swap → très lent.
- Ignorer variation qualité modèles -- tous ne rivalisent pas GPT-4o complexe.
Lectures connexes
- Installer Ollama : setup + premier modèle
- Installer LM Studio : GUI alternative
- Meilleurs LLMs débutants : recommandations RAM
- LLMs locaux vs Cloud APIs : comparaison complète