Points clés
- Meilleur modèle débutant : Llama 3.2 3B — 2 Go à télécharger, fonctionne avec 4 Go de RAM, excellente compréhension des instructions.
- Meilleur pour peu de RAM (4 Go ou moins) : Phi-4 Mini 3.8B — le modèle compact de Microsoft excelle en raisonnement et en code (68 % MMLU, 70 % HumanEval avec seulement 2.5 Go de RAM).
- Modèle 2B le plus rapide : Gemma 3 2B — atteint 40–60 tok/s sur CPU avec une fenêtre de contexte de 128K (contre 8K pour Gemma 2).
- Meilleur 7B polyvalent : Mistral 7B v0.3 — fiable, prise en charge des appels de fonction, licence Apache 2.0. Qwen2.5 7B le surpasse en code et Llama 3.1 8B en raisonnement anglais.
- Meilleur pour le multilingue et le code : Qwen2.5 7B — surpasse Mistral 7B sur les benchmarks de code et supporte 29 langues nativement.
Liste de vérification pour débutant : Local est-il le bon choix pour vous ?
Avant de télécharger votre premier modèle, répondez à ces trois questions :
1. Avez-vous 8 Go de RAM ou plus ? (Sinon, les APIs cloud sont plus rapides pour débuter.)
2. Avez-vous besoin que vos données restent privées ? (Sinon, les APIs cloud offrent meilleure qualité.)
3. Pouvez-vous tolérer 20–40 minutes de configuration ? (Sinon, les APIs cloud sont prêtes en 5 minutes.)
Si vous avez répondu « non » à deux questions ou plus, **lisez la comparaison complète local vs cloud** pour déterminer si une API cloud convient mieux à vos contraintes matérielles et à votre calendrier. Les débutants supposent souvent que les LLMs locaux sont toujours meilleur — ce n'est pas vrai. Le bon choix dépend de vos contraintes spécifiques.
Comment choisir un modèle LLM local pour débutant ?
Le choix d'un modèle LLM local dépend de trois contraintes : RAM disponible, vitesse d'inférence et type de tâche — dans cet ordre de priorité.
Le nombre de paramètres (3B, 7B, 13B) est le principal facteur du besoin en RAM. Avec la quantification 4 bits — standard pour la plupart des outils d'inférence locale — multipliez le nombre de paramètres par ~0.5 pour estimer les Go de RAM nécessaires. Un modèle 7B en Q4_K_M requiert environ 4.5 Go de RAM.
Pour la plupart des débutants, les modèles 7B en quantification Q4_K_M offrent le meilleur équilibre qualité/vitesse/RAM sur les machines disposant de 8 Go ou plus. Sur les machines avec 4–6 Go de RAM, les modèles 3B constituent le plafond pratique.
#1 Meta Llama 3.2 3B — Meilleur modèle débutant
Meta Llama 3.2 3B est le meilleur point de départ pour la plupart des utilisateurs. Il se télécharge en moins de 5 minutes, fonctionne sur toute machine avec 4 Go de RAM et offre une meilleure compréhension des instructions que les modèles 3B précédents. Il utilise une fenêtre de contexte de 128K — bien supérieure aux modèles de taille comparable.
Lors de nos tests sur un CPU laptop 8 cœurs, Llama 3.2 3B génère 25–45 tokens/s. Sur Apple M3 Pro, il atteint 70–90 tokens/s. La qualité convient pour la synthèse, le Q&A et le code simple, mais reste en retrait des modèles 7B pour le raisonnement multi-étapes.
| Spécification | Valeur |
|---|---|
| Paramètres | 3B |
| RAM requise | ~2.5 Go (Q4_K_M) |
| Taille du téléchargement | ~2 Go |
| Fenêtre de contexte | 128K tokens |
| Vitesse CPU (laptop 8 cœurs) | 25–45 tok/s |
| Commande Ollama | ollama run llama3.2:3b |
#2 Microsoft Phi-4 Mini 3.8B — Meilleur pour peu de RAM
Phi-4 Mini est le modèle compact de Microsoft optimisé pour le raisonnement et le code à petite échelle. Il atteint 68 % MMLU et 70 % HumanEval — des scores supérieurs à beaucoup de modèles 7B de 2024 — grâce à un entraînement sur des données synthétiques de haute qualité.
C'est le modèle recommandé pour les machines avec 4–6 Go de RAM quand la qualité est importante. Phi-4 Mini utilise 2.5 Go de RAM (contre 3 Go pour Phi-3.5 Mini), le rendant plus accessible sur les machines à 4 Go.
| Spécification | Valeur |
|---|---|
| Paramètres | 3.8B |
| RAM requise | ~2.5 Go (Q4_K_M) |
| Taille du téléchargement | ~2.3 Go |
| Score MMLU | 68 % |
| Fenêtre de contexte | 128K tokens |
| Vitesse CPU (laptop 8 cœurs) | 30–50 tok/s |
| Commande Ollama | ollama run phi4-mini |
#3 Google Gemma 3 2B — Modèle 2B le plus rapide
Gemma 3 2B est le modèle 2B mis à jour de Google et l'option la plus rapide pour l'inférence CPU uniquement. Il génère 40–60 tokens/s sur un CPU laptop milieu de gamme — environ deux fois plus vite que Llama 3.2 3B. La fenêtre de contexte passe de 8K (Gemma 2) à 128K tokens.
Gemma 3 2B est un bon choix quand la rapidité de réponse prime, sur les machines avec ≤4 Go de RAM, ou comme modèle de test pour vérifier votre configuration avant de télécharger des modèles plus lourds.
| Spécification | Valeur |
|---|---|
| Paramètres | 2B |
| RAM requise | ~1.7 Go (Q4_K_M) |
| Taille du téléchargement | ~1.6 Go |
| Fenêtre de contexte | 128K tokens |
| Vitesse CPU (laptop 8 cœurs) | 40–60 tok/s |
| Commande Ollama | ollama run gemma3:2b |
#4 Mistral 7B v0.3 — Meilleur 7B polyvalent
Mistral 7B v0.3 est un modèle 7B polyvalent fiable avec un format d'instructions clair et la prise en charge des appels de fonction. Qwen2.5 7B le surpasse sur les benchmarks de code et Llama 3.1 8B en raisonnement anglais — mais Mistral 7B reste un choix solide pour les contextes de souveraineté des données en UE, Mistral AI étant une entreprise française avec une licence Apache 2.0.
Pour les machines avec 8 Go de RAM, Mistral 7B est une progression naturelle par rapport aux modèles 3B. Il gère mieux les textes longs, les instructions complexes et les conversations multi-tours.
| Spécification | Valeur |
|---|---|
| Paramètres | 7B |
| RAM requise | ~4.5 Go (Q4_K_M) |
| Taille du téléchargement | ~4.1 Go |
| Fenêtre de contexte | 32K tokens |
| Vitesse CPU (laptop 8 cœurs) | 10–20 tok/s |
| Commande Ollama | ollama run llama3.2 |
#5 Qwen2.5 7B — Meilleur pour le multilingue et le code
Qwen2.5 7B surpasse Mistral 7B sur HumanEval (code) et les benchmarks MBPP, et supporte nativement 29 langues dont le chinois, le japonais, le coréen, l'arabe et toutes les principales langues européennes. C'est le choix recommandé pour les workflows non-anglophones ou intensifs en code.
Qwen2.5 7B utilise une fenêtre de contexte de 128K (contre 32K pour Mistral 7B) et supporte les sorties structurées avec le mode JSON. Pour les données de benchmarks détaillées, consultez la comparaison Qwen vs Llama vs Mistral.
| Spécification | Valeur |
|---|---|
| Paramètres | 7B |
| RAM requise | ~4.7 Go (Q4_K_M) |
| Taille du téléchargement | ~4.4 Go |
| Fenêtre de contexte | 128K tokens |
| Vitesse CPU (laptop 8 cœurs) | 10–18 tok/s |
| Commande Ollama | ollama run qwen2.5:7b |
Quel modèle gagne sur la RAM, la vitesse et la fenêtre de contexte ?
| Modèle | RAM | Vitesse (CPU) | Contexte | Idéal pour |
|---|---|---|---|---|
| Llama 3.2 3B | 2.5 Go | 25–45 tok/s | 128K | Usage général, premier modèle |
| Phi-4 Mini 3.8B | 2.5 Go | 30–50 tok/s | 128K | Raisonnement, code, peu de RAM |
| Gemma 3 2B | 1.7 Go | 40–60 tok/s | 128K | Vitesse, très peu de RAM |
| Mistral 7B v0.3 | 4.5 Go | 10–20 tok/s | 32K | Déploiement UE, appels de fonction, Apache 2.0 |
| Qwen2.5 7B | 4.7 Go | 10–18 tok/s | 128K | Multilingue, code |
Par quel modèle commencer ?
- 4 Go de RAM ou moins : `ollama run gemma3:2b` — téléchargement le plus rapide, empreinte mémoire minimale, contexte 128K. Qualité acceptable pour les tâches de base.
- 8 Go de RAM, premier modèle : `ollama run llama3.2:3b` — meilleur équilibre qualité/RAM pour une première expérience.
- 4–6 Go de RAM, raisonnement/code : `ollama run phi4-mini` — 68 % MMLU, 70 % HumanEval avec seulement 2.5 Go de RAM.
- 8 Go de RAM, usage sérieux : `ollama run mistral` ou `ollama run qwen2.5:7b` — pour les documents longs et les instructions complexes.
- Principalement du code : `ollama run qwen2.5:7b` — meilleur score HumanEval de cette liste ; solide en Python, JavaScript et SQL.
- Langue non anglaise : `ollama run qwen2.5:7b` — support natif de 29 langues, sans surcharge de traduction.
Quel modèle choisir selon votre région ?
UE / RGPD : Pour les organisations européennes traitant des données personnelles localement, la provenance du modèle compte pour la documentation de conformité. Mistral 7B v0.3 (Mistral AI, France, Apache 2.0) offre la justification de conformité UE la plus simple. La CNIL recommande l'inférence locale pour les professionnels manipulant des données sensibles (documents juridiques, dossiers médicaux, analyses financières) afin d'éviter tout transfert de données hors du périmètre. Llama (Meta/USA), Gemma (Google/USA) et Qwen (Alibaba/Chine) sont techniquement utilisables sous RGPD pour l'inférence locale, mais l'origine EU de Mistral simplifie la documentation pour les secteurs réglementés.
Japon (METI) : Pour les workflows en japonais, Qwen2.5 7B est le premier modèle approprié — la tokenisation japonaise native produit 30–40 % de meilleure efficacité sur les textes japonais. Commande : `ollama run qwen2.5:7b`. Les directives de gouvernance IA du METI exigent la documentation du nom et de la version du modèle.
Chine : Qwen2.5 7B (Alibaba) est le premier modèle naturel pour les workflows en chinois. La tokenisation chinoise native et le support de 29 langues en font le standard pour les workflows Mandarin. Pour les déploiements d'entreprise chinois sous la loi sur la sécurité des données (数据安全法), Qwen2.5 exécuté localement via Ollama satisfait les exigences de localisation des données.
Comment télécharger et exécuter ces modèles ?
Les cinq modèles s'installent avec une seule commande Ollama — sans configuration manuelle. Consultez Installer Ollama pour la configuration, puis Lancer votre premier LLM local pour un guide pas à pas. Sur un laptop avec peu de RAM, Exécuter des LLM locaux sur laptop couvre la quantification et l'optimisation des performances.
Une fois votre premier modèle lancé, l'étape suivante est d'apprendre à le prompter efficacement. Commencez par les fondamentaux du prompt engineering — 16 guides couvrant les éléments de base de tout prompt, des réglages de température au formatage des sorties.
Quelles erreurs font les débutants dans le choix d'un LLM local ?
- Choisir la taille du modèle uniquement d'après le nombre de paramètres — un 7B bien quantifié peut surpasser un 13B mal quantifié.
- Ne pas tenir compte de la surcharge de quantification VRAM — un modèle peut nécessiter 10–15 % de VRAM supplémentaire.
- Utiliser d'anciennes quantifications (Q3_K_S) alors que les nouvelles (Q4_K_M) offrent une meilleure qualité à la même taille.
- Choisir Mistral 7B comme modèle par défaut : Mistral 7B v0.3 était le standard communautaire en 2023–2024 mais est maintenant surpassé par Qwen2.5 7B en code et Llama 3.1 8B en anglais. Passez à `ollama run qwen2.5:7b` ou `ollama run llama3.2` pour de meilleurs résultats.
- Télécharger un modèle sans vérifier la RAM disponible : Si le modèle dépasse la RAM disponible, Ollama bascule vers une inférence CPU lente — parfois sous 1 tok/s. Vérifiez avec `free -h` (Linux/macOS) avant de télécharger des modèles au-dessus de 7B.
Questions fréquentes
Quel est le meilleur modèle LLM local pour débutants en 2026 ?
Llama 3.2 3B pour la plupart des utilisateurs — fonctionne sur toute machine avec 4 Go de RAM, se télécharge en moins de 5 minutes. Avec 8 Go de RAM, Qwen2.5 7B offre de meilleures performances en code et multilingue. Gemma 3 2B tourne avec 1.7 Go à 40–60 tok/s.
Quelle est la RAM minimum pour exécuter un LLM local ?
Le minimum pratique est 4 Go de RAM avec un modèle 3B en Q4_K_M. 8 Go donnent accès aux modèles 7B qui produisent des résultats nettement meilleurs sur les tâches complexes.
Comment exécuter ces modèles avec Ollama ?
Installez Ollama depuis ollama.com, puis lancez : `ollama run llama3.2:3b`. Ollama télécharge le modèle au premier lancement. Les cinq modèles sont disponibles dans la bibliothèque Ollama.
Llama 3.2 3B est-il suffisant pour les tâches quotidiennes ?
Oui pour : synthèse, Q&A simple, explication de code de base, chat. Non pour : raisonnement multi-étapes, code complexe, rédaction structurée longue. Pour ces tâches, passez à Llama 3.1 8B ou Qwen2.5 7B avec 8 Go de RAM.
Quelle est la différence entre les modèles 3B et 7B ?
Un 7B produit des résultats nettement meilleurs sur les instructions complexes. Un 3B utilise moitié moins de RAM et tourne 2–3× plus vite. Le choix dépend de la RAM disponible — 3B sur 4–6 Go, 7B sur 8 Go.
Quel modèle est le meilleur pour le code ?
Qwen2.5 7B mène sur HumanEval. Pour encore mieux : `ollama run qwen2.5-coder:7b`. Phi-4 Mini est le meilleur modèle de code avec 4–6 Go de RAM (70 % HumanEval à 2.5 Go).
Quel modèle utiliser pour les langues non anglaises ?
Qwen2.5 7B supporte nativement 29 langues dont le chinois, le japonais, le coréen, l'arabe et toutes les principales langues européennes. Il traite les textes non anglophones plus efficacement que Llama ou Mistral.
Ces modèles sont-ils sûrs avec des données privées ?
Oui — les cinq modèles tournent entièrement sur votre matériel. Aucune donnée n'est transmise à des serveurs externes. L'inférence locale est intrinsèquement plus privée que les API cloud pour les données sensibles.
Combien de temps prend le téléchargement de ces modèles ?
Sur une connexion à 100 Mb/s : Gemma 3 2B (1.6 Go) ~2 min. Llama 3.2 3B (2 Go) ~3 min. Phi-4 Mini (2.3 Go) ~3 min. Mistral 7B (4.1 Go) ~5 min. Mis en cache après le premier téléchargement.
Puis-je exécuter plusieurs modèles sur la même machine ?
Oui — les cinq peuvent coexister sur le disque simultanément. Prévoyez 15–20 Go pour les cinq. Ollama charge un modèle à la fois et le décharge après 5 minutes d'inactivité.
Sources
- Meta AI. (2024). « Llama 3.2 Model Card. » https://llama.meta.com/ — Spécifications et benchmarks officiels pour Llama 3.2 3B et 1B.
- Microsoft. (2025). « Phi-4 Mini Technical Report. » https://huggingface.co/microsoft/Phi-4-mini-instruct — Données de benchmark pour Phi-4 Mini (68 % MMLU, 70 % HumanEval).
- Google DeepMind. (2025). « Gemma 3 Model Card. » https://ai.google.dev/gemma/docs/core — Spécifications et performances de Gemma 3 2B, incluant la mise à niveau vers 128K tokens.
- Ollama. (2026). « Ollama Model Library. » https://ollama.com/library — Source officielle des tags, tailles et commandes pull Ollama.
- Hugging Face. (2026). « Open LLM Leaderboard. » https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard — Scores MMLU, HumanEval et MATH pour tous les modèles ouverts.
- Mistral AI. (2024). « Mistral 7B v0.3 Release Notes. » https://mistral.ai/news/announcing-mistral-7b/ — Spécifications techniques et détails de la licence Apache 2.0.
- Alibaba DAMO Academy. (2024). « Qwen2.5 Technical Report. » arXiv:2412.15115. https://arxiv.org/abs/2412.15115 — Données de benchmark multilingues et détails architecturaux pour Qwen2.5 7B.