Points clés
- Plus grande release Q1 2026 : Google Gemma 3 (février 2026) -- variantes 1B, 4B, 9B et 27B, support vision sur toutes les tailles, licence Apache 2.0.
- Meilleure release de modèle de raisonnement : DeepSeek-R1 (janvier 2025) -- chain-of-thought reasoning, 52% MATH à l'échelle 7B, disruptif pour le paysage des benchmarks 7B.
- Plus grand saut de qualité en 2025 : Llama 3.3 70B (décembre 2025) -- correspond à GPT-4 (2023) sur MMLU, disponible via `ollama run llama3.3:70b`.
- Famille de modèles à la croissance la plus rapide en 2025 : Qwen2.5 -- a surpassé Mistral 7B dans les téléchargements Ollama jusqu'à Q4 2025.
- En avril 2026, l'écart de qualité entre les modèles exécutables localement et les modèles cloud frontier s'est réduit à environ 18-24 mois de capacité équivalente.
Quels modèles LLM locaux ont été publiés en Q1 2026 ?
En avril 2026, les releases de modèles open-weight notables de janvier à avril 2026. Tous les modèles ci-dessous sont disponibles dans divers formats de quantification -- voir guide de quantification pour les détails des compromis Q4 vs Q5 :
| Modèle | Publié | Développeur | Caractéristique clé | Ollama |
|---|---|---|---|---|
| Gemma 3 (toutes les tailles) | Février 2026 | Vision sur toutes les tailles, contexte 128K, Apache 2.0 | ollama run gemma3:9b | |
| Llama 4 Scout (aperçu) | Mars 2026 | Meta | Aperçu d'architecture MoE, contexte 10M tokens revendiqué | Pas encore disponible |
| Mistral Small 3.2 | Février 2026 | Mistral AI | Suivi d'instructions amélioré par rapport à Small 3.1 | ollama run mistral-small3.2 |
| Phi-4 Mini | Janvier 2026 | Microsoft | 3.8B, 70% HumanEval, contexte 128K | ollama run phi4-mini |
Quels modèles Q4 2025 sont toujours les plus importants en 2026 ?
| Modèle | Publié | Specs clés | Toujours pertinent |
|---|---|---|---|
| Llama 3.3 70B | Décembre 2025 | 82% MMLU, 88% HumanEval, contexte 128K | Oui -- meilleure option 70B |
| Phi-4 14B | Décembre 2024 | 84% MMLU -- au-dessus de sa catégorie de taille | Oui -- modèle de raisonnement 14B solide |
| Famille Qwen2.5 complète | Septembre 2025 | Gamme 0.5B-72B, 29 langues, Apache 2.0 | Oui -- meilleure famille multilingue actuellement |
| DeepSeek-R1 | Janvier 2025 | Modèle de raisonnement, 52% MATH à 7B, MoE à grande échelle | Oui -- meilleur raisonnement localement |
Quels modèles Q3 2025 sont toujours largement utilisés ?
Plusieurs releases 2025 restent largement déployées en 2026 en raison de la compatibilité des outils et de la documentation communautaire :
- Llama 3.1 8B (juillet 2025) -- toujours le modèle 8B le mieux documenté, préféré des débutants pour ses guides complets et intégrations d'outils.
- Mistral 7B v0.3 (mai 2025) -- scores de benchmark inférieurs aux alternatives actuelles, mais licence Apache 2.0 et provenance EU Mistral le rendent préféré dans certains déploiements européens.
- Llama 3.2 3B et 1B (septembre 2025) -- toujours la recommandation par défaut pour l'installation initiale en raison de la petite taille et la documentation généralisée.
De combien la qualité des LLM locaux a-t-elle progressé de 2024 à 2026 ?
L'amélioration de la qualité des modèles exécutables localement sur deux ans est substantielle. En avril 2026, un modèle 7B (Qwen2.5 7B, 74% MMLU) correspond à la performance de benchmark d'un modèle 13B du début 2024. Un modèle 70B (Llama 3.3 70B, 82% MMLU) correspond à la performance de GPT-4 (2023) -- un modèle qui nécessitait une infrastructure serveur d'un milliard de dollars il y a 3 ans fonctionne maintenant sur un Mac Studio. Pour les recommandations matérielles correspondant à chaque classe de modèle, voir guide matériel LLM local 2026.
| Période | Meilleur 7B MMLU | Meilleur 70B local MMLU | Matériel requis |
|---|---|---|---|
| Début 2024 | ~64% (Mistral 7B) | ~75% (Llama 3.3 70B) | 7B : 8 GB RAM ; 70B : 48 GB RAM |
| Fin 2025 | ~74% (Qwen2.5 7B) | ~82% (Llama 3.3 70B) | 7B : 5 GB RAM ; 70B : 40 GB RAM |
| Avril 2026 | ~74% (Qwen2.5 7B) | ~84% (Qwen2.5 72B) | 7B : 4.7 GB RAM ; 70B : 43 GB RAM |
Comment rester à jour sur les nouvelles releases de LLM locaux ?
- Blog Ollama (ollama.com/blog) -- annonce les nouveaux modèles ajoutés à la bibliothèque Ollama, généralement dans les jours suivant les releases open-weight.
- Hugging Face Open LLM Leaderboard (huggingface.co/spaces/open-llm-leaderboard) -- suit les scores de benchmark pour tous les modèles nouvellement publiés.
- r/LocalLLaMA (reddit.com/r/LocalLLaMA) -- la communauté la plus active pour les nouvelles IA locales, benchmarks et discussions matérielles.
- GitHub Releases : suivez les repositories pour llama.cpp (github.com/ggerganov/llama.cpp) et Ollama (github.com/ollama/ollama) pour suivre les mises à jour du moteur qui activent les nouveaux modèles.
- PromptQuorum : ce guide est mis à jour lorsque les grandes releases de modèles changent les recommandations. Vérifiez le champ dateModified pour la mise à jour la plus récente.
Mises à jour des LLM locaux 2026 : Contexte régional
UE / RGPD + AI Act : l'AI Act de l'UE (en vigueur depuis février 2025) a introduit des exigences de documentation pour les systèmes d'IA dans les contextes réglementés. Lorsque de nouveaux modèles locaux sortent en 2026, les organisations de l'UE doivent noter : Mistral AI (France) reste le seul développeur majeur de modèles open-weight basé en UE. Mistral Small 3.2 (février 2026) et Mistral 7B portent toujours des licences Apache 2.0 -- le choix de conformité le plus propre pour les secteurs réglementés. German BSI et French CNIL recommandent tous deux l'inférence locale pour les applications d'IA à haut risque. Pour les modèles non-UE (Llama, Qwen, Gemma, DeepSeek) : tous peuvent être utilisés en vertu du RGPD pour l'inférence locale puisqu'aucune donnée ne quitte l'organisation. La différence de conformité réside dans la documentation du fournisseur, non dans le traitement des données. Lors de la mise à niveau vers un nouveau modèle, mettez à jour la documentation de l'outil IA avec la nouvelle version de modèle, le niveau de quantification et le nom du fichier GGUF. CNIL - Données sensibles : la Commission Nationale de l'Informatique et des Libertés (CNIL) recommande l'inférence locale lorsqu'elle traite des données professionnelles sensibles (données financières, médicales, légales). L'utilisation de modèles locaux open-weight pour ces cas d'usage satisfait aux recommandations de la CNIL sans modification supplémentaire.
Japon (METI) : les lignes directrices de gouvernance IA du METI exigent de documenter les changements de version de modèle dans les systèmes d'IA en production. Lors de la mise à niveau de Llama 3.1 8B vers un modèle plus récent, documentez : balise de modèle antérieure, nouvelle balise de modèle, date de mise à niveau et raison du changement. La commande `ollama show <model>` fournit la chaîne de version exacte pour les dossiers de conformité. Pour les déploiements en langue japonaise, Qwen2.5 reste la famille recommandée en 2026 en raison de son tokenizer CJK natif.
Chine : selon les mesures provisoires chinoises sur l'IA générative du CAC (2023), les organisations qui fournissent des services d'IA au public doivent enregistrer les modèles auprès des régulateurs. Les déploiements locaux pour utilisation interne se situent en dehors de cette portée. Pour les déploiements en langue chinoise, Qwen2.5 (Alibaba, Apache 2.0) et DeepSeek-R1 (DeepSeek, MIT) sont les options principales. Qwen2.5 a reçu des mises à jour majeures de la famille de modèles en Q3 2025 -- les organisations utilisant toujours Qwen2 devraient mettre à niveau vers Qwen2.5 pour des performances améliorées et le support étendu de 29 langues.
Erreurs courantes lors du suivi et de la mise à niveau des modèles LLM locaux
- Mise à niveau inutile vers chaque nouvelle release : les releases de nouveaux modèles se produisent mensuellement. Si votre modèle actuel satisfait votre cas d'utilisation, la mise à niveau est facultative. Évaluez un nouveau modèle uniquement lorsque vous atteignez des limites de qualité spécifiques : raisonnement faible sur les tâches complexes, sortie multilingue faible ou échecs de codage. Télécharger un modèle de 4-40 GB pour des gains de benchmark marginaux est du temps et de l'espace disque gaspillés.
- Utilisation du mauvais slug lors de la recherche de modèles dans Ollama après une release : les noms de modèles sur Hugging Face diffèrent des balises Ollama. Meta Llama 3.3 est `llama3.3` dans Ollama, pas `llama-3.3` ou `meta-llama-3.3`. Vérifiez toujours la balise Ollama exacte sur ollama.com/library avant de l'utiliser dans les scripts.
- Ne pas mettre à jour Ollama lui-même avant de tirer les nouveaux modèles : le support des nouveaux modèles nécessite souvent une version Ollama mise à jour. Avant de tirer un modèle récemment publié, mettez à jour Ollama : macOS se met à jour automatiquement ; Linux : réexécutez `curl -fsSL https://ollama.com/install.sh | sh`; Windows : téléchargez le dernier installateur. L'exécution d'une version Ollama obsolète peut causer l'échec silencieux d'un nouveau modèle.
- Supposer que plus récent = meilleur pour votre tâche spécifique : Gemma 3 9B (février 2026) a des scores plus élevés que Llama 3.1 8B (juillet 2025) sur la plupart des benchmarks, mais Llama 3.1 8B a 18+ mois de fine-tunes communautaires, de prompts système et de cas d'utilisation documentés. Pour les workflows établis avec des ressources communautaires, le modèle plus ancien peut être le meilleur choix pratique.
Questions fréquentes sur les mises à jour des modèles LLM locaux en 2026 ?
À quelle vitesse les nouveaux modèles apparaissent-ils dans Ollama après leur release open-weight ?
Généralement 1-7 jours pour les releases majeures de Meta, Google, Mistral et Alibaba. L'équipe Ollama priorise les releases très connues -- Llama 3.3 70B est apparu dans la bibliothèque Ollama 3 jours après la release open-weight de Meta. Les modèles plus petits ou communautaires peuvent prendre 2-4 semaines.
Dois-je mettre à niveau Llama 3.1 8B vers un modèle plus récent ?
Si vous utilisez Llama 3.1 8B pour des tâches générales et êtes satisfait de la qualité, la mise à niveau est facultative. Qwen2.5 7B a des scores de benchmark légèrement plus élevés et un meilleur support multilingue et de codage. Pour la plupart des utilisations générales en anglais, la différence de qualité pratique est mineure. Mettez à niveau si votre modèle actuel rencontre des problèmes sur des tâches spécifiques.
Les modèles locaux atteindront-ils un jour la qualité actuelle des modèles cloud frontier ?
La tendance suggère oui -- avec un décalage de 18-24 mois. GPT-4 (2023, estimé à 1.7 trillion de paramètres) correspond à Llama 3.3 70B (2025, exécutable localement). GPT-4o (2024) aura probablement un équivalent exécutable localement d'ici fin 2026 ou 2027. Le facteur limitant est l'efficacité de calcul, non la capacité algorithmique.
Qu'est-il arrivé avec DeepSeek et pourquoi c'était significatif ?
DeepSeek-R1 (janvier 2025) a démontré qu'un laboratoire d'IA chinois pouvait produire des modèles dotés de capacités de raisonnement compétitives avec OpenAI o1 à des coûts d'entraînement inférieurs. La release open-weight rendait un modèle de raisonnement de classe frontier disponible localement pour la première fois. DeepSeek-R1 7B atteint 52% en MATH -- près du double des 28% de Mistral 7B -- en raison de sa méthodologie d'entraînement chain-of-thought.
Qu'est-ce que Llama 4 et est-il disponible localement pour le moment ?
En avril 2026, Meta a publié un aperçu de Llama 4 Scout -- un modèle mixture-of-experts prétendant jusqu'à 10M de contexte de tokens. La release open-weight complète n'est pas encore disponible pour l'inférence locale. La bibliothèque Ollama n'inclut pas encore de variantes Llama 4. Cette page sera mise à jour lorsque Llama 4 deviendra disponible pour le déploiement local.
Y a-t-il des modèles locaux spécifiquement pour l'entreprise ou les industries réglementées en 2026 ?
Mistral AI fournit des contrats de support de niveau entreprise pour les modèles Mistral. Leur origine européenne est pertinente pour la conformité RGPD (AI Act de l'UE en vigueur depuis février 2025). Pour la santé (HIPAA) ou la finance (SOC 2), tout modèle déployé localement peut satisfaire les exigences de résidence des données -- le modèle lui-même est neutre en matière de données. Le travail de conformité réside dans l'infrastructure de déploiement, non dans la sélection du modèle.
Quel modèle un débutant complet devrait-il commencer en 2026 ?
Llama 3.2 3B ou Gemma 3 4B sont les meilleures options pour débutants. Les deux fonctionnent sur du matériel modeste (4-6 GB VRAM), disposent d'une documentation complète et fonctionnent bien sur les tâches générales. Llama 3.2 3B dispose de plus de guides communautaires et d'intégrations d'outils. Gemma 3 4B est plus récent, légèrement plus rapide et supporte les capacités de vision. Pour les utilisateurs non techniques, LM Studio rend les deux faciles à installer et utiliser sans ligne de commande.
La mise à niveau vers les nouveaux modèles en vaut-elle la peine si mon modèle actuel fonctionne bien ?
Uniquement si vous atteignez des limites de qualité spécifiques. Si votre modèle 7B ou 8B satisfait vos cas d'utilisation, la mise à niveau est facultative. Cependant, si vous remarquez des erreurs de raisonnement, un support multilingue faible ou une faible capacité de codage, tester un modèle plus récent vaut la peine. Qwen2.5 7B (2025) surpasse Llama 3.1 8B sur la plupart des benchmarks et est une cible de mise à niveau sûre pour les utilisateurs cherchant une amélioration progressive.
Sources
- Hugging Face. (2026). « Open LLM Leaderboard ». https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard -- Classements de benchmark en temps réel pour toutes les releases de modèles open-weight.
- Google DeepMind. (2026). « Gemma 3 Technical Report ». https://storage.googleapis.com/deepmind-media/gemma/gemma-3-report.pdf -- Architecture, benchmarks et données de capacité vision pour toutes les variantes Gemma 3.
- Meta AI. (2025). « Llama 3.3 Release ». https://ai.meta.com/blog/llama-3-3/ -- Annonce officielle et spécifications pour Llama 3.3 70B.
- DeepSeek AI. (2025). « DeepSeek-R1 Technical Paper ». https://arxiv.org/abs/2501.12948 -- Architecture chain-of-thought et résultats de benchmark MATH pour DeepSeek-R1.