Points clés
- Meilleur global sur materiel grand public : Qwen 3.6 27B (77,2% SWE-bench, tient en 24 Go en Q4). Polyvalent : qwen3:30b.
- Plus téléchargés : Llama 3.2 3B (tutoriels) et la famille Llama.
- Meilleur raisonnement : DeepSeek-R1 (Chain-of-Thought) et gpt-oss:20b (raisonnement reglable, ~niveau o3-mini).
- Meilleur coding : Kimi K2.6 (Frontier MoE), Qwen 3.6 27B (meilleur dense), Devstral Small 24B (meilleur agentic), qwen3-coder:30b (completion).
- Meilleur petit / 16 Go : gpt-oss:20b. Meilleure vision/multimodal : Gemma 4 (E4B+). Meilleur long contexte (10M) / grand multimodal : Llama 4 Scout (~55 Go).
- Bibliothèque Ollama juin 2026 : 4.500+ modèles. Tous disponibles via `ollama pull <nom>`.
Quoi de Neuf dans Ollama — Mise à Jour Juin 2026
Version Ollama actuelle : v0.30.8 (publiée le 12 juin 2026). C'est la dernière version stable, disponible via ollama.com/download. Mettez à jour avec `curl https://ollama.ai/install.sh | sh` (macOS : `brew upgrade ollama`), puis vérifiez avec `ollama --version`.
Ce qui a changé dans la série v0.30 (mai-juin 2026) : Ollama v0.30 a élargi la compatibilité des modèles GGUF via llama.cpp, étendant la prise en charge matérielle au-delà d'Apple Silicon, et le moteur MLX a été amélioré le 11 juin 2026 pour offrir son inférence Apple Silicon la plus rapide à ce jour — une sortie de meilleure qualité utilisant moins de mémoire. Les versions ponctuelles jusqu'à la v0.30.8 ont ajouté les poids QAT de Gemma 4 (5 juin), Hermes Desktop (7 juin), une réutilisation améliorée du cache prompt/KV et des corrections de chemin de configuration sous Windows. Notes complètes : github.com/ollama/ollama/releases.
Nouveaux modèles ajoutés ce mois-ci (juin 2026) :
- MiniMax M3 (MiniMax, 1 juin 2026) — Nouveau modèle phare à poids ouverts : le premier à combiner le codage de frontière (SWE-Bench Pro 59.0), une fenêtre de contexte de 1M tokens et une entrée image/vidéo native. En cours de déploiement dans la bibliothèque Ollama — vérifiez la disponibilité avec `ollama pull minimax-m3`.
- NVIDIA Nemotron 3 Ultra (NVIDIA, 4 juin 2026) — Conçu pour le raisonnement à haut débit et les workflows d'agents de longue durée. Licence NVIDIA Open Model. Téléchargement : `ollama pull nemotron3-ultra`
- DeepSeek V4 Pro (DeepSeek, 23 avril 2026) — Spécialiste du codage algorithmique, 93.5% LiveCodeBench, licence MIT. Variante économique DeepSeek V4 Flash pour le materiel plus léger. Téléchargement : `ollama pull deepseek-v4-pro`
- Kimi K2.6 (Moonshot AI, 20 avril 2026) — Modèle de codage de frontière, SWE-Bench Pro 58.6, SWE-bench Verified 80.2% (à égalité avec GPT-5.5). Architecture MoE (32B actif / 1T au total). Licence Modified MIT.
- Qwen 3.6 27B (Alibaba, 16 avril 2026) — Meilleur global sur materiel grand public, 77,2% SWE-bench, Apache 2.0, tient en 24 Go en Q4. Aussi Qwen3.6-35B-A3B (MoE, 73,4 SWE-bench).
- GLM-5.1 (Z.ai, 7 avril 2026) — 744B / 40B actif MoE, licence MIT, SWE-Bench Pro 58.4. Leader en génération de code structuré.
- gpt-oss (OpenAI, 2026) — MoE à poids ouverts : gpt-oss:20b (21B au total / 3,6B actif, tourne en 16 Go, ~niveau o3-mini, raisonnement reglable) et gpt-oss:120b (80 Go).
- Gemma 4 (Google, 2 avril 2026) — Tailles multimodales E2B / E4B / E12B (26B MoE) / E27B (31B dense), toutes avec vision et appel d'outils. Poids QAT ajoutés le 5 juin 2026. E4B tourne en ~6 Go VRAM.
# Mettre à jour Ollama vers la dernière version (v0.30.8)
curl https://ollama.ai/install.sh | sh
# Ou sur Mac : brew upgrade ollama
# Vérifier la version actuelle
ollama --version # Sortie : ollama version 0.30.8
# Télécharger les nouveaux modèles de juin 2026
ollama pull minimax-m3
ollama pull deepseek-v4-pro
ollama pull kimi-k2.6Les modèles les plus populaires sur Ollama
Ollama dispose de statistiques de téléchargement entièrement publiques. Selon les données de juin 2026 :
Llama 3.2 3B reste le modèle le plus téléchargé au total, largement dû à son utilisation comme modèle de test standard lors de la première installation. Pour la qualité sur materiel grand public, Qwen 3.6 27B (77,2% SWE-bench, tient en 24 Go en Q4) est désormais le meilleur choix global.
Qwen3 et Qwen 3.6 sont la famille de modèles la plus en forte croissance dans la bibliothèque Ollama, avec Qwen3 et la nouvelle variante dense Qwen 3.6 déplaçant rapidement Qwen3. DeepSeek-R1 a connu des pics majeurs après sa sortie et reste très téléchargé pour les tâches de raisonnement.
Llama 4 Scout a été lancé par Meta en avril 2026 avec les variantes Scout (17B actif, 109B au total, MoE) et Maverick (17B actif, 400B au total). Llama 4 Scout est maintenant stable dans la bibliothèque Ollama (`ollama pull llama4:scout`). La famille Llama 4 utilise une architecture Mixture-of-Experts (MoE) – seuls 17B paramètres sont actifs par token, mais avec 109B paramètres au total Scout nécessite ~55 Go VRAM en Q4 (tient en 24 Go uniquement en 1,78 bit, ~20 tok/s). Les atouts de Scout sont sa fenêtre de contexte de 10M tokens et son entrée multimodale, pas son adéquation au materiel grand public. L'écosystème Ollama s'est considérablement étendu en avril 2026. Kimi K2.6 (Moonshot AI, licence Modified MIT, 32B actif / 1T au total MoE) a obtenu SWE-Bench Pro 58.6, à égalité avec GPT-5.5. Qwen 3.6 27B a atteint 77,2% SWE-bench en tant que meilleur modèle global sur materiel grand public (tient en 24 Go en Q4). Le gpt-oss:20b d'OpenAI (21B au total / 3,6B actif MoE) tourne en 16 Go au ~niveau o3-mini avec raisonnement reglable. La version actuelle, Ollama v0.30.8 (12 juin 2026), élargit la prise en charge matérielle GGUF via llama.cpp et améliore le moteur MLX Apple Silicon. La bibliothèque Ollama référence maintenant 4 500+ modèles, MiniMax M3, NVIDIA Nemotron 3 Ultra et DeepSeek V4 Pro étant les ajouts les plus récents ce mois-ci.
Meilleurs modèles par catégorie
La qualité de la sortie d'un modèle dépend fortement de la façon dont vous le promptez. Pour des techniques structurées applicables à tous les modèles locaux — chain-of-thought, exemples few-shot et formatage de sortie — consultez le guide de prompt engineering. Pour les tâches de raisonnement, le prompt engineering de chaîne de pensée améliore considérablement la qualité des sorties DeepSeek-R1 et Qwen3. Pour déterminer la RAM requise pour chaque modèle, consultez le guide des exigences VRAM →. Pour les workflows d'agents avec Gemini 4, voir Tree-of-Thought et ReAct. Une fois qu'un modèle à appel d'outils de cette liste est intégré dans une boucle multi-étapes avec accès aux fichiers et aux bases de données, voir Agents IA locaux avec MCP pour le pattern d'orchestration open source.
- Chat général (débutant) : `ollama run llama3.2:3b` -- la plupart de la documentation, le modèle de démarrage le mieux soutenu.
- Chat général (meilleur choix) : `ollama run qwen3.6:27b` -- 77,2% SWE-bench, meilleur global sur materiel grand public, tient en 24 Go en Q4. Polyvalent : `ollama run qwen3:30b`. Pour les machines à 8 Go, gardez `ollama run llama3.2:3b`.
- Long contexte / multimodal : `ollama run llama4:scout` -- contexte 10M tokens + multimodal, MoE (17B actif/109B au total). Nécessite ~55 Go VRAM en Q4 (tient en 24 Go uniquement en 1,78 bit, ~20 tok/s).
- Meilleur petit / 16 Go : `ollama run gpt-oss:20b` -- 21B au total / 3,6B actif MoE, ~niveau o3-mini, raisonnement reglable. Plus grand : `ollama run gpt-oss:120b` (80 Go).
- Codage (7B) : `ollama run qwen3:8b` -- 76% HumanEval, amélioré par rapport à Qwen3, multilingue.
- Codage (meilleur agentique, 24B) : `ollama run devstral-small:24b` -- Meilleur modèle de codage agentique (éditions multi-fichiers, débogage). 16 Go RAM. Par Mistral AI.
- Codage (meilleur dense, 27B) : `ollama run qwen3.6:27b` -- 77,2% SWE-bench. Meilleur modèle de codage dense. 22 Go VRAM.
- Codage (frontière MoE) : `ollama run kimi-k2.6` -- SWE-Bench Pro 58.6 (à égalité avec GPT-5.5), tier supérieur. MoE (32B actif/1T au total). Licence Modified MIT.
- Tâches d'agent et appel d'outils : `ollama run gemma4:e4b` -- Lancé le 2 avril 2026. Support d'appel d'outils intégré + vision. Recommandé pour les agents locaux, l'appel de fonctions et la sortie structurée. 6 Go RAM.
- Raisonnement et mathématiques : `ollama run deepseek-r1:7b` -- modèle de chaîne de pensée, meilleure performance mathématique locale à 7B.
- Multilingue : `ollama run qwen3:7b` -- 29+ langues natives, support non-anglais le plus fort, 76% HumanEval.
- Compréhension d'images : `ollama run gemma4:e4b` -- vision + appel d'outils (juin 2026). Ou `ollama run llama3.2-vision:11b` pour une vision dédiée.
- Rapide et léger : `ollama run gemma2:2b` -- inférence CPU la plus rapide, 1,7 Go RAM.
- Haute qualité (16 Go RAM) : `ollama run mistral-small3.1` -- qualité proche de 70B à 14 Go RAM.
- Domotique / IA mot de réveil : `ollama run phi4-mini` — Phi-4 Mini (3,8B, ~3 Go VRAM) gère les commandes vocales Home Assistant à 20–25 tok/sec sur mini PC sans GPU dédié. Voir guide d'intégration Home Assistant + Ollama →.
DeepSeek-R1 : Percée en raisonnement
DeepSeek-R1 a été lancé en janvier 2025 et représente une avancée significative en raisonnement sur tailles locales. Le modèle effectue un raisonnement explicite en chaîne de pensée (CoT) : vous voyez les chaînes de pensée internes du modèle avant la réponse finale.
- Tailles disponibles : 1.5B (mobile), 7B, 70B. 1.5B suffisant pour appareils éducatifs ; 7B surpasse Llama 3.3 13B en mathématiques.
- Performance sur benchmarks : 52 % MATH (vs 23 % Llama 3.3 8B), logique améliorée et résolution multiétapes.
- Exigences RAM : 1.5B : 2 GB, 7B : 6 GB, 70B : 44 GB (quantification Q4).
- Licence : Licences DeepSeek (certaines restrictions sur décompilation ; vérifier avant déploiement d'entreprise).
- Gestion des données EU : Lorsqu'il est déployé dans les régions UE, DeepSeek-R1 traite les données selon les règlementations UE. L'exécution locale sur serveurs privés ou appareils garantit la souveraineté des données -- aucune transmission cloud requise.
ollama run deepseek-r1:7b
# Exemple de prompt : "Si deux trains se rapprochent d'une gare à 100 km/h, quand se rencontrent-ils ?"
# DeepSeek-R1:7b répond avec les chaînes de pensée visibles :
# <pensée>
# ...explorer les chemins, vérifier les hypothèses...
# </pensée>
# Réponse : Ils se rencontrent ...Modèles de vision sur Ollama
Quatre modèles de vision remarquables sont maintenant nativement disponibles sur Ollama :
| Modèle | RAM | Support image | Commande Ollama |
|---|---|---|---|
| Llama 3.2 Vision 11B | 11 GB | JPEG, PNG, GIF; entrée multi-images | ollama run llama3.2-vision:11b |
| Qwen2-VL 7B | 8 GB | JPEG, PNG; meilleur en OCR et diagrammes | ollama run qwen2-vl:7b |
| Gemma 3 Vision 9B | 9.5 GB | JPEG, PNG; contexte natif 128K | ollama run gemma3:9b |
| Mistral AI Pixtral 12B | 12.5 GB | JPEG, PNG; basé sur latent | ollama run pixtral:12b |
Comparaison complète du Top 10
Les 10 modèles les plus téléchargés sur Ollama en avril 2026 selon les téléchargements mensuels :
| # | Modèle | Meilleur pour | RAM | HumanEval |
|---|---|---|---|---|
| 1 | Llama 3.3 8B | Débutants, polyvalent | 6.5 GB | 68.2 % |
| 2 | Qwen3 7B | Codage, mathématiques | 6.5 GB | 75.4 % |
| 3 | Mistral Small | Multilingue | 6.5 GB | 73.2 % |
| 4 | Llama 3.3 70B | Haut débit | 44 GB | 86.1 % |
| 5 | DeepSeek-R1 7B | Raisonnement | 6.5 GB | 76.8 % |
| 6 | Gemma 3 9B | Vision + texte | 9.5 GB | 72.1 % |
| 7 | Llama 3.2 Vision 11B | Multimodal | 11 GB | 71.5 % |
| 8 | Phi-3.5 Mini 3.8B | Petits appareils | 3 GB | 61.2 % |
| 9 | Qwen3 32B | Qualité plutôt que vitesse | 20 GB | 81.7 % |
| 10 | Mistral Small 3.1 | Rapide + compact | 5 GB | 68.9 % |
Comment parcourir la bibliothèque Ollama ?
Il existe deux façons de travailler avec les modèles Ollama. Changer de modèle installé : Dans l'application Ollama pour Mac, cliquez sur le bouton déroulant de modèle en bas du champ de saisie du chat (affiche le nom du modèle actuel, ex. "gemma3:1b") pour basculer entre les modèles installés localement. Trouver et télécharger de nouveaux modèles : Visitez ollama.com/library pour parcourir plus de 4500 modèles par catégorie, puis utilisez les commandes CLI ci-dessous pour les télécharger.
- Ouvrez https://ollama.ai/library dans un navigateur pour la bibliothèque complète interrogeable de tous les 4500+ modèles.
- Options de filtrage : taille du modèle, licence, date de publication, benchmarks (MMLU, HumanEval, MATH).
- Notation par modèle : téléchargements utilisateur, étoiles GitHub (pour le modèle de base), étoiles Ollama.
- Nouveaux modèles : La bibliothèque Ollama est mise à jour chaque semaine (jeudis, 18:00 UTC).
ollama list
# Affiche tous les modèles installés
ollama pull llama3.1:8b
# Télécharge et installe Llama 3.3 8B
ollama pull qwen2.5:7b
# Télécharge Qwen3 7B (pour codage et mathématiques)
ollama run qwen2.5:7b
# Démarre une session de chat interactive
ollama run -m deepseek-r1:7b "Résoudre 2^10"
# Résout les tâches de raisonnement avec CoTErreurs courantes lors du choix de modèles Ollama
J'ai téléchargé un grand tag de modèle mais ma RAM est pleine. Qu'est-ce qui s'est passé ?
Vous avez téléchargé trop vite sans vérifier la RAM. Utilisez `ollama show [model-name]` AVANT le téléchargement. Exemple : `ollama show llama3.1:70b` affiche les exigences (~42-48 GB avec quantification Q4). Pour les débutants : restez avec les modèles 7B-13B (moins de 16 GB RAM). Supprimez avec `ollama rm [model-name]`.
J'utilise un modèle polyvalent comme Llama 3.3, mais le codage est lent. Pourquoi ?
Llama 3.3 8B est convivial, mais Qwen3 ou Mistral Small sont spécialisés pour les tâches techniques. Pour le codage : basculez à Qwen3 7B (75.4 % HumanEval vs 68.2 % pour Llama). Les deux fonctionnent en moins de 8 GB RAM.
J'ai téléchargé un modèle mais ne le vois pas dans la liste. Comment vérifier l'installation ?
Exécutez `ollama list`. Ollama stocke les modèles sous `~/.ollama/models/` (Mac) ou `%USERPROFILE%.ollamamodels` (Windows). Si le modèle y est mais n'apparaît pas, redémarrez le daemon Ollama : fermez Ollama et rouvrez-le.
Étapes suivantes
- Meilleurs LLM locaux pour le code — Le meilleur modèle Ollama pour le développement →
- Meilleurs LLM sur CPU uniquement — Pas de GPU ? Par ici →
- Guide matériel LLM local 2026 — Votre machine peut-elle faire tourner ces modèles ? →
Questions fréquemment posées
Combien de RAM me faut-il pour un modèle local ?
Modèles 7B : 6.5-8 GB RAM. 13B : 11-14 GB. 70B : 42-48 GB avec quantification (Q4_K_M). Petits (3B) : 2-3 GB. Vérifiez avec `ollama show [model-name]` avant le téléchargement.
Puis-je exécuter les modèles Ollama hors ligne ?
Oui. Après le téléchargement initial, chaque inférence s'exécute localement, sans connexion Internet. Ollama vérifie occasionnellement les mises à jour (mais ne les applique pas automatiquement).
Quel modèle a le meilleur support du français ?
Qwen3 7B a un support français supérieur (entraîné sur CulturaX et texte wiki FR). Llama 3.3 est adéquat pour le français, mais Qwen est plus précis. Mistral Small est compétent en français et espagnol.
Les modèles Ollama sont-ils vraiment gratuits ?
Oui. Tous les modèles disponibles sur Ollama sont open source avec des licences libres (Apache 2.0, Meta Llama 3 Community, Deepseek). Pas d'abonnements, pas de frais d'API. Téléchargez, installez localement et utilisez sans limite.
Quelle est vraiment la vitesse de DeepSeek-R1 ?
Vitesse de génération : 15-25 tokens/sec sur M1 Pro (similaire à Llama 3.3 7B). La latence totale est plus élevée car les chaînes de pensée sont générées -- attendez-vous à 8-12 secondes pour les requêtes moyennes. Pour l'interaction en temps réel, utilisez Llama 3.3 ou Mistral.
Pourquoi utiliser Ollama plutôt que simplement ChatGPT Plus ?
Confidentialité : aucun chat n'est transmis à OpenAI. Coût : pas d'abonnement mensuel ; investissement GPU unique. Hors ligne : fonctionne complètement sans Internet. Personnalisable : invites système, directives de comportement et paramètres entièrement sous votre contrôle.
Les modèles Ollama peuvent-ils traiter les images ?
Oui. Llama 3.2 Vision, Qwen2-VL et Gemma 3 sont tous multimodaux. Chargez les images comme fichiers locaux ; aucune transmission cloud. Support : JPEG, PNG, GIF.
Comment mettre à jour vers les nouvelles versions des modèles Ollama ?
Exécutez `ollama pull [model-name]` à nouveau. Ollama télécharge uniquement les différences (déduplication). Les anciennes versions peuvent être supprimées avec `ollama rm [model-name]:tag`.
Dois-je me soucier du RGPD avec Ollama ?
Oui. Le RGPD exige des mesures de sécurité appropriées pour les données personnelles. L'inférence locale sur appareils privés ou serveurs satisfait les exigences de protection par défaut. Aucune transmission cloud signifie : souveraineté des données, aucune export de données, conformité aux cadres de sécurité. Remarque : si vous utilisez un modèle cloud, vérifiez d'abord les contrats de traitement des données.
Ollama convient-il aux petites et moyennes entreprises (PME) françaises ?
Oui. Les PME françaises bénéficient de : souveraineté des données (sans verrouillage éditeur cloud), conformité aux standards de sécurité IT (cadres de sécurité), scalabilité sur matériel standard et économies sans frais d'API. Qwen3 7B s'exécute sur une GPU de bureau typique ; Llama 3.3 8B est un modèle PME éprouvé pour les outils internes, l'automatisation du service client et le traitement de documents.
Lectures connexes
- Installer les modèles locaux avec VS Code et Cursor -- VS Code et Cursor reconnaissent maintenant automatiquement Ollama.
- Comment choisir un modèle local : Llama vs Qwen vs Mistral -- Comparaison complète pour les débutants.
- Ollama vs LM Studio : Lequel est le plus rapide ? -- Benchmarks GPU et comparaisons de débit.
- Comment installer Ollama sur Windows/Mac -- Configuration d'installation étape par étape et configuration d'environnement.
- Matériel pour les modèles locaux : Exigences GPU 2026 -- Quelle GPU, RAM et stockage il faut pour votre modèle.
- Dépannage : Erreurs Ollama et solutions -- CUDA, MPS, fallback CPU et erreurs courantes.
- Mises à jour des modèles LLM locaux 2026 -- chronologie complète de toutes les versions majeures open-weight avec dates de disponibilité sur Ollama.
Sources
- Bibliothèque de modèles Ollama -- Tous les 4500+ modèles avec statistiques de téléchargement en direct.
- Ollama GitHub : Modèles populaires par téléchargements -- Entrées mensuelles sur les utilisateurs et tendances (données publiques).
- Livre blanc DeepSeek-R1 -- "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (janvier 2025).
- Annonce Gemma 3 -- Blog Google : Gemma 3 Multimodal, contexte 128K, février 2026.