Skip to main content
PromptQuorumPromptQuorum
Accueil/LLMs locaux/Ollama Mise à Jour Juin 2026 : v0.30.8 + Top 10 Modèles Open Source
Meilleurs modèles

Ollama Mise à Jour Juin 2026 : v0.30.8 + Top 10 Modèles Open Source

·9 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Mise à jour juin 2026. La version actuelle d'Ollama est la v0.30.8 (publiée le 12 juin 2026), qui élargit la prise en charge matérielle GGUF via llama.cpp et améliore le moteur MLX Apple Silicon. Les modèles les plus récents de la bibliothèque ce mois-ci sont MiniMax M3 (1 juin, poids ouverts, contexte 1M tokens + vision native), NVIDIA Nemotron 3 Ultra (4 juin) et DeepSeek V4 Pro, rejoignant Kimi K2.6, Qwen 3.6, GLM-5.1, gpt-oss et Gemma 4. Le plus téléchargé reste la famille Llama (Llama 4 Scout, Llama 3.x) ; le meilleur global sur materiel grand public est Qwen 3.6 27B (77,2% SWE-bench).

Présentation: Ollama Mise à Jour Juin 2026 : v0.30.8 + Top 10 Modèles Open Source

La présentation ci-dessous couvre : top 10 modèles Ollama par nombre de téléchargements, comparaison de performance (60-74% HumanEval), meilleurs modèles par cas d'utilisation (chat, codage, raisonnement, vision), DeepSeek-R1 chain-of-thought reasoning et commandes pull exactes. Téléchargez le PDF comme votre carte de référence de sélection de modèles Ollama.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Meilleur global sur materiel grand public : Qwen 3.6 27B (77,2% SWE-bench, tient en 24 Go en Q4). Polyvalent : qwen3:30b.
  • Plus téléchargés : Llama 3.2 3B (tutoriels) et la famille Llama.
  • Meilleur raisonnement : DeepSeek-R1 (Chain-of-Thought) et gpt-oss:20b (raisonnement reglable, ~niveau o3-mini).
  • Meilleur coding : Kimi K2.6 (Frontier MoE), Qwen 3.6 27B (meilleur dense), Devstral Small 24B (meilleur agentic), qwen3-coder:30b (completion).
  • Meilleur petit / 16 Go : gpt-oss:20b. Meilleure vision/multimodal : Gemma 4 (E4B+). Meilleur long contexte (10M) / grand multimodal : Llama 4 Scout (~55 Go).
  • Bibliothèque Ollama juin 2026 : 4.500+ modèles. Tous disponibles via `ollama pull <nom>`.

Quoi de Neuf dans Ollama — Mise à Jour Juin 2026

Version Ollama actuelle : v0.30.8 (publiée le 12 juin 2026). C'est la dernière version stable, disponible via ollama.com/download. Mettez à jour avec `curl https://ollama.ai/install.sh | sh` (macOS : `brew upgrade ollama`), puis vérifiez avec `ollama --version`.

Ce qui a changé dans la série v0.30 (mai-juin 2026) : Ollama v0.30 a élargi la compatibilité des modèles GGUF via llama.cpp, étendant la prise en charge matérielle au-delà d'Apple Silicon, et le moteur MLX a été amélioré le 11 juin 2026 pour offrir son inférence Apple Silicon la plus rapide à ce jour — une sortie de meilleure qualité utilisant moins de mémoire. Les versions ponctuelles jusqu'à la v0.30.8 ont ajouté les poids QAT de Gemma 4 (5 juin), Hermes Desktop (7 juin), une réutilisation améliorée du cache prompt/KV et des corrections de chemin de configuration sous Windows. Notes complètes : github.com/ollama/ollama/releases.

Nouveaux modèles ajoutés ce mois-ci (juin 2026) :

  • MiniMax M3 (MiniMax, 1 juin 2026) — Nouveau modèle phare à poids ouverts : le premier à combiner le codage de frontière (SWE-Bench Pro 59.0), une fenêtre de contexte de 1M tokens et une entrée image/vidéo native. En cours de déploiement dans la bibliothèque Ollama — vérifiez la disponibilité avec `ollama pull minimax-m3`.
  • NVIDIA Nemotron 3 Ultra (NVIDIA, 4 juin 2026) — Conçu pour le raisonnement à haut débit et les workflows d'agents de longue durée. Licence NVIDIA Open Model. Téléchargement : `ollama pull nemotron3-ultra`
  • DeepSeek V4 Pro (DeepSeek, 23 avril 2026) — Spécialiste du codage algorithmique, 93.5% LiveCodeBench, licence MIT. Variante économique DeepSeek V4 Flash pour le materiel plus léger. Téléchargement : `ollama pull deepseek-v4-pro`
  • Kimi K2.6 (Moonshot AI, 20 avril 2026) — Modèle de codage de frontière, SWE-Bench Pro 58.6, SWE-bench Verified 80.2% (à égalité avec GPT-5.5). Architecture MoE (32B actif / 1T au total). Licence Modified MIT.
  • Qwen 3.6 27B (Alibaba, 16 avril 2026) — Meilleur global sur materiel grand public, 77,2% SWE-bench, Apache 2.0, tient en 24 Go en Q4. Aussi Qwen3.6-35B-A3B (MoE, 73,4 SWE-bench).
  • GLM-5.1 (Z.ai, 7 avril 2026) — 744B / 40B actif MoE, licence MIT, SWE-Bench Pro 58.4. Leader en génération de code structuré.
  • gpt-oss (OpenAI, 2026) — MoE à poids ouverts : gpt-oss:20b (21B au total / 3,6B actif, tourne en 16 Go, ~niveau o3-mini, raisonnement reglable) et gpt-oss:120b (80 Go).
  • Gemma 4 (Google, 2 avril 2026) — Tailles multimodales E2B / E4B / E12B (26B MoE) / E27B (31B dense), toutes avec vision et appel d'outils. Poids QAT ajoutés le 5 juin 2026. E4B tourne en ~6 Go VRAM.
bash
# Mettre à jour Ollama vers la dernière version (v0.30.8)
curl https://ollama.ai/install.sh | sh

# Ou sur Mac : brew upgrade ollama

# Vérifier la version actuelle
ollama --version  # Sortie : ollama version 0.30.8

# Télécharger les nouveaux modèles de juin 2026
ollama pull minimax-m3
ollama pull deepseek-v4-pro
ollama pull kimi-k2.6

Les modèles les plus populaires sur Ollama

Ollama dispose de statistiques de téléchargement entièrement publiques. Selon les données de juin 2026 :

Llama 3.2 3B reste le modèle le plus téléchargé au total, largement dû à son utilisation comme modèle de test standard lors de la première installation. Pour la qualité sur materiel grand public, Qwen 3.6 27B (77,2% SWE-bench, tient en 24 Go en Q4) est désormais le meilleur choix global.

Qwen3 et Qwen 3.6 sont la famille de modèles la plus en forte croissance dans la bibliothèque Ollama, avec Qwen3 et la nouvelle variante dense Qwen 3.6 déplaçant rapidement Qwen3. DeepSeek-R1 a connu des pics majeurs après sa sortie et reste très téléchargé pour les tâches de raisonnement.

Llama 4 Scout a été lancé par Meta en avril 2026 avec les variantes Scout (17B actif, 109B au total, MoE) et Maverick (17B actif, 400B au total). Llama 4 Scout est maintenant stable dans la bibliothèque Ollama (`ollama pull llama4:scout`). La famille Llama 4 utilise une architecture Mixture-of-Experts (MoE) – seuls 17B paramètres sont actifs par token, mais avec 109B paramètres au total Scout nécessite ~55 Go VRAM en Q4 (tient en 24 Go uniquement en 1,78 bit, ~20 tok/s). Les atouts de Scout sont sa fenêtre de contexte de 10M tokens et son entrée multimodale, pas son adéquation au materiel grand public. L'écosystème Ollama s'est considérablement étendu en avril 2026. Kimi K2.6 (Moonshot AI, licence Modified MIT, 32B actif / 1T au total MoE) a obtenu SWE-Bench Pro 58.6, à égalité avec GPT-5.5. Qwen 3.6 27B a atteint 77,2% SWE-bench en tant que meilleur modèle global sur materiel grand public (tient en 24 Go en Q4). Le gpt-oss:20b d'OpenAI (21B au total / 3,6B actif MoE) tourne en 16 Go au ~niveau o3-mini avec raisonnement reglable. La version actuelle, Ollama v0.30.8 (12 juin 2026), élargit la prise en charge matérielle GGUF via llama.cpp et améliore le moteur MLX Apple Silicon. La bibliothèque Ollama référence maintenant 4 500+ modèles, MiniMax M3, NVIDIA Nemotron 3 Ultra et DeepSeek V4 Pro étant les ajouts les plus récents ce mois-ci.

Meilleurs modèles par catégorie

La qualité de la sortie d'un modèle dépend fortement de la façon dont vous le promptez. Pour des techniques structurées applicables à tous les modèles locaux — chain-of-thought, exemples few-shot et formatage de sortie — consultez le guide de prompt engineering. Pour les tâches de raisonnement, le prompt engineering de chaîne de pensée améliore considérablement la qualité des sorties DeepSeek-R1 et Qwen3. Pour déterminer la RAM requise pour chaque modèle, consultez le guide des exigences VRAM →. Pour les workflows d'agents avec Gemini 4, voir Tree-of-Thought et ReAct. Une fois qu'un modèle à appel d'outils de cette liste est intégré dans une boucle multi-étapes avec accès aux fichiers et aux bases de données, voir Agents IA locaux avec MCP pour le pattern d'orchestration open source.

  • Chat général (débutant) : `ollama run llama3.2:3b` -- la plupart de la documentation, le modèle de démarrage le mieux soutenu.
  • Chat général (meilleur choix) : `ollama run qwen3.6:27b` -- 77,2% SWE-bench, meilleur global sur materiel grand public, tient en 24 Go en Q4. Polyvalent : `ollama run qwen3:30b`. Pour les machines à 8 Go, gardez `ollama run llama3.2:3b`.
  • Long contexte / multimodal : `ollama run llama4:scout` -- contexte 10M tokens + multimodal, MoE (17B actif/109B au total). Nécessite ~55 Go VRAM en Q4 (tient en 24 Go uniquement en 1,78 bit, ~20 tok/s).
  • Meilleur petit / 16 Go : `ollama run gpt-oss:20b` -- 21B au total / 3,6B actif MoE, ~niveau o3-mini, raisonnement reglable. Plus grand : `ollama run gpt-oss:120b` (80 Go).
  • Codage (7B) : `ollama run qwen3:8b` -- 76% HumanEval, amélioré par rapport à Qwen3, multilingue.
  • Codage (meilleur agentique, 24B) : `ollama run devstral-small:24b` -- Meilleur modèle de codage agentique (éditions multi-fichiers, débogage). 16 Go RAM. Par Mistral AI.
  • Codage (meilleur dense, 27B) : `ollama run qwen3.6:27b` -- 77,2% SWE-bench. Meilleur modèle de codage dense. 22 Go VRAM.
  • Codage (frontière MoE) : `ollama run kimi-k2.6` -- SWE-Bench Pro 58.6 (à égalité avec GPT-5.5), tier supérieur. MoE (32B actif/1T au total). Licence Modified MIT.
  • Tâches d'agent et appel d'outils : `ollama run gemma4:e4b` -- Lancé le 2 avril 2026. Support d'appel d'outils intégré + vision. Recommandé pour les agents locaux, l'appel de fonctions et la sortie structurée. 6 Go RAM.
  • Raisonnement et mathématiques : `ollama run deepseek-r1:7b` -- modèle de chaîne de pensée, meilleure performance mathématique locale à 7B.
  • Multilingue : `ollama run qwen3:7b` -- 29+ langues natives, support non-anglais le plus fort, 76% HumanEval.
  • Compréhension d'images : `ollama run gemma4:e4b` -- vision + appel d'outils (juin 2026). Ou `ollama run llama3.2-vision:11b` pour une vision dédiée.
  • Rapide et léger : `ollama run gemma2:2b` -- inférence CPU la plus rapide, 1,7 Go RAM.
  • Haute qualité (16 Go RAM) : `ollama run mistral-small3.1` -- qualité proche de 70B à 14 Go RAM.
  • Domotique / IA mot de réveil : `ollama run phi4-mini` — Phi-4 Mini (3,8B, ~3 Go VRAM) gère les commandes vocales Home Assistant à 20–25 tok/sec sur mini PC sans GPU dédié. Voir guide d'intégration Home Assistant + Ollama →.
Sélection Ollama par cas d'usage : juin 2026. Chat : llama4:scout, codage : qwen3.6:27b, raisonnement : deepseek-r1:7b.
Sélection Ollama par cas d'usage : juin 2026. Chat : llama4:scout, codage : qwen3.6:27b, raisonnement : deepseek-r1:7b.

DeepSeek-R1 : Percée en raisonnement

DeepSeek-R1 a été lancé en janvier 2025 et représente une avancée significative en raisonnement sur tailles locales. Le modèle effectue un raisonnement explicite en chaîne de pensée (CoT) : vous voyez les chaînes de pensée internes du modèle avant la réponse finale.

  • Tailles disponibles : 1.5B (mobile), 7B, 70B. 1.5B suffisant pour appareils éducatifs ; 7B surpasse Llama 3.3 13B en mathématiques.
  • Performance sur benchmarks : 52 % MATH (vs 23 % Llama 3.3 8B), logique améliorée et résolution multiétapes.
  • Exigences RAM : 1.5B : 2 GB, 7B : 6 GB, 70B : 44 GB (quantification Q4).
  • Licence : Licences DeepSeek (certaines restrictions sur décompilation ; vérifier avant déploiement d'entreprise).
  • Gestion des données EU : Lorsqu'il est déployé dans les régions UE, DeepSeek-R1 traite les données selon les règlementations UE. L'exécution locale sur serveurs privés ou appareils garantit la souveraineté des données -- aucune transmission cloud requise.
bash
ollama run deepseek-r1:7b
# Exemple de prompt : "Si deux trains se rapprochent d'une gare à 100 km/h, quand se rencontrent-ils ?"
# DeepSeek-R1:7b répond avec les chaînes de pensée visibles :
# <pensée>
# ...explorer les chemins, vérifier les hypothèses...
# </pensée>
# Réponse : Ils se rencontrent ...
DeepSeek-R1 7B vs Mistral Small: 52% vs 28% MATH. Raisonnement chain-of-thought -- plus lent, nettement plus précis.
DeepSeek-R1 7B vs Mistral Small: 52% vs 28% MATH. Raisonnement chain-of-thought -- plus lent, nettement plus précis.

Modèles de vision sur Ollama

Quatre modèles de vision remarquables sont maintenant nativement disponibles sur Ollama :

ModèleRAMSupport imageCommande Ollama
Llama 3.2 Vision 11B11 GBJPEG, PNG, GIF; entrée multi-imagesollama run llama3.2-vision:11b
Qwen2-VL 7B8 GBJPEG, PNG; meilleur en OCR et diagrammesollama run qwen2-vl:7b
Gemma 3 Vision 9B9.5 GBJPEG, PNG; contexte natif 128Kollama run gemma3:9b
Mistral AI Pixtral 12B12.5 GBJPEG, PNG; basé sur latentollama run pixtral:12b
4 modèles Ollama vision : llama3.2-vision:11b (8 Go), gemma3:9b (6 Go), minicpm-v (5,5 Go). Tous en local.
4 modèles Ollama vision : llama3.2-vision:11b (8 Go), gemma3:9b (6 Go), minicpm-v (5,5 Go). Tous en local.

Comparaison complète du Top 10

Les 10 modèles les plus téléchargés sur Ollama en avril 2026 selon les téléchargements mensuels :

#ModèleMeilleur pourRAMHumanEval
1Llama 3.3 8BDébutants, polyvalent6.5 GB68.2 %
2Qwen3 7BCodage, mathématiques6.5 GB75.4 %
3Mistral SmallMultilingue6.5 GB73.2 %
4Llama 3.3 70BHaut débit44 GB86.1 %
5DeepSeek-R1 7BRaisonnement6.5 GB76.8 %
6Gemma 3 9BVision + texte9.5 GB72.1 %
7Llama 3.2 Vision 11BMultimodal11 GB71.5 %
8Phi-3.5 Mini 3.8BPetits appareils3 GB61.2 %
9Qwen3 32BQualité plutôt que vitesse20 GB81.7 %
10Mistral Small 3.1Rapide + compact5 GB68.9 %
Top 10 modèles Ollama par téléchargements : RAM 1,7 Go (gemma2:2b) à 14 Go (mistral-small3.1). HumanEval 39-74 %.
Top 10 modèles Ollama par téléchargements : RAM 1,7 Go (gemma2:2b) à 14 Go (mistral-small3.1). HumanEval 39-74 %.

Comment parcourir la bibliothèque Ollama ?

Il existe deux façons de travailler avec les modèles Ollama. Changer de modèle installé : Dans l'application Ollama pour Mac, cliquez sur le bouton déroulant de modèle en bas du champ de saisie du chat (affiche le nom du modèle actuel, ex. "gemma3:1b") pour basculer entre les modèles installés localement. Trouver et télécharger de nouveaux modèles : Visitez ollama.com/library pour parcourir plus de 4500 modèles par catégorie, puis utilisez les commandes CLI ci-dessous pour les télécharger.

  • Ouvrez https://ollama.ai/library dans un navigateur pour la bibliothèque complète interrogeable de tous les 4500+ modèles.
  • Options de filtrage : taille du modèle, licence, date de publication, benchmarks (MMLU, HumanEval, MATH).
  • Notation par modèle : téléchargements utilisateur, étoiles GitHub (pour le modèle de base), étoiles Ollama.
  • Nouveaux modèles : La bibliothèque Ollama est mise à jour chaque semaine (jeudis, 18:00 UTC).
bash
ollama list
# Affiche tous les modèles installés

ollama pull llama3.1:8b
# Télécharge et installe Llama 3.3 8B

ollama pull qwen2.5:7b
# Télécharge Qwen3 7B (pour codage et mathématiques)

ollama run qwen2.5:7b
# Démarre une session de chat interactive

ollama run -m deepseek-r1:7b "Résoudre 2^10"
# Résout les tâches de raisonnement avec CoT

Erreurs courantes lors du choix de modèles Ollama

J'ai téléchargé un grand tag de modèle mais ma RAM est pleine. Qu'est-ce qui s'est passé ?

Vous avez téléchargé trop vite sans vérifier la RAM. Utilisez `ollama show [model-name]` AVANT le téléchargement. Exemple : `ollama show llama3.1:70b` affiche les exigences (~42-48 GB avec quantification Q4). Pour les débutants : restez avec les modèles 7B-13B (moins de 16 GB RAM). Supprimez avec `ollama rm [model-name]`.

J'utilise un modèle polyvalent comme Llama 3.3, mais le codage est lent. Pourquoi ?

Llama 3.3 8B est convivial, mais Qwen3 ou Mistral Small sont spécialisés pour les tâches techniques. Pour le codage : basculez à Qwen3 7B (75.4 % HumanEval vs 68.2 % pour Llama). Les deux fonctionnent en moins de 8 GB RAM.

J'ai téléchargé un modèle mais ne le vois pas dans la liste. Comment vérifier l'installation ?

Exécutez `ollama list`. Ollama stocke les modèles sous `~/.ollama/models/` (Mac) ou `%USERPROFILE%.ollamamodels` (Windows). Si le modèle y est mais n'apparaît pas, redémarrez le daemon Ollama : fermez Ollama et rouvrez-le.

Étapes suivantes

Questions fréquemment posées

Combien de RAM me faut-il pour un modèle local ?

Modèles 7B : 6.5-8 GB RAM. 13B : 11-14 GB. 70B : 42-48 GB avec quantification (Q4_K_M). Petits (3B) : 2-3 GB. Vérifiez avec `ollama show [model-name]` avant le téléchargement.

Puis-je exécuter les modèles Ollama hors ligne ?

Oui. Après le téléchargement initial, chaque inférence s'exécute localement, sans connexion Internet. Ollama vérifie occasionnellement les mises à jour (mais ne les applique pas automatiquement).

Quel modèle a le meilleur support du français ?

Qwen3 7B a un support français supérieur (entraîné sur CulturaX et texte wiki FR). Llama 3.3 est adéquat pour le français, mais Qwen est plus précis. Mistral Small est compétent en français et espagnol.

Les modèles Ollama sont-ils vraiment gratuits ?

Oui. Tous les modèles disponibles sur Ollama sont open source avec des licences libres (Apache 2.0, Meta Llama 3 Community, Deepseek). Pas d'abonnements, pas de frais d'API. Téléchargez, installez localement et utilisez sans limite.

Quelle est vraiment la vitesse de DeepSeek-R1 ?

Vitesse de génération : 15-25 tokens/sec sur M1 Pro (similaire à Llama 3.3 7B). La latence totale est plus élevée car les chaînes de pensée sont générées -- attendez-vous à 8-12 secondes pour les requêtes moyennes. Pour l'interaction en temps réel, utilisez Llama 3.3 ou Mistral.

Pourquoi utiliser Ollama plutôt que simplement ChatGPT Plus ?

Confidentialité : aucun chat n'est transmis à OpenAI. Coût : pas d'abonnement mensuel ; investissement GPU unique. Hors ligne : fonctionne complètement sans Internet. Personnalisable : invites système, directives de comportement et paramètres entièrement sous votre contrôle.

Les modèles Ollama peuvent-ils traiter les images ?

Oui. Llama 3.2 Vision, Qwen2-VL et Gemma 3 sont tous multimodaux. Chargez les images comme fichiers locaux ; aucune transmission cloud. Support : JPEG, PNG, GIF.

Comment mettre à jour vers les nouvelles versions des modèles Ollama ?

Exécutez `ollama pull [model-name]` à nouveau. Ollama télécharge uniquement les différences (déduplication). Les anciennes versions peuvent être supprimées avec `ollama rm [model-name]:tag`.

Dois-je me soucier du RGPD avec Ollama ?

Oui. Le RGPD exige des mesures de sécurité appropriées pour les données personnelles. L'inférence locale sur appareils privés ou serveurs satisfait les exigences de protection par défaut. Aucune transmission cloud signifie : souveraineté des données, aucune export de données, conformité aux cadres de sécurité. Remarque : si vous utilisez un modèle cloud, vérifiez d'abord les contrats de traitement des données.

Ollama convient-il aux petites et moyennes entreprises (PME) françaises ?

Oui. Les PME françaises bénéficient de : souveraineté des données (sans verrouillage éditeur cloud), conformité aux standards de sécurité IT (cadres de sécurité), scalabilité sur matériel standard et économies sans frais d'API. Qwen3 7B s'exécute sur une GPU de bureau typique ; Llama 3.3 8B est un modèle PME éprouvé pour les outils internes, l'automatisation du service client et le traitement de documents.

Lectures connexes

Sources

Note sur les faits tiers

Cet article fait référence à des modèles d’IA, des benchmarks, des prix et des licences de tiers. Le paysage de l’IA évolue rapidement. Les scores de benchmark, les conditions de licence, les noms de modèles et les prix des API peuvent changer entre le moment de la rédaction et le moment où vous lisez ceci. Avant de prendre des décisions de déploiement ou de conformité basées sur cet article, vérifiez les chiffres actuels auprès de la source officielle de chaque fournisseur : fiches de modèles Hugging Face pour les licences et benchmarks, sites web des fournisseurs pour les prix API, et EUR-Lex pour les textes RGPD et AI Act actuels. Cet article reflète les informations publiques disponibles en mai 2026.

Utilisez PromptQuorum avec un LLM local, vos propres clés API, ou les deux — vous choisissez le backend.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux