PromptQuorumPromptQuorum

Peut-on exécuter Qwen 3 avec Ollama ?

Réponse rapide

Oui — Ollama supporte toutes les tailles de Qwen 3 de 0.6B à 72B. Lancez n'importe quelle taille avec ollama run qwen3:8b. Le modèle 8B nécessite ~6 Go de VRAM en Q4.

  • ollama run qwen3:0.6b — tient dans 1 Go de VRAM
  • ollama run qwen3:8b — nécessite ~6 Go de VRAM
  • ollama run qwen3:72b — nécessite ~40 Go de VRAM

Mis à jour : 2026-05

Ollama

Points clés

  • Ollama supporte toutes les tailles de Qwen 3 : 0.6B, 1.5B, 3B, 7B, 14B, 32B et 72B
  • Téléchargez n'importe quelle taille avec <code>ollama run qwen3:8b</code> — remplacez le tag par la taille souhaitée
  • Le modèle 7B nécessite ~6 Go de VRAM en Q4 et tourne à ~20 tok/s sur un GPU milieu de gamme
  • Qwen 3 supporte nativement le tool calling via l'API Ollama standard — aucun Modelfile personnalisé requis

Oui — voici ce qui est disponible

En mai 2026, Ollama supporte toutes les tailles majeures de Qwen 3, de 0.6B à 72B. Téléchargez n'importe quelle taille avec une seule commande : ollama run qwen3:8b. Remplacez 8b par 0.6b, 1.5b, 3b, 14b, 32b ou 72b pour d'autres tailles.

Chaque taille est disponible en plusieurs quantisations. Q4_K_M est la quantisation par défaut et recommandée — elle offre le meilleur rapport qualité/taille de fichier. Q8_0 est disponible pour les 7B et 14B si vous disposez de marge VRAM.

Le tool calling est supporté nativement sur toutes les tailles de Qwen 3 via l'API Ollama standard. Aucun Modelfile personnalisé ni template de prompt spécial n'est requis.

ollama run qwen3:8b

Quelle taille de Qwen 3 choisir

La bonne taille de Qwen 3 dépend entièrement de la VRAM disponible. Pour la plupart des utilisateurs avec un GPU milieu de gamme (6–8 Go de VRAM), le modèle 7B en Q4_K_M est le choix pratique — il nécessite ~6 Go et tourne à ~20 tok/s.

Le modèle 14B en Q4 est la référence recommandée pour le code : il surpasse le 7B en génération de code et tient confortablement dans 10–12 Go de VRAM. Pour une comparaison complète des performances de codage de Qwen 3 face aux autres modèles locaux, consultez le guide pour exécuter Qwen localement en 2026.

VRAMTaille Qwen 3Idéal pour
< 4 GB0.6B / 1.5BAppareils edge, tests, CPU uniquement
4–6 GB3BGPU entrée de gamme ou CPU faible RAM
6–12 GB7B / 14BUsage général et programmation
12–24 GB14B / 32BProgrammation et raisonnement avancés
40+ GB72BQualité locale proche du frontier

Réponses rapides sur Qwen 3 avec Ollama

Comment installer Qwen 3 sur Ollama ?
Exécutez ollama run qwen3:8b dans un terminal. Ollama télécharge le modèle automatiquement au premier lancement. Remplacez 8b par la taille souhaitée : 0.6b, 1.5b, 3b, 14b, 32b ou 72b.
Qwen 3 est-il meilleur que Llama 3 pour le code ?
Pour le code : oui, Qwen 3 14B surpasse Llama 3 8B sur les benchmarks HumanEval. Pour la conversation générale au niveau 8B : Llama 3 8B reste compétitif. Pour les meilleures recommandations Ollama toutes tâches confondues, consultez les meilleurs modèles Ollama en ce moment.
Qwen 3 supporte-t-il le tool calling sur Ollama ?
Oui. Qwen 3 supporte les function calls et le tool calling nativement via l'API Ollama standard. Aucun Modelfile personnalisé ni configuration spéciale n'est requis — il fonctionne avec tout client supportant le format tool-use d'Ollama.
Peut-on exécuter Qwen 3 72B sur du matériel grand public ?
Techniquement oui, mais cela nécessite ~40 Go de VRAM en Q4 — soit un setup double GPU (deux RTX 3090) ou un Mac Apple M-series avec 64+ Go de mémoire unifiée. La plupart des configurations grand public sont limitées au tier 32B.