Réponse rapide
Oui — Ollama supporte toutes les tailles de Qwen 3 de 0.6B à 72B. Lancez n'importe quelle taille avec ollama run qwen3:8b. Le modèle 8B nécessite ~6 Go de VRAM en Q4.
Mis à jour : 2026-05
Points clés
En mai 2026, Ollama supporte toutes les tailles majeures de Qwen 3, de 0.6B à 72B. Téléchargez n'importe quelle taille avec une seule commande : ollama run qwen3:8b. Remplacez 8b par 0.6b, 1.5b, 3b, 14b, 32b ou 72b pour d'autres tailles.
Chaque taille est disponible en plusieurs quantisations. Q4_K_M est la quantisation par défaut et recommandée — elle offre le meilleur rapport qualité/taille de fichier. Q8_0 est disponible pour les 7B et 14B si vous disposez de marge VRAM.
Le tool calling est supporté nativement sur toutes les tailles de Qwen 3 via l'API Ollama standard. Aucun Modelfile personnalisé ni template de prompt spécial n'est requis.
ollama run qwen3:8bLa bonne taille de Qwen 3 dépend entièrement de la VRAM disponible. Pour la plupart des utilisateurs avec un GPU milieu de gamme (6–8 Go de VRAM), le modèle 7B en Q4_K_M est le choix pratique — il nécessite ~6 Go et tourne à ~20 tok/s.
Le modèle 14B en Q4 est la référence recommandée pour le code : il surpasse le 7B en génération de code et tient confortablement dans 10–12 Go de VRAM. Pour une comparaison complète des performances de codage de Qwen 3 face aux autres modèles locaux, consultez le guide pour exécuter Qwen localement en 2026.
| VRAM | Taille Qwen 3 | Idéal pour |
|---|---|---|
| < 4 GB | 0.6B / 1.5B | Appareils edge, tests, CPU uniquement |
| 4–6 GB | 3B | GPU entrée de gamme ou CPU faible RAM |
| 6–12 GB | 7B / 14B | Usage général et programmation |
| 12–24 GB | 14B / 32B | Programmation et raisonnement avancés |
| 40+ GB | 72B | Qualité locale proche du frontier |
ollama run qwen3:8b dans un terminal. Ollama télécharge le modèle automatiquement au premier lancement. Remplacez 8b par la taille souhaitée : 0.6b, 1.5b, 3b, 14b, 32b ou 72b.