Peut-on exécuter Qwen 3 avec Ollama ?

Read in:

Réponse rapide

Oui — Ollama supporte toutes les tailles de Qwen 3 de 0.6B à 72B. Lancez n'importe quelle taille avec ollama run qwen3:8b. Le modèle 8B nécessite ~6 Go de VRAM en Q4.

▸ollama run qwen3:0.6b — tient dans 1 Go de VRAM
▸ollama run qwen3:8b — nécessite ~6 Go de VRAM
▸ollama run qwen3:72b — nécessite ~40 Go de VRAM

Mis à jour : 2026-05

Ollama

Points clés

✓Ollama supporte toutes les tailles de Qwen 3 : 0.6B, 1.5B, 3B, 7B, 14B, 32B et 72B
✓Téléchargez n'importe quelle taille avec <code>ollama run qwen3:8b</code> — remplacez le tag par la taille souhaitée
✓Le modèle 7B nécessite ~6 Go de VRAM en Q4 et tourne à ~20 tok/s sur un GPU milieu de gamme
✓Qwen 3 supporte nativement le tool calling via l'API Ollama standard — aucun Modelfile personnalisé requis

Oui — voici ce qui est disponible

En mai 2026, Ollama supporte toutes les tailles majeures de Qwen 3, de 0.6B à 72B. Téléchargez n'importe quelle taille avec une seule commande : ollama run qwen3:8b. Remplacez 8b par 0.6b, 1.5b, 3b, 14b, 32b ou 72b pour d'autres tailles.

Chaque taille est disponible en plusieurs quantisations. Q4_K_M est la quantisation par défaut et recommandée — elle offre le meilleur rapport qualité/taille de fichier. Q8_0 est disponible pour les 7B et 14B si vous disposez de marge VRAM.

Le tool calling est supporté nativement sur toutes les tailles de Qwen 3 via l'API Ollama standard. Aucun Modelfile personnalisé ni template de prompt spécial n'est requis.

ollama run qwen3:8b

Quelle taille de Qwen 3 choisir

La bonne taille de Qwen 3 dépend entièrement de la VRAM disponible. Pour la plupart des utilisateurs avec un GPU milieu de gamme (6–8 Go de VRAM), le modèle 7B en Q4_K_M est le choix pratique — il nécessite ~6 Go et tourne à ~20 tok/s.

Le modèle 14B en Q4 est la référence recommandée pour le code : il surpasse le 7B en génération de code et tient confortablement dans 10–12 Go de VRAM. Pour une comparaison complète des performances de codage de Qwen 3 face aux autres modèles locaux, consultez le guide pour exécuter Qwen localement en 2026.

VRAM	Taille Qwen 3	Idéal pour
< 4 GB	0.6B / 1.5B	Appareils edge, tests, CPU uniquement
4–6 GB	3B	GPU entrée de gamme ou CPU faible RAM
6–12 GB	7B / 14B	Usage général et programmation
12–24 GB	14B / 32B	Programmation et raisonnement avancés
40+ GB	72B	Qualité locale proche du frontier

Réponses rapides sur Qwen 3 avec Ollama

Comment installer Qwen 3 sur Ollama ?▾

Exécutez ollama run qwen3:8b dans un terminal. Ollama télécharge le modèle automatiquement au premier lancement. Remplacez 8b par la taille souhaitée : 0.6b, 1.5b, 3b, 14b, 32b ou 72b.

Qwen 3 est-il meilleur que Llama 3 pour le code ?▾

Pour le code : oui, Qwen 3 14B surpasse Llama 3 8B sur les benchmarks HumanEval. Pour la conversation générale au niveau 8B : Llama 3 8B reste compétitif. Pour les meilleures recommandations Ollama toutes tâches confondues, consultez les meilleurs modèles Ollama en ce moment.

Qwen 3 supporte-t-il le tool calling sur Ollama ?▾

Oui. Qwen 3 supporte les function calls et le tool calling nativement via l'API Ollama standard. Aucun Modelfile personnalisé ni configuration spéciale n'est requis — il fonctionne avec tout client supportant le format tool-use d'Ollama.

Peut-on exécuter Qwen 3 72B sur du matériel grand public ?▾

Techniquement oui, mais cela nécessite ~40 Go de VRAM en Q4 — soit un setup double GPU (deux RTX 3090) ou un Mac Apple M-series avec 64+ Go de mémoire unifiée. La plupart des configurations grand public sont limitées au tier 32B.

← Retour aux Prompt Bites