Points clés
- Deux approches : Ollama (CLI, headless, prêt pour l'API) ou LM Studio (GUI, sans CLI). Les deux exécutent Qwen 3.6 27B localement.
- Correction critique : Ollama utilise `num_ctx 2048` par défaut. Définissez `num_ctx 32768` dans votre Modelfile.
- Matériel : 16 Go VRAM minimum (RTX 4080). Apple Silicon M4 Pro (48 Go) ou M5 Max (128 Go) sont les options d'inférence hébergées en UE recommandées.
- RGPD : une fois exécuté localement, aucune donnée ne quitte votre machine. Aucune SCC ni accord de traitement de données n'est requis au-delà de votre propre politique d'infrastructure.
- Intégration PromptQuorum : définissez `OLLAMA_BASE_URL=http://localhost:11434/v1` et `LOCAL_LLM_MODEL=qwen3:27b` dans les paramètres de dispatch local de PromptQuorum — distinct de la configuration API Anthropic.
Pourquoi exécuter Qwen localement en 2026
Exécuter Qwen 3 localement en 2026 signifie payer 0 € par token pour un modèle atteignant 92,1 % sur HumanEval — comparable ou supérieur à Claude Sonnet 4.6 sur les tâches de codage. Une fois le matériel amorti, chaque requête est gratuite. Pour une équipe de développement de cinq personnes générant 10 millions de tokens par jour, l'inférence locale économise ~830 €/mois par rapport aux tarifs de l'API Claude Sonnet 4.6.
La conformité RGPD est le deuxième facteur. L'article 44 du RGPD restreint les transferts de données vers des pays tiers. Lorsque vous exécutez Qwen localement sur du matériel UE, vos requêtes, votre code et vos données clients ne quittent jamais votre infrastructure. Aucun accord de traitement de données avec des fournisseurs américains ou chinois n'est requis, aucune évaluation du risque Schrems II, aucune analyse d'impact sur la protection des données pour la couche IA. La CNIL recommande le traitement local pour les données personnelles dès lors qu'une solution technique équivalente existe.
La troisième raison est la latence. L'inférence locale sur une RTX 4090 génère 35+ tokens/seconde — comparable aux temps de réponse API pour les requêtes courtes, sans latence réseau pour les complétions plus longues.
📍 En une phrase
Exécuter Qwen 3.6 27B localement coûte 0 € par token après le matériel, conserve toutes les données sur l'infrastructure UE et délivre 35+ tokens/seconde sur une RTX 4090.
💬 En termes simples
Un LLM local signifie que le modèle d'IA s'exécute sur votre propre ordinateur. Vous téléchargez le fichier modèle (environ 17 Go pour Qwen 3.6 27B) et chaque requête est traitée entièrement sur votre machine — rien n'est envoyé à un serveur externe.
Choisir votre modèle Qwen
Qwen 3 est disponible en plusieurs tailles. Choisissez en fonction de votre VRAM et de la qualité requise. Toutes les tailles sont disponibles sur Hugging Face (Qwen) et via Ollama avec des tags explicites.
| Modèle | VRAM | Tokens/sec (RTX 4090) | Recommandé pour |
|---|---|---|---|
| Qwen 3.6 27B Q4_K_M | 16 Go | ~35 | Codage en production, tâches complexes |
| Qwen 3.6 27B Q8_0 | 28 Go | ~20 | Qualité maximale, double GPU |
| Qwen 3 14B Q4_K_M | 9 Go | ~60 | 8–12 Go VRAM, tâches générales |
| Qwen 3 7B Q4_K_M | 5 Go | ~80 | VRAM limité, complétions rapides |
| Qwen 3 72B Q4_K_M | 42 Go | — | Qualité maximale, Apple Silicon 96 Go+ |
Q4_K_M est la quantification recommandée pour la plupart des utilisateurs — meilleur rapport qualité/taille. Q8_0 offre une meilleure qualité à un coût VRAM plus élevé. Utilisez toujours le tag explicite (qwen3:27b, pas qwen3) pour vous assurer de télécharger le modèle 27B.
Configuration matérielle
- Minimum (Qwen 3.6 27B) : GPU avec 16 Go VRAM — RTX 4080, RTX 4070 Ti Super ou RTX 3090
- GPU recommandé : RTX 4090 (24 Go VRAM) — exécute Q4_K_M à 35 tokens/sec avec 8 Go de marge
- Apple Silicon M3/M4 (actuel) : M3 Max ou M4 Pro avec 48 Go de mémoire unifiée — silencieux, économe en énergie, 40+ tokens/sec via MLX
- Mac Mini M4 Pro (48 Go) : ~1 599 € en boutique, format compact, meilleur TCO pour déploiement en bureau UE
- Apple Silicon M5 Pro (64 Go) : prochaine génération, 307 Go/s de bande passante mémoire — exécute Qwen 3.6 27B à environ 50+ tokens/sec. Apple annonce un traitement des prompts LLM 4× plus rapide que M4.
- Apple Silicon M5 Max (128 Go) : 460–614 Go/s de bande passante mémoire — exécute Qwen 3 72B Q4_K_M confortablement avec de la marge. Attendu mi-2026 dans le Mac Studio ; le Mac Mini actuel est livré avec M4 Pro.
- RAM : 32 Go de RAM système minimum en complément de l'inférence GPU ; 64 Go recommandés avec un environnement de développement complet
- Stockage : 20 Go d'espace disque libre pour Qwen 3.6 27B Q4_K_M (fichier GGUF ~17 Go)
📌Note: La mémoire unifiée Apple Silicon est partagée entre CPU et GPU. Un Mac avec 48 Go de mémoire unifiée peut exécuter Qwen 3.6 27B Q4_K_M avec de la marge pour l'OS et les autres applications. C'est l'option d'inférence hébergée en UE la plus pratique dans un seul appareil compact.
💡Tip: Le M5 Max (128 Go) est la première configuration Apple Silicon où Qwen 3 72B fonctionne à vitesse de production. Si vous traitez de très longs contextes ou avez besoin d'une qualité maximale pour des charges de travail réglementées UE, le Mac Studio M5 Max est la recommandation pour un seul appareil.
Configuration avec Ollama
Ollama est le moyen le plus rapide d'exécuter Qwen 3 localement. Il gère les téléchargements de modèles, fournit une API compatible OpenAI sur localhost:11434, et gère automatiquement la quantification. Installez-le depuis ollama.com.
- 1Installer Ollama
Why it matters: Ollama gère les téléchargements de modèles, le format GGUF et fournit une API locale compatible OpenAI. - 2Télécharger Qwen 3.6 27B avec le tag explicite
Why it matters: Utilisez qwen3:27b explicitement. Le tag simple `qwen3` télécharge par défaut le modèle 8B — pas le modèle 27B ciblé dans ce guide. - 3Créer un Modelfile avec la longueur de contexte correcte
Why it matters: Le num_ctx par défaut de 2 048 tokens est trop petit pour les tâches de codage réelles. 32 768 tokens couvrent la plupart des fichiers et conversations. - 4Construire le modèle personnalisé et le lancer
Why it matters: Crée une instance Qwen 3.6 27B avec la fenêtre de contexte étendue. Vérifiez avec une requête de test. - 5Tester l'endpoint API
Why it matters: Ollama expose une API compatible OpenAI sur localhost:11434/v1. Utilisez cet endpoint pour connecter des clients LLM, des IDE et PromptQuorum.
# Step 1 — Install Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — download from https://ollama.com/download
# Step 2 — Pull Qwen 3.6 27B (explicit tag required)
ollama pull qwen3:27b
# Downloads Qwen 3.6 27B Q4_K_M (~17 GB)
# Note: 'ollama pull qwen3' without a tag downloads the 8B model
# Step 3 — Create Modelfile with correct num_ctx
cat > Modelfile <<'EOF'
FROM qwen3:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF
# Step 4 — Build and run
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k
# Expected output (Qwen working correctly):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
# return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.
# Step 5 — Test API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32k",
"messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
}'⚠️Warning: Ne sautez pas l'étape 3. Le num_ctx par défaut d'Ollama est 2 048 tokens — environ 1 500 mots. La plupart des tâches de codage (lire un fichier, expliquer une fonction, écrire des tests) nécessitent 8 000–32 000 tokens de contexte. Sans cette correction, Qwen tronque silencieusement vos requêtes et produit des résultats dégradés.
Configuration avec LM Studio
LM Studio fournit une interface graphique pour exécuter des LLM locaux sans commandes CLI. C'est la solution recommandée pour les utilisateurs non techniques ou les configurations Windows. Téléchargez depuis lmstudio.ai.
- 1Télécharger et installer LM Studio
Why it matters: Interface graphique gratuite et multiplateforme pour l'inférence LLM locale. Aucun CLI requis. - 2Rechercher et télécharger Qwen 3 27B
Why it matters: Le navigateur de modèles de LM Studio recherche sur Hugging Face. Cherchez « Qwen 3 27B » et sélectionnez la variante GGUF Q4_K_M pour 16 Go VRAM. - 3Configurer la longueur de contexte dans les paramètres LM Studio
Why it matters: Même problème de num_ctx qu'avec Ollama — changez la longueur de contexte à 32 768 dans les paramètres du modèle avant le chargement. - 4Démarrer le serveur local
Why it matters: Le bouton « Démarrer le serveur » de LM Studio crée une API compatible OpenAI sur localhost:1234. Utilisez cette URL dans les clients et PromptQuorum.
// LM Studio local server config (exported JSON)
{
"model": "qwen3-27b-q4_k_m",
"server": {
"host": "localhost",
"port": 1234,
"cors": true
},
"inference": {
"context_length": 32768,
"temperature": 0.7,
"gpu_layers": -1
}
}Connexion à PromptQuorum
PromptQuorum distribue les requêtes sur plusieurs LLM. Pour utiliser votre instance Qwen locale comme cible de dispatch, configurez l'endpoint LLM local de PromptQuorum pour qu'il pointe vers votre serveur Ollama.
Il s'agit de l'endpoint Ollama (compatible OpenAI) — distinct de la configuration API Anthropic utilisée pour Claude. Les deux peuvent être actifs simultanément, PromptQuorum acheminant les requêtes selon le type de tâche et la sensibilité des données.
📍 En une phrase
Connectez PromptQuorum à Qwen local en définissant OLLAMA_BASE_URL sur http://localhost:11434/v1 et LOCAL_LLM_MODEL sur qwen3:27b dans les paramètres de dispatch local.
# PromptQuorum dispatch config — local Qwen via Ollama
# Set in your .env or PromptQuorum settings panel
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3:27b
# Example routing rules (PromptQuorum dispatch):
# - task_type: code → model: qwen3:27b (local Ollama, GDPR-safe)
# - task_type: analysis → model: claude-sonnet-4-6 (Anthropic API, separate config)
# - task_type: private → model: qwen3:27b (local Ollama, no cloud egress)Résolution des problèmes
- La réponse du modèle est coupée en milieu de phrase : num_ctx est trop faible. Recréez votre Modelfile avec `PARAMETER num_ctx 32768` et recréez le modèle avec `ollama create`.
- Erreur CUDA out of memory : le modèle ne tient pas dans votre VRAM. Passez à Qwen 3 14B Q4_K_M (~9 Go VRAM) ou essayez une quantification Q3_K_S du 27B.
- L'API Ollama renvoie 404 : vérifiez que le nom du modèle correspond exactement. Exécutez `ollama list` pour voir les modèles disponibles. Utilisez le nom exact affiché (ex. `qwen3-32k`).
- Génération lente (< 5 tokens/sec) : les layers GPU ne sont pas entièrement déchargés. Exécutez `ollama run qwen3-32k` et vérifiez que `num_gpu_layers` est maximisé. Assurez-vous qu'aucun autre processus gourmand en GPU ne tourne.
- LM Studio affiche « échec du chargement du modèle » : VRAM insuffisant. Réduisez la longueur de contexte Q4_K_M à 16 384 ou passez à Qwen 3 14B.
- PromptQuorum renvoie une erreur d'authentification : définissez `OLLAMA_BASE_URL=http://localhost:11434/v1` dans les paramètres LLM local de PromptQuorum. Si le formulaire exige une clé, saisissez n'importe quelle chaîne non vide — Ollama ne requiert pas d'authentification par clé API.
- Ollama utilise le CPU au lieu du GPU : sur NVIDIA, vérifiez que les pilotes CUDA sont installés (`nvidia-smi` doit afficher le GPU). Sur Mac, Ollama utilise Metal automatiquement — aucune configuration nécessaire. Si Metal n'est pas actif, réinstallez Ollama depuis ollama.com.
- Le téléchargement du modèle s'arrête ou échoue : les grands modèles (Qwen 3.6 27B ~17 Go) peuvent expirer sur les connexions lentes. Exécutez à nouveau `ollama pull qwen3:27b` — Ollama reprend là où il s'est arrêté. Sinon, téléchargez le GGUF directement depuis Hugging Face et utilisez `ollama create` avec un chemin local dans la clause FROM du Modelfile.
💡Tip: Exécutez `ollama ps` pour voir quels modèles sont actuellement chargés en VRAM et combien de mémoire chacun consomme. Utilisez `ollama stop qwen3-32k` pour décharger un modèle avant de passer à un plus grand.
Consommation d'énergie et TCO
Le coût matériel est l'investissement unique. L'électricité est le coût récurrent. Le bon choix matériel dépend de votre tarif électrique et de votre localisation — en France, l'électricité coûte en moyenne ~0,25 €/kWh en 2026 (tarif réglementé EDF), comparé à ~0,35 €/kWh en Allemagne.
Un système RTX 4090 sous charge d'inférence consomme environ 450 W. En fonctionnant 8 heures/jour au tarif français : 0,45 kW × 8 h × 0,25 € × 250 jours ouvrés = 225 €/an d'électricité. Le matériel coûte ~2 200–2 500 € pour un système complet.
L'Apple Silicon M5 Max dans un Mac Studio consomme environ 40–50 W sous charge d'inférence LLM. Même scénario : 0,05 kW × 8 h × 0,25 € × 250 jours = 25 €/an d'électricité. Le matériel coûte ~3 000–4 000 € pour un Mac Studio M5 Max avec 128 Go.
Comparé à l'API Claude Sonnet 4.6 à 10 millions de tokens/jour pour un seul développeur : 10 M tokens × 3 $/1 M × 250 jours = 7 500 $/an (USD, facturé en dollars par Anthropic).
| Option | Matériel | Électricité/an (France) | Coût API/an (10 M tok/j) | Retour sur invest. |
|---|---|---|---|---|
| Claude Sonnet 4.6 API | — | — | 7 500 $ | — |
| Système RTX 4090 + Qwen local | 2 200 € | 225 € | 0 € | ~4 mois vs Claude |
| Mac Mini M4 Pro (48 Go) | 1 599 € | 18 € | 0 € | ~3 mois vs Claude |
| Mac Studio M5 Max (128 Go) | ~3 500 € | 25 € | 0 € | ~6 mois vs Claude |
•Important: Pour les équipes UE, le Mac Mini M4 Pro (48 Go) offre le meilleur TCO : coût combiné matériel et électricité le plus faible, conformité RGPD by design et fonctionnement silencieux en environnement de bureau. Le Mac Studio M5 Max est la voie d'évolution pour les équipes nécessitant la qualité de Qwen 3 72B.
FAQ
Quel est le matériel minimum pour exécuter Qwen 3 localement ?
Pour Qwen 3.6 27B en quantification Q4_K_M : 16 Go VRAM (RTX 4080 ou RTX 3090). Pour Apple Silicon : M3 Pro avec 36 Go de mémoire unifiée ou M3 Max avec 48 Go. Pour le plus petit Qwen 3 14B : 9 Go VRAM (RTX 3080 ou RTX 4070). Qwen 3 7B fonctionne sur 5 Go VRAM (GTX 1080 ou mieux).
Pourquoi Ollama tronque-t-il mes requêtes ?
Ollama utilise num_ctx 2 048 tokens par défaut (~1 500 mots). C'est insuffisant pour la plupart des tâches de codage réelles. Vous devez définir num_ctx à au moins 32 768 dans votre Modelfile. Créez un Modelfile avec `PARAMETER num_ctx 32768`, puis exécutez `ollama create qwen3-32k -f Modelfile` pour créer une instance avec la fenêtre de contexte correcte.
L'exécution locale de Qwen est-elle conforme au RGPD ?
Oui — l'inférence locale est l'architecture IA la plus conforme au RGPD. Lorsque Qwen s'exécute sur votre matériel, aucune donnée n'est transmise à un tiers. Les restrictions de l'article 44 du RGPD sur les transferts internationaux ne s'appliquent pas car il n'y a pas de transfert. Votre accord de traitement interne s'applique, mais aucune SCC ni décision d'adéquation n'est nécessaire pour la couche IA.
Qwen 3 peut-il fonctionner uniquement sur CPU ?
Oui, via llama.cpp ou Ollama sur un système sans GPU. L'inférence CPU est nettement plus lente — typiquement 1–5 tokens/seconde pour Qwen 3.6 27B sur un CPU moderne. Pour un usage en production, GPU ou Apple Silicon est requis. Pour des tests occasionnels sur un ordinateur portable sans GPU dédié, l'inférence CPU fonctionne mais reste impraticable pour la conversation en temps réel.
Comment mettre à jour Qwen vers la dernière version ?
Exécutez à nouveau `ollama pull qwen3:27b`. Ollama vérifie si une version plus récente est disponible et télécharge uniquement les layers modifiés. Vous n'avez pas besoin de recréer votre Modelfile — le tag (qwen3:27b) pointe toujours vers la dernière version 27B. Dans LM Studio, vérifiez les mises à jour dans la bibliothèque de modèles et téléchargez à nouveau si une version GGUF plus récente est disponible.