Points clés
- Qwen2.5 7B tourne avec 5,5 Go de VRAM — une commande `ollama pull qwen2.5:7b` suffit ; 57 tokens/s sur RTX 3060.
- Trois sous-familles distinctes : Qwen2.5 (usage général), Qwen2.5-Coder (code, 92,7 % HumanEval en 32B), Qwen2-VL (vision, meilleur OCR CJK local).
- Architecture dense = compatible matériel grand public : contrairement au modèle MoE 236B de DeepSeek (~130 Go RAM), Qwen2.5 72B tient en 46 Go VRAM sur deux RTX 3090.
- Multilinguisme natif : pré-entraîné sur le chinois, le japonais, le coréen, l'arabe, le français et 24 autres langues.
- Q4_K_M est la bonne quantification pour la plupart des utilisateurs : ~55 % de réduction VRAM, moins de 1 % de perte de qualité.
- Décision matérielle : 12 Go VRAM → modèle 14B ; 24 Go → 32B ; 48 Go+ → 72B.
📍 En une phrase
Qwen2.5 couvre trois sous-familles de déploiement local — usage général (7B–72B), code (Coder 7B–32B) et vision (VL 7B–72B) — toutes exécutables via Ollama ou LM Studio.
💬 En termes simples
Faire tourner un modèle en local signifie que l'IA s'exécute sur votre propre ordinateur, sans serveur cloud. Aucune donnée ne quitte votre machine, et il n'y a aucun coût par token après l'achat du matériel.
Famille de modèles Qwen2.5
La famille Qwen2.5 couvre trois usages distincts : raisonnement général, code et vision — chacun disponible en plusieurs tailles de 7B à 72B paramètres. Tous sont des modèles open-weight publiés par l'équipe Qwen d'Alibaba sous licence Apache 2.0.
| Sous-famille | Tailles disponibles | Usage principal | Préfixe tag Ollama |
|---|---|---|---|
| Qwen2.5 | 7B, 14B, 32B, 72B | Raisonnement général, tâches chinoises/multilingues, RAG | qwen2.5: |
| Qwen2.5-Coder | 7B, 14B, 32B | Génération de code, débogage, HumanEval, SWE-bench | qwen2.5-coder: |
| Qwen2-VL | 2B, 7B, 72B | OCR de documents, Q&A sur images, extraction de texte CJK | qwen2-vl: |
Qwen3 (sorti Q1 2026) ajoute des modèles en mode réflexion, mais dispose de moins de builds GGUF et d'une moindre couverture Ollama que Qwen2.5 en mai 2026. Ce guide se concentre sur Qwen2.5, qui offre la compatibilité matérielle la plus large.
Exigences matérielles par taille de modèle
Choisissez d'abord votre niveau VRAM, puis le plus grand modèle Qwen2.5 qui y tient. Q4_K_M est la quantification standard pour toutes les valeurs ci-dessous.
| Modèle | VRAM | GPU minimum | Apple Silicon | Vitesse (RTX 3060) |
|---|---|---|---|---|
| Qwen2.5 7B Q4_K_M | 5,5 Go | RTX 3060 6 Go, RTX 4060 | M1/M2 8 Go | ~57 tokens/s |
| Qwen2.5-Coder 7B Q4_K_M | 5,5 Go | RTX 3060 6 Go, RTX 4060 | M1/M2 8 Go | ~55 tokens/s |
| Qwen2-VL 7B Q4_K_M | 6,2 Go | RTX 3060 8 Go, RTX 4060 | M1/M2 16 Go | — |
| Qwen2.5 14B Q4_K_M | 9,5 Go | RTX 4070 12 Go | M2 Pro 16 Go | — |
| Qwen2.5-Coder 14B Q4_K_M | 9,5 Go | RTX 4070 12 Go | M2 Pro 16 Go | — |
| Qwen2.5 32B Q4_K_M | 20,5 Go | RTX 3090 24 Go | M3 Max 48 Go | — |
| Qwen2.5-Coder 32B Q4_K_M | 20,5 Go | RTX 3090 24 Go | M3 Max 48 Go | — |
| Qwen2.5 72B Q4_K_M | 46 Go | 2× RTX 3090 (48 Go) | M2 Ultra 64 Go | — |
Les valeurs VRAM concernent les fichiers GGUF Q4_K_M de la bibliothèque Ollama. Ajoutez 1–2 Go pour le cache KV à 4K de contexte. Si le GPU a moins de VRAM que nécessaire, Ollama décharge automatiquement des couches en RAM système — fonctionnel mais beaucoup plus lent.
Configuration avec Ollama
Ollama est la solution la plus rapide pour déployer localement n'importe quel modèle Qwen2.5. Il gère le téléchargement, la quantification GGUF et expose une API à `localhost:11434`. Installez-le depuis ollama.com. Si vous débutez avec Ollama : comment installer Ollama.
- 1Installer Ollama
Why it matters: Disponible pour macOS, Linux (installation en une ligne) et Windows. Ollama détecte automatiquement CUDA, ROCm et Metal. - 2Télécharger le modèle avec un tag de taille explicite
Why it matters: Toujours préciser la taille : `qwen2.5:7b`, `qwen2.5:14b`, `qwen2.5:32b`. Le tag non spécifié `qwen2.5` peut changer entre les versions d'Ollama. - 3Exécuter le modèle
Why it matters: `ollama run qwen2.5:7b` ouvre un chat interactif. Saisir la commande et appuyer sur Entrée. Quitter avec `/bye`. - 4Ajuster la fenêtre de contexte si nécessaire
Why it matters: Qwen2.5 supporte 32K de contexte par défaut dans Ollama. Pour 128K : `ollama run qwen2.5:7b --num-ctx 131072`. Cela nécessite davantage de VRAM. - 5Tester le point de terminaison API
Why it matters: Ollama expose une API compatible OpenAI. Les applications comme PromptQuorum et Continue.dev se connectent directement à `http://localhost:11434/v1`.
# Installer Ollama (Linux)
curl -fsSL https://ollama.com/install.sh | sh
# macOS : télécharger le .dmg ou :
brew install ollama
# Télécharger les modèles — tags explicites requis
ollama pull qwen2.5:7b # usage général 7B (~5,5 Go)
ollama pull qwen2.5:14b # 14B (~9,5 Go)
ollama pull qwen2.5:32b # 32B (~20,5 Go)
ollama pull qwen2.5-coder:32b # code 32B (~20,5 Go)
ollama pull qwen2-vl:7b # vision 7B (~6,2 Go)
# Exécuter en mode interactif
ollama run qwen2.5:7b
# Tester l'API compatible OpenAI
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"Bonjour"}]}'Configuration avec LM Studio
LM Studio offre une interface graphique pour Qwen2.5 sans commandes terminal. Téléchargement sur lmstudio.ai ou voir comment installer LM Studio. Disponible sur macOS, Windows et Linux.
- 1Ouvrir le navigateur de modèles
Why it matters: Rechercher « Qwen2.5 » ou « Qwen Coder ». Filtrer sur Q4_K_M pour le meilleur rapport qualité/taille. - 2Télécharger un build GGUF
Why it matters: Sélectionner la variante Q4_K_M. LM Studio affiche la taille du fichier avant le téléchargement. - 3Charger le modèle et démarrer le chat
Why it matters: Cliquer sur le modèle dans la barre latérale gauche. L'allocation des couches GPU est automatique. - 4Démarrer le serveur local
Why it matters: « Démarrer le serveur » expose une API compatible OpenAI sur `localhost:1234`.
Quantification : quel format choisir ?
Q4_K_M est le bon choix par défaut pour Qwen2.5 sur matériel grand public. Il réduit le VRAM de ~55–60 % par rapport au FP16 avec moins de 1 % de dégradation sur MMLU et HumanEval.
📍 En une phrase
Q4_K_M est la meilleure quantification Qwen2.5 pour la plupart des utilisateurs : 55 % de réduction VRAM avec moins de 1 % de perte de qualité vs FP16.
💬 En termes simples
La quantification compresse les nombres du modèle de 16 bits à 4 bits, réduisant environ de moitié la taille du fichier et le VRAM nécessaire — comme passer d'un TIFF à un JPEG haute qualité.
- Q4_K_M (recommandé) : ~5,5 Go pour 7B. Meilleur rapport qualité par Go.
- Q8_0 : ~8,5 Go pour 7B. Qualité quasi-FP16 ; utiliser si vous avez du VRAM disponible.
- Q5_K_M : ~6,5 Go pour 7B. Amélioration marginale par rapport à Q4_K_M.
- Q2_K : ~3 Go pour 7B. La qualité en langue chinoise se dégrade notablement — à éviter pour les usages CJK.
- IQ4_XS : ~4,8 Go pour 7B. Meilleure qualité que Q4_K_M à taille légèrement inférieure — disponible dans les versions récentes de llama.cpp et LM Studio 0.3+.
Performances benchmark sur matériel grand public
Qwen2.5 32B Q4_K_M sur RTX 4090 : 28 tokens/s — assez rapide pour l'assistance au code en temps réel. Scores ci-dessous pour les builds GGUF Q4_K_M testés sur Ollama.
| Modèle (Q4_K_M) | MMLU | Math | HumanEval | Vitesse (RTX 3060 12 Go) |
|---|---|---|---|---|
| Qwen2.5 7B | 74,2 % | 58,8 % | 57,3 % | 57 tokens/s |
| Qwen2.5 14B | 79,9 % | 69,8 % | 64,6 % | — |
| Qwen2.5 32B | 83,3 % | 79,5 % | 71,3 % | — |
| Qwen2.5 72B | 86,1 % | 83,1 % | 73,2 % | — |
| Qwen2.5-Coder 7B | — | — | 75,6 % | 55 tokens/s |
| Qwen2.5-Coder 14B | — | — | 85,2 % | — |
| Qwen2.5-Coder 32B | — | — | 92,7 % | — |
Qwen vs DeepSeek vs Llama : que déployer localement ?
Qwen2.5 gagne sur les tâches en langue chinoise et l'efficacité VRAM ; DeepSeek-V2.5 gagne sur le raisonnement à grande échelle mais est impraticable sur matériel grand public ; Llama 3.3 70B est la meilleure option monoGPU si vous préférez le modèle ouvert de Meta.
| Niveau VRAM | Meilleur Qwen | Meilleur concurrent | Recommandation |
|---|---|---|---|
| 6 Go | Qwen2.5 7B | Llama 3.2 3B | Qwen2.5 7B — même VRAM, modèle beaucoup plus grand |
| 12 Go | Qwen2.5-Coder 14B | Llama 3.3 8B Instruct | Qwen2.5-Coder 14B pour le code ; Llama 3.3 8B pour le chat |
| 24 Go | Qwen2.5-Coder 32B | Llama 3.3 70B (déchargé) | Qwen2.5-Coder 32B pour le code ; Llama 3.3 70B si qualité > vitesse |
| 48 Go+ | Qwen2.5 72B | DeepSeek-V2.5 236B MoE | DeepSeek nécessite ~130 Go RAM ; Qwen2.5 72B est le choix pratique |
Contexte réglementaire : RGPD et CNIL
Déployer Qwen2.5 en local signifie qu'aucune donnée ne quitte votre machine — aucun transfert vers un serveur cloud étranger. Les API LLM cloud exigent l'envoi de prompts vers des serveurs étrangers, ce qui déclenche l'article 28 du RGPD (sous-traitant) et potentiellement les articles 44 et suivants (transferts hors UE).
Qwen2.5 a été entraîné par l'équipe Qwen d'Alibaba sur un corpus principalement chinois et multilingue. C'est le modèle localement déployable le plus performant pour le chinois simplifié, le traditionnel et les documents mixtes chinois/anglais/français.
Pour les déploiements professionnels : la CNIL recommande le traitement local des données personnelles sensibles dans les secteurs réglementés (médical, juridique, financier) lorsque cela est techniquement possible. Un déploiement Qwen2.5 sans connexion internet pendant l'inférence est entièrement conforme au RGPD. Guide complet pour les setups hors ligne : IA locale entièrement hors ligne.
📍 En une phrase
Qwen2.5 fonctionne entièrement hors ligne après téléchargement — aucune donnée ne quitte votre appareil, éliminant les risques de transfert transfrontalier sous le RGPD.
💬 En termes simples
En mode local, vos prompts et documents ne quittent jamais votre ordinateur. Aucun appel API cloud, aucun serveur externe, aucune donnée accessible à des tiers ou régulateurs.
Recommandations matérielles par budget
La RTX 3060 12 Go est la meilleure entrée de gamme pour Qwen2.5 7B et Qwen2.5-Coder 7B à moins de env. 270–330 €. Pour les modèles 14B, la RTX 4070 12 Go offre +35 % de vitesse à env. 490–560 €.
- Entrée de gamme (Qwen2.5 7B) : NVIDIA RTX 4060 8 Go ou RTX 3060 12 Go. Les deux gèrent les modèles 7B à 50–57 tokens/s. La RTX 3060 12 Go est souvent moins chère en occasion et offre plus de VRAM.
- Milieu de gamme (Qwen2.5 14B) : RTX 4070 12 Go ou RTX 4070 Super 12 Go. Le 4070 Super exécute Qwen2.5-Coder 14B à 38–42 tokens/s avec 2–3 Go de VRAM disponible pour le contexte.
- Haut de gamme (Qwen2.5 32B) : RTX 4090 24 Go ou RTX 3090 24 Go. La 4090 offre 27–28 tokens/s sur Qwen2.5-Coder 32B. La 3090 est nettement moins chère d'occasion.
- Apple Silicon (toutes tailles) : Mac mini M4 Pro 48 Go — meilleur rapport qualité/prix pour Qwen2.5 32B (~22 tokens/s) avec une consommation électrique faible.
- Mini-PC usage permanent : MINISFORUM UM890 Pro ou similaire. Exécute Qwen2.5 7B sur CPU+iGPU à ~8–12 tokens/s — lent mais disponible 24/7 sous 35 W.
Erreurs courantes avec Qwen2.5 en local
- Utiliser `ollama pull qwen2.5` sans tag de taille. Sans tag explicite (`:7b`, `:14b`, etc.), Ollama peut résoudre vers une taille par défaut qui change entre les mises à jour. Toujours utiliser des tags explicites.
- Ignorer la taille de la fenêtre de contexte. Qwen2.5 supporte 128K de contexte, mais Ollama utilise 2K par défaut pour `num_ctx`. Pour les documents longs, ajouter `--num-ctx 8192` (ou plus).
- Choisir la quantification Q2_K pour du chinois. À 2 bits, la sortie en langue chinoise de Qwen2.5 se dégrade notablement. Utiliser au minimum Q4_K_M pour tout travail en CJK.
- Exécuter le modèle 32B avec trop peu de VRAM. Si votre GPU a 16 Go et que le modèle en nécessite 20,5 Go, Ollama décharge des couches en RAM — le modèle tourne à 3–5 tokens/s, inutilisable en interactif.
- Utiliser la mauvaise sous-famille pour le code. Qwen2.5 7B (usage général) : 57,3 % sur HumanEval. Qwen2.5-Coder 7B : 75,6 % — soit +32 % de performance relative. Toujours utiliser la variante Coder pour le code.
Questions fréquentes
Quelle quantité de VRAM est nécessaire pour Qwen2.5 7B en local ?
Qwen2.5 7B Q4_K_M nécessite 5,5 Go de VRAM. Une RTX 3060 6 Go, RTX 4060 ou puce Apple M avec 8 Go de mémoire unifiée suffisent.
Quel est le meilleur modèle Qwen pour le code en local ?
Qwen2.5-Coder 32B — 92,7 % sur HumanEval, GPU 24 Go requis. Avec 12 Go de VRAM : Qwen2.5-Coder 14B (85,2 %, 9,5 Go VRAM).
Comment Qwen se compare-t-il à DeepSeek ?
Qwen2.5 utilise une architecture dense compatible matériel grand public. DeepSeek-V2.5 nécessite ~130 Go RAM — inaccessible sans GPU serveur.
Puis-je utiliser Qwen sur un Mac ?
Oui. M2 Pro 32 Go : Qwen2.5 14B à ~32 tokens/s. M3 Max 64 Go : Qwen2.5 32B à ~22 tokens/s.
Quelle commande Ollama utiliser pour Qwen2.5 ?
`ollama pull qwen2.5:7b` pour 7B, `:14b` pour 14B, `:32b` pour 32B, ou `qwen2.5-coder:32b` pour la variante code. Toujours des tags explicites.
Qwen est-il adapté aux tâches en langue chinoise ?
Oui. Qwen2.5 supporte nativement le chinois simplifié, traditionnel, le japonais, le coréen et 24 autres langues.
Quelle quantification utiliser pour Qwen2.5 ?
Q4_K_M par défaut — ~55 % de réduction VRAM, moins de 1 % de perte de qualité vs FP16. Éviter Q2_K pour les usages en langue chinoise.
Qwen2-VL fonctionne-t-il pour l'OCR de documents chinois ?
Oui — `ollama pull qwen2-vl:7b`, ~6 Go VRAM, lectures jusqu'à 4096×4096 pixels en CJK.
Qwen2.5 est-il conforme au RGPD ?
En déploiement local, aucune donnée ne quitte votre serveur — pas de DPA requis selon l'article 28 du RGPD. La CNIL recommande le traitement local pour les données sensibles.
Qwen2.5 peut-il traiter des documents mixtes français-chinois ?
Oui. Qwen2.5 gère nativement le français et le chinois dans le même contexte. Pour l'OCR de documents mixtes, Qwen2-VL 7B est plus adapté.