Skip to main content
PromptQuorumPromptQuorum
Accueil/LLMs locaux/Guide de déploiement local Qwen 2026 : Qwen2.5, Coder et VL pour chaque niveau matériel
Qwen Models

Guide de déploiement local Qwen 2026 : Qwen2.5, Coder et VL pour chaque niveau matériel

·14 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Pour déployer Qwen2.5 7B en local, installez Ollama et exécutez `ollama pull qwen2.5:7b` — 5,5 Go de VRAM suffisent, 57 tokens/s sur une RTX 3060. Pour le code, utilisez Qwen2.5-Coder ; pour l'OCR de documents CJK, Qwen2-VL.

Qwen2.5 7B fonctionne en local avec 5,5 Go de VRAM via Ollama — une seule commande, aucune configuration. Qwen2.5-Coder 32B atteint 92,7 % sur HumanEval. Qwen2-VL 7B est le meilleur modèle de vision local pour l'OCR de documents chinois et japonais. Ce guide couvre l'ensemble de la famille Qwen : quel modèle utiliser selon votre niveau matériel, la configuration Ollama et LM Studio, les recommandations de quantification, les données de benchmark et la comparaison avec DeepSeek et Llama sur matériel grand public en 2026.

Présentation: Guide de déploiement local Qwen 2026 : Qwen2.5, Coder et VL pour chaque niveau matériel

La présentation ci-dessous couvre : la famille complète Qwen2.5 (7B à 72B), les exigences VRAM par niveau matériel, les données de benchmark pour Qwen2.5-Coder 32B et un tableau de décision Qwen vs DeepSeek vs Llama. Télécharger comme fiche de référence.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Qwen2.5 7B tourne avec 5,5 Go de VRAM — une commande `ollama pull qwen2.5:7b` suffit ; 57 tokens/s sur RTX 3060.
  • Trois sous-familles distinctes : Qwen2.5 (usage général), Qwen2.5-Coder (code, 92,7 % HumanEval en 32B), Qwen2-VL (vision, meilleur OCR CJK local).
  • Architecture dense = compatible matériel grand public : contrairement au modèle MoE 236B de DeepSeek (~130 Go RAM), Qwen2.5 72B tient en 46 Go VRAM sur deux RTX 3090.
  • Multilinguisme natif : pré-entraîné sur le chinois, le japonais, le coréen, l'arabe, le français et 24 autres langues.
  • Q4_K_M est la bonne quantification pour la plupart des utilisateurs : ~55 % de réduction VRAM, moins de 1 % de perte de qualité.
  • Décision matérielle : 12 Go VRAM → modèle 14B ; 24 Go → 32B ; 48 Go+ → 72B.

📍 En une phrase

Qwen2.5 couvre trois sous-familles de déploiement local — usage général (7B–72B), code (Coder 7B–32B) et vision (VL 7B–72B) — toutes exécutables via Ollama ou LM Studio.

💬 En termes simples

Faire tourner un modèle en local signifie que l'IA s'exécute sur votre propre ordinateur, sans serveur cloud. Aucune donnée ne quitte votre machine, et il n'y a aucun coût par token après l'achat du matériel.

Famille de modèles Qwen2.5

La famille Qwen2.5 couvre trois usages distincts : raisonnement général, code et vision — chacun disponible en plusieurs tailles de 7B à 72B paramètres. Tous sont des modèles open-weight publiés par l'équipe Qwen d'Alibaba sous licence Apache 2.0.

Sous-familleTailles disponiblesUsage principalPréfixe tag Ollama
Qwen2.57B, 14B, 32B, 72BRaisonnement général, tâches chinoises/multilingues, RAGqwen2.5:
Qwen2.5-Coder7B, 14B, 32BGénération de code, débogage, HumanEval, SWE-benchqwen2.5-coder:
Qwen2-VL2B, 7B, 72BOCR de documents, Q&A sur images, extraction de texte CJKqwen2-vl:

Qwen3 (sorti Q1 2026) ajoute des modèles en mode réflexion, mais dispose de moins de builds GGUF et d'une moindre couverture Ollama que Qwen2.5 en mai 2026. Ce guide se concentre sur Qwen2.5, qui offre la compatibilité matérielle la plus large.

Exigences matérielles par taille de modèle

Choisissez d'abord votre niveau VRAM, puis le plus grand modèle Qwen2.5 qui y tient. Q4_K_M est la quantification standard pour toutes les valeurs ci-dessous.

ModèleVRAMGPU minimumApple SiliconVitesse (RTX 3060)
Qwen2.5 7B Q4_K_M5,5 GoRTX 3060 6 Go, RTX 4060M1/M2 8 Go~57 tokens/s
Qwen2.5-Coder 7B Q4_K_M5,5 GoRTX 3060 6 Go, RTX 4060M1/M2 8 Go~55 tokens/s
Qwen2-VL 7B Q4_K_M6,2 GoRTX 3060 8 Go, RTX 4060M1/M2 16 Go
Qwen2.5 14B Q4_K_M9,5 GoRTX 4070 12 GoM2 Pro 16 Go
Qwen2.5-Coder 14B Q4_K_M9,5 GoRTX 4070 12 GoM2 Pro 16 Go
Qwen2.5 32B Q4_K_M20,5 GoRTX 3090 24 GoM3 Max 48 Go
Qwen2.5-Coder 32B Q4_K_M20,5 GoRTX 3090 24 GoM3 Max 48 Go
Qwen2.5 72B Q4_K_M46 Go2× RTX 3090 (48 Go)M2 Ultra 64 Go

Les valeurs VRAM concernent les fichiers GGUF Q4_K_M de la bibliothèque Ollama. Ajoutez 1–2 Go pour le cache KV à 4K de contexte. Si le GPU a moins de VRAM que nécessaire, Ollama décharge automatiquement des couches en RAM système — fonctionnel mais beaucoup plus lent.

Exigences VRAM Qwen2.5 par taille de modèle (Q4_K_M) — PromptQuorum 2026
Exigences VRAM Qwen2.5 par taille de modèle (Q4_K_M) — PromptQuorum 2026

Configuration avec Ollama

Ollama est la solution la plus rapide pour déployer localement n'importe quel modèle Qwen2.5. Il gère le téléchargement, la quantification GGUF et expose une API à `localhost:11434`. Installez-le depuis ollama.com. Si vous débutez avec Ollama : comment installer Ollama.

  1. 1
    Installer Ollama
    Why it matters: Disponible pour macOS, Linux (installation en une ligne) et Windows. Ollama détecte automatiquement CUDA, ROCm et Metal.
  2. 2
    Télécharger le modèle avec un tag de taille explicite
    Why it matters: Toujours préciser la taille : `qwen2.5:7b`, `qwen2.5:14b`, `qwen2.5:32b`. Le tag non spécifié `qwen2.5` peut changer entre les versions d'Ollama.
  3. 3
    Exécuter le modèle
    Why it matters: `ollama run qwen2.5:7b` ouvre un chat interactif. Saisir la commande et appuyer sur Entrée. Quitter avec `/bye`.
  4. 4
    Ajuster la fenêtre de contexte si nécessaire
    Why it matters: Qwen2.5 supporte 32K de contexte par défaut dans Ollama. Pour 128K : `ollama run qwen2.5:7b --num-ctx 131072`. Cela nécessite davantage de VRAM.
  5. 5
    Tester le point de terminaison API
    Why it matters: Ollama expose une API compatible OpenAI. Les applications comme PromptQuorum et Continue.dev se connectent directement à `http://localhost:11434/v1`.
bash
# Installer Ollama (Linux)
curl -fsSL https://ollama.com/install.sh | sh

# macOS : télécharger le .dmg ou :
brew install ollama

# Télécharger les modèles — tags explicites requis
ollama pull qwen2.5:7b           # usage général 7B (~5,5 Go)
ollama pull qwen2.5:14b          # 14B (~9,5 Go)
ollama pull qwen2.5:32b          # 32B (~20,5 Go)
ollama pull qwen2.5-coder:32b    # code 32B (~20,5 Go)
ollama pull qwen2-vl:7b          # vision 7B (~6,2 Go)

# Exécuter en mode interactif
ollama run qwen2.5:7b

# Tester l'API compatible OpenAI
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"Bonjour"}]}'

Configuration avec LM Studio

LM Studio offre une interface graphique pour Qwen2.5 sans commandes terminal. Téléchargement sur lmstudio.ai ou voir comment installer LM Studio. Disponible sur macOS, Windows et Linux.

  1. 1
    Ouvrir le navigateur de modèles
    Why it matters: Rechercher « Qwen2.5 » ou « Qwen Coder ». Filtrer sur Q4_K_M pour le meilleur rapport qualité/taille.
  2. 2
    Télécharger un build GGUF
    Why it matters: Sélectionner la variante Q4_K_M. LM Studio affiche la taille du fichier avant le téléchargement.
  3. 3
    Charger le modèle et démarrer le chat
    Why it matters: Cliquer sur le modèle dans la barre latérale gauche. L'allocation des couches GPU est automatique.
  4. 4
    Démarrer le serveur local
    Why it matters: « Démarrer le serveur » expose une API compatible OpenAI sur `localhost:1234`.

Quantification : quel format choisir ?

Q4_K_M est le bon choix par défaut pour Qwen2.5 sur matériel grand public. Il réduit le VRAM de ~55–60 % par rapport au FP16 avec moins de 1 % de dégradation sur MMLU et HumanEval.

📍 En une phrase

Q4_K_M est la meilleure quantification Qwen2.5 pour la plupart des utilisateurs : 55 % de réduction VRAM avec moins de 1 % de perte de qualité vs FP16.

💬 En termes simples

La quantification compresse les nombres du modèle de 16 bits à 4 bits, réduisant environ de moitié la taille du fichier et le VRAM nécessaire — comme passer d'un TIFF à un JPEG haute qualité.

  • Q4_K_M (recommandé) : ~5,5 Go pour 7B. Meilleur rapport qualité par Go.
  • Q8_0 : ~8,5 Go pour 7B. Qualité quasi-FP16 ; utiliser si vous avez du VRAM disponible.
  • Q5_K_M : ~6,5 Go pour 7B. Amélioration marginale par rapport à Q4_K_M.
  • Q2_K : ~3 Go pour 7B. La qualité en langue chinoise se dégrade notablement — à éviter pour les usages CJK.
  • IQ4_XS : ~4,8 Go pour 7B. Meilleure qualité que Q4_K_M à taille légèrement inférieure — disponible dans les versions récentes de llama.cpp et LM Studio 0.3+.

Performances benchmark sur matériel grand public

Qwen2.5 32B Q4_K_M sur RTX 4090 : 28 tokens/s — assez rapide pour l'assistance au code en temps réel. Scores ci-dessous pour les builds GGUF Q4_K_M testés sur Ollama.

Modèle (Q4_K_M)MMLUMathHumanEvalVitesse (RTX 3060 12 Go)
Qwen2.5 7B74,2 %58,8 %57,3 %57 tokens/s
Qwen2.5 14B79,9 %69,8 %64,6 %
Qwen2.5 32B83,3 %79,5 %71,3 %
Qwen2.5 72B86,1 %83,1 %73,2 %
Qwen2.5-Coder 7B75,6 %55 tokens/s
Qwen2.5-Coder 14B85,2 %
Qwen2.5-Coder 32B92,7 %
Scores benchmark Qwen2.5 (Q4_K_M) — PromptQuorum 2026
Scores benchmark Qwen2.5 (Q4_K_M) — PromptQuorum 2026

Qwen vs DeepSeek vs Llama : que déployer localement ?

Qwen2.5 gagne sur les tâches en langue chinoise et l'efficacité VRAM ; DeepSeek-V2.5 gagne sur le raisonnement à grande échelle mais est impraticable sur matériel grand public ; Llama 3.3 70B est la meilleure option monoGPU si vous préférez le modèle ouvert de Meta.

Niveau VRAMMeilleur QwenMeilleur concurrentRecommandation
6 GoQwen2.5 7BLlama 3.2 3BQwen2.5 7B — même VRAM, modèle beaucoup plus grand
12 GoQwen2.5-Coder 14BLlama 3.3 8B InstructQwen2.5-Coder 14B pour le code ; Llama 3.3 8B pour le chat
24 GoQwen2.5-Coder 32BLlama 3.3 70B (déchargé)Qwen2.5-Coder 32B pour le code ; Llama 3.3 70B si qualité > vitesse
48 Go+Qwen2.5 72BDeepSeek-V2.5 236B MoEDeepSeek nécessite ~130 Go RAM ; Qwen2.5 72B est le choix pratique

Contexte réglementaire : RGPD et CNIL

Déployer Qwen2.5 en local signifie qu'aucune donnée ne quitte votre machine — aucun transfert vers un serveur cloud étranger. Les API LLM cloud exigent l'envoi de prompts vers des serveurs étrangers, ce qui déclenche l'article 28 du RGPD (sous-traitant) et potentiellement les articles 44 et suivants (transferts hors UE).

Qwen2.5 a été entraîné par l'équipe Qwen d'Alibaba sur un corpus principalement chinois et multilingue. C'est le modèle localement déployable le plus performant pour le chinois simplifié, le traditionnel et les documents mixtes chinois/anglais/français.

Pour les déploiements professionnels : la CNIL recommande le traitement local des données personnelles sensibles dans les secteurs réglementés (médical, juridique, financier) lorsque cela est techniquement possible. Un déploiement Qwen2.5 sans connexion internet pendant l'inférence est entièrement conforme au RGPD. Guide complet pour les setups hors ligne : IA locale entièrement hors ligne.

📍 En une phrase

Qwen2.5 fonctionne entièrement hors ligne après téléchargement — aucune donnée ne quitte votre appareil, éliminant les risques de transfert transfrontalier sous le RGPD.

💬 En termes simples

En mode local, vos prompts et documents ne quittent jamais votre ordinateur. Aucun appel API cloud, aucun serveur externe, aucune donnée accessible à des tiers ou régulateurs.

Recommandations matérielles par budget

La RTX 3060 12 Go est la meilleure entrée de gamme pour Qwen2.5 7B et Qwen2.5-Coder 7B à moins de env. 270–330 €. Pour les modèles 14B, la RTX 4070 12 Go offre +35 % de vitesse à env. 490–560 €.

  • Entrée de gamme (Qwen2.5 7B) : NVIDIA RTX 4060 8 Go ou RTX 3060 12 Go. Les deux gèrent les modèles 7B à 50–57 tokens/s. La RTX 3060 12 Go est souvent moins chère en occasion et offre plus de VRAM.
  • Milieu de gamme (Qwen2.5 14B) : RTX 4070 12 Go ou RTX 4070 Super 12 Go. Le 4070 Super exécute Qwen2.5-Coder 14B à 38–42 tokens/s avec 2–3 Go de VRAM disponible pour le contexte.
  • Haut de gamme (Qwen2.5 32B) : RTX 4090 24 Go ou RTX 3090 24 Go. La 4090 offre 27–28 tokens/s sur Qwen2.5-Coder 32B. La 3090 est nettement moins chère d'occasion.
  • Apple Silicon (toutes tailles) : Mac mini M4 Pro 48 Go — meilleur rapport qualité/prix pour Qwen2.5 32B (~22 tokens/s) avec une consommation électrique faible.
  • Mini-PC usage permanent : MINISFORUM UM890 Pro ou similaire. Exécute Qwen2.5 7B sur CPU+iGPU à ~8–12 tokens/s — lent mais disponible 24/7 sous 35 W.

Erreurs courantes avec Qwen2.5 en local

  • Utiliser `ollama pull qwen2.5` sans tag de taille. Sans tag explicite (`:7b`, `:14b`, etc.), Ollama peut résoudre vers une taille par défaut qui change entre les mises à jour. Toujours utiliser des tags explicites.
  • Ignorer la taille de la fenêtre de contexte. Qwen2.5 supporte 128K de contexte, mais Ollama utilise 2K par défaut pour `num_ctx`. Pour les documents longs, ajouter `--num-ctx 8192` (ou plus).
  • Choisir la quantification Q2_K pour du chinois. À 2 bits, la sortie en langue chinoise de Qwen2.5 se dégrade notablement. Utiliser au minimum Q4_K_M pour tout travail en CJK.
  • Exécuter le modèle 32B avec trop peu de VRAM. Si votre GPU a 16 Go et que le modèle en nécessite 20,5 Go, Ollama décharge des couches en RAM — le modèle tourne à 3–5 tokens/s, inutilisable en interactif.
  • Utiliser la mauvaise sous-famille pour le code. Qwen2.5 7B (usage général) : 57,3 % sur HumanEval. Qwen2.5-Coder 7B : 75,6 % — soit +32 % de performance relative. Toujours utiliser la variante Coder pour le code.

Questions fréquentes

Quelle quantité de VRAM est nécessaire pour Qwen2.5 7B en local ?

Qwen2.5 7B Q4_K_M nécessite 5,5 Go de VRAM. Une RTX 3060 6 Go, RTX 4060 ou puce Apple M avec 8 Go de mémoire unifiée suffisent.

Quel est le meilleur modèle Qwen pour le code en local ?

Qwen2.5-Coder 32B — 92,7 % sur HumanEval, GPU 24 Go requis. Avec 12 Go de VRAM : Qwen2.5-Coder 14B (85,2 %, 9,5 Go VRAM).

Comment Qwen se compare-t-il à DeepSeek ?

Qwen2.5 utilise une architecture dense compatible matériel grand public. DeepSeek-V2.5 nécessite ~130 Go RAM — inaccessible sans GPU serveur.

Puis-je utiliser Qwen sur un Mac ?

Oui. M2 Pro 32 Go : Qwen2.5 14B à ~32 tokens/s. M3 Max 64 Go : Qwen2.5 32B à ~22 tokens/s.

Quelle commande Ollama utiliser pour Qwen2.5 ?

`ollama pull qwen2.5:7b` pour 7B, `:14b` pour 14B, `:32b` pour 32B, ou `qwen2.5-coder:32b` pour la variante code. Toujours des tags explicites.

Qwen est-il adapté aux tâches en langue chinoise ?

Oui. Qwen2.5 supporte nativement le chinois simplifié, traditionnel, le japonais, le coréen et 24 autres langues.

Quelle quantification utiliser pour Qwen2.5 ?

Q4_K_M par défaut — ~55 % de réduction VRAM, moins de 1 % de perte de qualité vs FP16. Éviter Q2_K pour les usages en langue chinoise.

Qwen2-VL fonctionne-t-il pour l'OCR de documents chinois ?

Oui — `ollama pull qwen2-vl:7b`, ~6 Go VRAM, lectures jusqu'à 4096×4096 pixels en CJK.

Qwen2.5 est-il conforme au RGPD ?

En déploiement local, aucune donnée ne quitte votre serveur — pas de DPA requis selon l'article 28 du RGPD. La CNIL recommande le traitement local pour les données sensibles.

Qwen2.5 peut-il traiter des documents mixtes français-chinois ?

Oui. Qwen2.5 gère nativement le français et le chinois dans le même contexte. Pour l'OCR de documents mixtes, Qwen2-VL 7B est plus adapté.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Dispatcher entre Qwen2.5, DeepSeek et Llama depuis une interface →

Essayer PromptQuorum gratuitement

← Retour aux LLMs locaux

Déploiement local Qwen 2026 : Qwen2.5, Coder & VL Setup