PromptQuorumPromptQuorum
Accueil/LLMs locaux/Exécuter Qwen2-VL en local en 2026 : guide OCR et vision
Advanced Techniques

Exécuter Qwen2-VL en local en 2026 : guide OCR et vision

·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Exécutez `ollama pull qwen2-vl:7b` sur toute machine disposant de 8 GB de VRAM pour lire localement des documents en chinois, en japonais et multilingues. Qwen2-VL est le modèle de vision ouvert le plus performant pour l'OCR multilingue — chaque image est traitée sur votre machine, sans envoi vers le cloud.

Qwen2-VL est le modèle vision-langage ouvert d'Alibaba, et sa variante 7B s'exécute en local avec environ 6 GB de VRAM via Ollama ou LM Studio. Il lit des documents, des captures d'écran, des graphiques et des photos — et devance tous les autres modèles de vision locaux pour l'OCR du chinois, du japonais et du coréen. Ce guide couvre le choix du modèle, le matériel, l'installation avec Ollama et LM Studio, l'extraction de documents multilingues et la comparaison de Qwen2-VL avec LLaVA et Llama 3.2 Vision.

Points clés

  • Qwen2-VL 7B s'exécute en local avec ~6 GB de VRAM (Q4) via Ollama — une seule commande `ollama pull qwen2-vl:7b`, sans conversion de modèle.
  • Meilleur modèle local pour l'OCR multilingue : Qwen2-VL égale MiniCPM-V 2.6 et surpasse LLaVA 1.6 et Llama 3.2 Vision 11B sur les textes chinois, japonais et coréen.
  • Résolution native jusqu'à 4096×4096 — lit les scans haute résolution sans réduction, contrairement à LLaVA 1.6 (672×672) ou Llama 3.2 Vision (1120×1120).
  • Trois tailles : 2B (~3 GB de VRAM, rapide et basique), 7B (~6 GB, recommandé pour la plupart des usages), 72B (~48 GB, en tête des benchmarks open source).
  • Accepte jusqu'à 8 images par requête — la plus grande capacité multi-images parmi les modèles de vision locaux.
  • Pas d'entrée PDF directe : convertissez d'abord les pages PDF en PNG ou JPEG, puis envoyez chaque page comme image distincte.
  • 100 % hors ligne après le téléchargement : aucune clé API, aucun envoi vers le cloud — chaque document reste sur votre machine, ce qui sort la couche IA du périmètre de transfert de données du RGPD.

Pourquoi Qwen2-VL domine les modèles de vision locaux pour l'OCR multilingue

Qwen2-VL est le modèle de vision local le plus performant pour l'OCR de documents multilingues — il égale ou dépasse tout autre modèle fonctionnant sur du matériel grand public pour lire le chinois, le japonais, le coréen et l'anglais. Alibaba l'a entraîné sur de vastes corpus de documents multilingues, ce qui explique qu'il surpasse LLaVA 1.6 et Llama 3.2 Vision 11B pour l'extraction de texte non anglophone.

Qwen2-VL prend en charge une résolution d'entrée dynamique jusqu'à 4096×4096 pixels. LLaVA 1.6 plafonne à 672×672 et Llama 3.2 Vision à 1120×1120 : tous deux réduisent les scans haute résolution avant lecture. Qwen2-VL lit un scan A4 à 300 DPI en résolution native — la principale raison de sa meilleure précision d'OCR sur les documents denses et les petits caractères CJK.

Exécuter Qwen2-VL en local coûte 0 € par image après le matériel. Une API de vision cloud facture environ 0,01–0,03 € par image ; à 10 000 images par mois, cela représente 100–300 € d'économies — et aucun document ne quitte jamais votre machine.

Utilisez Qwen2-VL si vos documents contiennent du texte CJK, de petites polices ou des scans haute résolution. Si votre travail concerne uniquement des questions-réponses sur photos en anglais, Llama 3.2 Vision 11B est un choix tout aussi pertinent.

📍 En une phrase

Qwen2-VL est le modèle de vision local le plus précis pour l'OCR de documents en chinois, japonais et coréen, et fonctionne avec ~6 GB de VRAM via Ollama.

💬 En termes simples

Un modèle vision-langage lit des images au lieu d'en générer. Vous fournissez à Qwen2-VL une photo ou une page scannée, et il renvoie du texte — une description, une réponse ou le contenu extrait.

Choisir la taille de votre modèle Qwen2-VL

Qwen2-VL existe en trois tailles. Choisissez selon votre VRAM et la précision requise. Toutes les tailles sont disponibles sur Hugging Face (Qwen) et dans la bibliothèque de modèles Ollama avec des tags explicites.

ModèleVRAM (Q4)Tag OllamaRecommandé pour
Qwen2-VL 2B Q4~3 GBqwen2-vl:2bLégendes rapides, OCR simple, ordinateurs portables à faible VRAM
Qwen2-VL 7B Q4~6 GBqwen2-vl:7bRecommandé — OCR de documents, Q&R sur image, graphiques
Qwen2-VL 72B Q4~48 GBqwen2-vl:72bQualité maximale, Apple Silicon 64 GB+ ou multi-GPU

Q4_K_M est la quantification recommandée — le meilleur rapport qualité/taille. La plupart des utilisateurs devraient commencer par Qwen2-VL 7B : il tient sur un GPU de 8 GB et couvre tous les cas d'usage de ce guide. Ne passez au modèle 2B que si la VRAM est inférieure à 6 GB. Voir la quantification des LLM expliquée pour l'effet de Q4 sur la qualité.

Configuration matérielle requise pour Qwen2-VL

  • Minimum (Qwen2-VL 7B Q4) : GPU avec 8 GB de VRAM — NVIDIA RTX 4060, RTX 3060 12 GB ou RTX 2080.
  • Option à faible VRAM (Qwen2-VL 2B Q4) : 4 GB de VRAM — fonctionne sur la plupart des GPU d'ordinateurs portables et sur Apple Silicon intégré.
  • Qualité maximale (Qwen2-VL 72B Q4) : ~48 GB — Apple Silicon avec 64 GB+ de mémoire unifiée, ou deux GPU de 24 GB.
  • Apple Silicon : une puce M-series avec 16 GB+ de mémoire unifiée exécute le modèle 7B sans difficulté ; 64 GB+ sont nécessaires pour le 72B.
  • Mémoire système : 16 GB minimum en parallèle de l'inférence GPU ; 32 GB recommandés avec un environnement de développement complet ouvert.
  • Stockage : ~6 GB d'espace disque libre pour Qwen2-VL 7B Q4 (GGUF), ~30 GB pour le 72B.

📌Note: Les modèles de vision sont environ 30–60 % plus lents qu'un modèle uniquement textuel de même nombre de paramètres. L'encodeur de vision traite l'image entière au premier token ; le texte se génère ensuite à une vitesse quasi normale. Prévoyez de la VRAM pour l'encodeur comme pour le modèle de langage.

Installer Qwen2-VL avec Ollama

Ollama est le moyen le plus rapide d'exécuter Qwen2-VL en local. Il télécharge le modèle, gère la quantification et expose une API sur localhost:11434. Installez-le depuis ollama.com — ou, si vous débutez, commencez par installer Ollama.

  1. 1
    Installer Ollama
    Why it matters: Ollama gère le téléchargement du modèle, le format GGUF et l'API locale. Il est disponible pour macOS, Linux et Windows.
  2. 2
    Télécharger Qwen2-VL avec un tag de taille explicite
    Why it matters: Utilisez qwen2-vl:7b. Le tag qwen2-vl seul peut renvoyer une autre taille — indiquez toujours 2b, 7b ou 72b pour obtenir le modèle visé par ce guide.
  3. 3
    Exécuter le modèle et joindre une image
    Why it matters: En mode interactif, indiquez le chemin du fichier image dans votre requête. Ollama détecte le chemin et charge l'image dans l'encodeur de vision.
  4. 4
    Envoyer des images via l'API
    Why it matters: Le point de terminaison /api/generate accepte un tableau images encodé en base64. C'est ainsi que les applications — et PromptQuorum — envoient des images par programmation.
  5. 5
    Vérifier l'OCR multilingue
    Why it matters: Envoyez un scan de document chinois ou japonais et vérifiez que le texte extrait correspond. Cela confirme que l'encodeur de vision et le tokeniseur traitent correctement l'écriture CJK avant d'aller plus loin.
bash
# Step 1 — Install Ollama
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — download from https://ollama.com/download

# Step 2 — Pull Qwen2-VL 7B (explicit size tag)
ollama pull qwen2-vl:7b
# Downloads Qwen2-VL 7B Q4_K_M (~6 GB)

# Step 3 — Run and attach an image (interactive)
ollama run qwen2-vl:7b
>>> Extract every line of text from ./invoice-jp.png

# Step 4 — Send an image through the API
# Encode the image first:  base64 -i scan.png   (macOS)
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2-vl:7b",
  "prompt": "Extract every line of text from this document. Preserve line breaks.",
  "images": ["<base64-encoded-image>"],
  "stream": false
}'

# Step 5 — Verify multilingual OCR
ollama run qwen2-vl:7b
>>> Extract all text from this image: ./contract-zh.png

⚠️Warning: Envoyez les images de documents à 150 DPI ou plus. Qwen2-VL lit nativement jusqu'à 4096×4096, donc les scans haute résolution améliorent directement la précision. Contrairement à une requête textuelle, la qualité de l'image est le facteur déterminant des résultats d'OCR — un scan flou produit des caractères erronés, quelle que soit la qualité du modèle.

Installer Qwen2-VL avec LM Studio

LM Studio exécute Qwen2-VL via une interface graphique, sans commande CLI. C'est la voie recommandée pour les utilisateurs Windows et tous ceux qui préfèrent une interface graphique. Téléchargez-le depuis lmstudio.ai, ou consultez comment installer LM Studio.

  1. 1
    Télécharger et installer LM Studio
    Why it matters: Une interface graphique gratuite et multiplateforme pour l'inférence de modèles en local. Aucun terminal requis.
  2. 2
    Rechercher Qwen2-VL dans le navigateur de modèles
    Why it matters: Recherchez « Qwen2-VL 7B » et sélectionnez une variante GGUF Q4_K_M. LM Studio signale les modèles compatibles vision par une icône d'image.
  3. 3
    Charger le modèle et joindre une image
    Why it matters: Cliquez sur l'icône d'image dans le champ de saisie pour téléverser une photo ou un scan. LM Studio le transmet à l'encodeur de vision.
  4. 4
    Démarrer le serveur local
    Why it matters: Le bouton « Start Server » expose une API compatible OpenAI sur localhost:1234. Les requêtes de vision utilisent le format de contenu image_url standard.
json
// LM Studio — OpenAI-compatible vision request (localhost:1234)
{
  "model": "qwen2-vl-7b",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Extract all text from this document." },
        {
          "type": "image_url",
          "image_url": { "url": "data:image/png;base64,<base64-encoded-image>" }
        }
      ]
    }
  ]
}

OCR de documents pour les fichiers en chinois, japonais et multilingues

Qwen2-VL extrait le texte des documents en chinois, japonais, coréen et multilingues avec plus de précision que tout autre modèle de vision local. Ses données d'entraînement comprenaient de vastes corpus de documents multilingues, et sa résolution native de 4096×4096 lit les petits caractères CJK que LLaVA 1.6 et Llama 3.2 Vision réduisent et manquent.

Le schéma le plus fiable est une instruction d'extraction précise. Demandez de la structure — « conserve la mise en page du tableau », « renvoie chaque champ sous la forme key: value » — plutôt qu'un vague « lis ceci ». Qwen2-VL suit fidèlement les instructions de mise en forme, ce qui rend la sortie exploitable sans post-traitement.

📍 En une phrase

Pour extraire du texte d'un document CJK avec Qwen2-VL, envoyez l'image à 150 DPI ou plus avec une instruction précise qui demande de la structure, par exemple « renvoie chaque champ sous la forme key: value ».

💬 En termes simples

L'OCR consiste à transformer une image de texte en texte modifiable. Qwen2-VL regarde une page scannée et retranscrit ce qu'il voit — et il gère les caractères chinois et japonais aussi bien que l'anglais.

  • Extraction de texte brut : « Extrais chaque ligne de texte de cette image. Conserve les sauts de ligne et l'ordre de lecture. »
  • Champs structurés : « Ceci est une facture japonaise. Renvoie le fournisseur, la date, le sous-total, la taxe et le total sous forme de paires key: value. »
  • Extraction de tableau : « Extrais ce tableau au format CSV. Considère la première ligne comme l'en-tête. »
  • Extraire et traduire en une passe : « Extrais le texte chinois de cette image, puis traduis-le en anglais. Affiche les deux. »
bash
# Japanese invoice -> structured fields
ollama run qwen2-vl:7b
>>> This is a Japanese invoice. Extract vendor name, invoice date,
    subtotal, consumption tax, and total. Return as key: value pairs.
    ./invoice-jp.png

# Example output:
# vendor: Sample Trading Co., Ltd.
# date: 2026-04-30
# subtotal: 84,000 JPY
# tax: 8,400 JPY
# total: 92,400 JPY

Important: Vérifiez toujours les nombres extraits par rapport au document source. Les modèles de vision locaux — Qwen2-VL compris — peuvent mal lire un chiffre sur un scan de mauvaise qualité. Traitez la sortie d'OCR comme un brouillon à confirmer, pas comme une valeur définitive, en particulier pour les factures et les documents financiers.

Questions-réponses sur image, analyse de captures d'écran et lecture de graphiques

Au-delà de l'OCR, Qwen2-VL assure la compréhension générale d'images — description de photos, réponse à des questions sur des captures d'écran et lecture de graphiques. Il est précis sur des entrées nettes et plus faible sur les scènes encombrées ou ambiguës.

  • Q&R sur image : posez des questions ouvertes sur une photo — « Qu'y a-t-il sur cette image ? », « Combien de personnes portent du rouge ? ». Qwen2-VL 7B est précis sur les photos nettes, plus faible sur les scènes encombrées ou ambiguës.
  • Analyse de captures d'écran et d'interfaces : Qwen2-VL lit les captures d'interface, les boîtes de dialogue d'erreur et les états d'application. Pour les captures de code denses en particulier, InternVL 2.5 est davantage entraîné sur ces données — utilisez-le si votre charge de travail principale concerne les interfaces et le code.
  • Lecture de graphiques : Qwen2-VL décrit bien la structure et les tendances d'un graphique, mais les valeurs numériques précises tirées de graphiques sont peu fiables sur tous les modèles de vision locaux. Vérifiez les chiffres exacts par rapport aux données sous-jacentes.
  • Images de vidéo : Qwen2-VL accepte plusieurs images comme séquence — échantillonnez environ une image par seconde et envoyez-en jusqu'à 8 pour résumer un court extrait.
  • Comparaison multi-images : envoyez jusqu'à 8 images en une requête pour comparer des versions, repérer des différences ou décrire un lot.

💡Tip: Utilisez Qwen2-VL pour l'OCR, les documents multilingues et les questions-réponses générales sur image. Passez à InternVL 2.5 lorsque votre charge de travail principale concerne les captures de code ou d'interface, ou à Moondream 2 si vous disposez de moins de 4 GB de VRAM.

Qwen2-VL vs LLaVA vs Llama 3.2 Vision

Pour l'OCR multilingue, Qwen2-VL surpasse LLaVA 1.6 et égale ou dépasse Llama 3.2 Vision 11B avec moins de VRAM. Pour des questions-réponses sur photos en anglais uniquement, Llama 3.2 Vision 11B est un choix tout aussi solide. LLaVA 1.6 reste le modèle le mieux documenté si vous avez besoin de ressources communautaires pour le dépannage.

ModèleVRAM (Q4)OCR / CJKRésolution max.Recommandé pour
Qwen2-VL 7B~6 GBExcellent4096×4096OCR multilingue, scans haute résolution
Llama 3.2 Vision 11B~8 GBBon1120×1120Q&R sur photos en anglais, documents généraux
LLaVA 1.6 7B~6 GBCorrect672×672Q&R générales, support communautaire
MiniCPM-V 2.6 8B~6 GBExcellent1792×1792OCR de documents (axé anglais)
InternVL 2.5 8B~8 GBBonÉlevéeCaptures de code et d'interface

Les cinq fonctionnent via Ollama (InternVL 2.5 via des builds communautaires). Pour le panorama complet des modèles de vision locaux — y compris Moondream 2 et un benchmark d'extraction de factures — consultez le comparatif des modèles de vision locaux. En cas de doute, commencez par Qwen2-VL 7B : il couvre l'OCR, les documents et les questions-réponses générales avec 6 GB de VRAM.

Connecter Qwen2-VL en local à PromptQuorum

PromptQuorum répartit les requêtes entre plusieurs modèles. Pour utiliser Qwen2-VL en local comme cible de répartition pour la vision, pointez le point de terminaison LLM local de PromptQuorum vers votre serveur Ollama. Le traitement des images reste alors sur votre matériel, tandis que les modèles cloud restent disponibles pour les tâches textuelles.

Il s'agit du point de terminaison Ollama (compatible OpenAI), distinct de la configuration de l'API Anthropic utilisée pour Claude. Les deux peuvent être actifs simultanément, PromptQuorum répartissant selon le type de tâche et la sensibilité des données.

📍 En une phrase

Connectez PromptQuorum à Qwen2-VL en local en réglant OLLAMA_BASE_URL sur http://localhost:11434/v1 et en pointant le modèle de vision local vers qwen2-vl:7b.

bash
# PromptQuorum dispatch config — local Qwen2-VL via Ollama
# Set in your .env or the PromptQuorum settings panel

OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_VISION_MODEL=qwen2-vl:7b

# Example routing rules:
# - task_type: ocr / image  -> qwen2-vl:7b        (local Ollama, no cloud upload)
# - task_type: text         -> claude-sonnet-4-6  (Anthropic API, separate config)

Dépannage de Qwen2-VL

  • « unknown model » ou le téléchargement échoue : utilisez un tag de taille explicite — `ollama pull qwen2-vl:7b`, pas `qwen2-vl`. Exécutez `ollama list` pour confirmer le nom installé.
  • L'image est ignorée et le modèle répond comme si aucune image n'avait été envoyée : vérifiez que le chemin du fichier est correct et lisible. Dans l'API Ollama, le tableau `images` doit contenir du base64 brut *sans* le préfixe `data:` — le préfixe `data:` appartient uniquement au format LM Studio et OpenAI.
  • Caractères CJK déformés ou manquants : le scan est de trop faible résolution. Re-scannez à 150–300 DPI. Qwen2-VL lit jusqu'à 4096×4096, donc une résolution d'entrée plus élevée améliore directement la précision du chinois et du japonais.
  • Mémoire CUDA insuffisante (out of memory) : le modèle ne tient pas dans votre VRAM. Passez à Qwen2-VL 2B (~3 GB) ou exécutez-le sur Apple Silicon, qui partage la mémoire unifiée entre le CPU et le GPU.
  • Première réponse lente, puis rapide : c'est normal. L'encodeur de vision traite l'image entière au premier token ; le texte se génère ensuite à une vitesse quasi normale.
  • Nombres erronés extraits d'une facture ou d'un graphique : les modèles de vision locaux lisent mal les chiffres sur des entrées bruitées. Améliorez la qualité du scan et vérifiez toujours la sortie numérique par rapport à la source.
  • Un PDF ne se charge pas : aucun modèle de vision local n'accepte le PDF directement. Convertissez d'abord les pages en PNG ou JPEG (avec pdf2image ou pypdfium2), puis envoyez chaque page comme image distincte.
  • LM Studio affiche « failed to load model » : soit une VRAM insuffisante, soit vous avez téléchargé un GGUF sans prise en charge de la vision. Vérifiez que la fiche du modèle indique la prise en charge de la vision et choisissez la variante Q4_K_M.

💡Tip: Exécutez `ollama ps` pour voir quels modèles sont chargés en VRAM et la mémoire utilisée par chacun. Utilisez `ollama stop qwen2-vl:7b` pour décharger le modèle avant de passer au 72B.

FAQ

Quelle est la configuration matérielle minimale pour exécuter Qwen2-VL en local ?

Qwen2-VL 7B en quantification Q4_K_M nécessite 8 GB de VRAM (RTX 4060, RTX 3060 12 GB ou RTX 2080). Le modèle Qwen2-VL 2B, plus petit, fonctionne avec 4 GB. Le modèle 72B nécessite ~48 GB — Apple Silicon avec 64 GB+ de mémoire unifiée ou deux GPU de 24 GB. Apple Silicon avec 16 GB+ de mémoire unifiée exécute le modèle 7B sans difficulté.

Qwen2-VL est-il meilleur que LLaVA pour l'OCR ?

Oui, surtout pour le texte non anglophone. Qwen2-VL égale MiniCPM-V 2.6 et surpasse LLaVA 1.6 et Llama 3.2 Vision 11B pour l'OCR du chinois, du japonais et du coréen. Sa résolution native de 4096×4096 lit les scans haute résolution sans réduction, alors que LLaVA 1.6 plafonne à 672×672. LLaVA conserve toutefois la plus grande communauté et le plus de tutoriels.

Qwen2-VL peut-il lire directement des PDF ?

Non. Aucun modèle de vision local n'accepte d'entrée PDF directe. Convertissez d'abord chaque page PDF en image PNG ou JPEG (avec pdf2image ou pypdfium2), puis envoyez chaque page comme requête d'image distincte. Pour un PDF de 10 pages, vous envoyez 10 requêtes d'image et combinez les résultats.

Comment envoyer une image à Qwen2-VL via Ollama ?

De deux façons. En mode interactif (`ollama run qwen2-vl:7b`), indiquez le chemin du fichier image dans votre requête — Ollama le détecte et charge l'image. Via l'API, envoyez une requête POST à /api/generate avec un tableau `images` encodé en base64. La chaîne base64 ne doit pas inclure le préfixe `data:`.

Qwen2-VL fonctionne-t-il entièrement hors ligne ?

Oui. Après le téléchargement unique du modèle, Qwen2-VL fonctionne entièrement sur votre machine — sans clé API ni compte cloud. Aucune image n'est envoyée où que ce soit, ce qui maintient le traitement des documents au sein de votre infrastructure. Voir le guide d'installation locale de Qwen pour le RGPD pour les implications en matière de conformité.

Combien d'images Qwen2-VL peut-il traiter à la fois ?

Jusqu'à 8 images par requête — la plus grande capacité multi-images parmi les modèles de vision locaux. Cela le rend bien adapté à la comparaison de versions de documents, au repérage de différences ou au résumé d'une courte vidéo échantillonnée à une image par seconde.

Qwen2-VL ou Llama 3.2 Vision — lequel choisir ?

Choisissez Qwen2-VL pour les documents en chinois, japonais ou coréen, les scans haute résolution ou les petites polices — et parce que le modèle 7B tient dans 6 GB de VRAM contre 8 GB pour Llama 3.2 Vision 11B. Choisissez Llama 3.2 Vision 11B pour des questions-réponses sur photos en anglais uniquement, où les deux sont comparables.

Pourquoi les caractères sont-ils déformés dans ma sortie d'OCR ?

Presque toujours à cause d'un scan de faible résolution. Qwen2-VL lit nativement jusqu'à 4096×4096, donc re-scanner le document à 150–300 DPI corrige généralement les caractères déformés ou manquants. Une entrée de mauvaise qualité est la première cause d'erreurs d'OCR sur tous les modèles de vision locaux.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Rejoindre la liste d'attente PromptQuorum →

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Exécuter Qwen2-VL en local 2026 : guide OCR & vision