PromptQuorumPromptQuorum

Quels modèles Ollama supportent la vision ?

Réponse rapide

Ollama supporte plusieurs modèles de vision : LLaVA, Gemma 3 multimodal et Qwen-VL. Démarrez facilement avec ollama run llava. Tous acceptent des images via l'API Ollama.

  • llava : modèle de vision original, meilleure compatibilité
  • gemma3 : modèle multimodal de Google, bonne qualité
  • qwen-vl : excellent pour la compréhension de documents

Mis à jour : 2026-05

Ollama

Points clés

  • Quatre modèles de vision Ollama sont prêts pour la production : LLaVA, Llama 3.2 Vision, Qwen-VL et Gemma 3
  • Les modèles de vision nécessitent 1–3 GB de VRAM supplémentaires par rapport à leurs équivalents texte seul — l'encodeur d'image s'exécute en parallèle du LLM
  • LLaVA 7B est le point de départ le plus sûr (~7 GB VRAM, large compatibilité client)
  • Utilisez Qwen-VL pour l'analyse de graphiques et diagrammes ; Llama 3.2 Vision 11B pour l'OCR et le raisonnement visuel multi-étapes

Les principaux modèles de vision sur Ollama

En mai 2026, Ollama supporte quatre modèles de vision prêts pour la production : LLaVA, Llama 3.2 Vision, Qwen-VL et Gemma 3. Chacun a une force distincte et un profil VRAM spécifique.

LLaVA est le point de départ le plus sûr — il offre la meilleure compatibilité client et fonctionne avec tous les formats d'image acceptés par Ollama. Llama 3.2 Vision 11B est le meilleur choix pour l'OCR et le raisonnement visuel multi-étapes. Qwen-VL excelle sur les graphiques, diagrammes et documents structurés. La variante vision de Gemma 3 traite 35+ langues — utile quand les images contiennent du texte non anglais comme de la signalétique, des documents en langue étrangère ou des graphiques avec des étiquettes localisées. LLaVA et Qwen-VL sont les plus performants sur le texte anglais.

Tous les modèles de vision chargent un encodeur d'image en parallèle des poids LLM. Cet encodeur ajoute 1–3 GB de VRAM au-delà de ce que le modèle texte seul nécessite — prévoyez cette surcharge lors de la vérification de votre budget VRAM.

Besoins en VRAM pour la vision

Chaque modèle de vision nécessite plus de VRAM que son équivalent texte seul. Un modèle de vision 7B requiert typiquement 7–9 GB de VRAM, et non les ~6 GB prévus pour un modèle texte 7B.

Pour l'analyse de graphiques et de documents, Qwen-VL 7B et Gemma 3 offrent les options les plus efficaces en VRAM avec une bonne compréhension des diagrammes. Pour l'OCR et le raisonnement complexe sur images, Llama 3.2 Vision 11B justifie la VRAM supplémentaire. Pour le guide complet sur les modèles locaux multimodaux, consultez le guide des LLMs locaux multimodaux.

ModèleVRAM en Q4Capacité image
LLaVA 7B~7 GBQ&R sur images générales, large compatibilité
Llama 3.2 Vision 11B~10 GBOCR, raisonnement visuel multi-étapes
Qwen-VL 7B~7 GBGraphiques, diagrammes, analyse de documents
Gemma 3 (vision)~6 GBCompréhension d'images multilingue

Réponses rapides sur les modèles de vision Ollama

Comment envoyer une image à Ollama via l'API ?
Faites un POST vers le point de terminaison /api/chat avec l'image en base64 dans le tableau images. Corps JSON minimal : {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} Voir Qwen 3 sur Ollama pour une option multimodale avec un fort support de l'appel d'outils.
Les modèles de vision peuvent-ils faire de l'OCR (lire du texte depuis des images) ?
Oui, mais la qualité varie. Llama 3.2 Vision 11B est le plus performant pour l'OCR parmi les modèles supportés par Ollama. LLaVA 7B peut lire du texte clairement imprimé mais peine avec l'écriture manuscrite ou les petites polices.
Quel modèle de vision Ollama est le meilleur pour les graphiques et diagrammes ?
Qwen-VL 7B. Il a été affiné sur des données visuelles structurées incluant graphiques, tableaux et diagrammes, et surpasse LLaVA et Gemma 3 sur les benchmarks de compréhension de documents.
Les modèles de vision supportent-ils plusieurs images dans un seul prompt ?
Le support varie selon le modèle. LLaVA et Qwen-VL traitent actuellement une image par tour dans Ollama. Llama 3.2 Vision supporte les entrées multi-images selon la version d'Ollama et l'implémentation client.