Quels modèles Ollama supportent la vision ?
Réponse rapide
Ollama supporte plusieurs modèles de vision : LLaVA, Gemma 3 multimodal et Qwen-VL. Démarrez facilement avec ollama run llava. Tous acceptent des images via l'API Ollama.
- ▸llava : modèle de vision original, meilleure compatibilité
- ▸gemma3 : modèle multimodal de Google, bonne qualité
- ▸qwen-vl : excellent pour la compréhension de documents
Mis à jour : 2026-05
Points clés
- ✓Quatre modèles de vision Ollama sont prêts pour la production : LLaVA, Llama 3.2 Vision, Qwen-VL et Gemma 3
- ✓Les modèles de vision nécessitent 1–3 GB de VRAM supplémentaires par rapport à leurs équivalents texte seul — l'encodeur d'image s'exécute en parallèle du LLM
- ✓LLaVA 7B est le point de départ le plus sûr (~7 GB VRAM, large compatibilité client)
- ✓Utilisez Qwen-VL pour l'analyse de graphiques et diagrammes ; Llama 3.2 Vision 11B pour l'OCR et le raisonnement visuel multi-étapes
Les principaux modèles de vision sur Ollama
En mai 2026, Ollama supporte quatre modèles de vision prêts pour la production : LLaVA, Llama 3.2 Vision, Qwen-VL et Gemma 3. Chacun a une force distincte et un profil VRAM spécifique.
LLaVA est le point de départ le plus sûr — il offre la meilleure compatibilité client et fonctionne avec tous les formats d'image acceptés par Ollama. Llama 3.2 Vision 11B est le meilleur choix pour l'OCR et le raisonnement visuel multi-étapes. Qwen-VL excelle sur les graphiques, diagrammes et documents structurés. La variante vision de Gemma 3 traite 35+ langues — utile quand les images contiennent du texte non anglais comme de la signalétique, des documents en langue étrangère ou des graphiques avec des étiquettes localisées. LLaVA et Qwen-VL sont les plus performants sur le texte anglais.
Tous les modèles de vision chargent un encodeur d'image en parallèle des poids LLM. Cet encodeur ajoute 1–3 GB de VRAM au-delà de ce que le modèle texte seul nécessite — prévoyez cette surcharge lors de la vérification de votre budget VRAM.
Besoins en VRAM pour la vision
Chaque modèle de vision nécessite plus de VRAM que son équivalent texte seul. Un modèle de vision 7B requiert typiquement 7–9 GB de VRAM, et non les ~6 GB prévus pour un modèle texte 7B.
Pour l'analyse de graphiques et de documents, Qwen-VL 7B et Gemma 3 offrent les options les plus efficaces en VRAM avec une bonne compréhension des diagrammes. Pour l'OCR et le raisonnement complexe sur images, Llama 3.2 Vision 11B justifie la VRAM supplémentaire. Pour le guide complet sur les modèles locaux multimodaux, consultez le guide des LLMs locaux multimodaux.
| Modèle | VRAM en Q4 | Capacité image |
|---|---|---|
| LLaVA 7B | ~7 GB | Q&R sur images générales, large compatibilité |
| Llama 3.2 Vision 11B | ~10 GB | OCR, raisonnement visuel multi-étapes |
| Qwen-VL 7B | ~7 GB | Graphiques, diagrammes, analyse de documents |
| Gemma 3 (vision) | ~6 GB | Compréhension d'images multilingue |
Guides associés
- ▸Modèles Ollama à contexte 128K -- long context models
Réponses rapides sur les modèles de vision Ollama
Comment envoyer une image à Ollama via l'API ?▾
/api/chat avec l'image en base64 dans le tableau images. Corps JSON minimal : {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} Voir Qwen 3 sur Ollama pour une option multimodale avec un fort support de l'appel d'outils.