Réponse rapide
Ollama supporte plusieurs modèles de vision : LLaVA, Gemma 3 multimodal et Qwen-VL. Démarrez facilement avec ollama run llava. Tous acceptent des images via l'API Ollama.
Mis à jour : 2026-05
Points clés
En mai 2026, Ollama supporte quatre modèles de vision prêts pour la production : LLaVA, Llama 3.2 Vision, Qwen-VL et Gemma 3. Chacun a une force distincte et un profil VRAM spécifique.
LLaVA est le point de départ le plus sûr — il offre la meilleure compatibilité client et fonctionne avec tous les formats d'image acceptés par Ollama. Llama 3.2 Vision 11B est le meilleur choix pour l'OCR et le raisonnement visuel multi-étapes. Qwen-VL excelle sur les graphiques, diagrammes et documents structurés. La variante vision de Gemma 3 traite 35+ langues — utile quand les images contiennent du texte non anglais comme de la signalétique, des documents en langue étrangère ou des graphiques avec des étiquettes localisées. LLaVA et Qwen-VL sont les plus performants sur le texte anglais.
Tous les modèles de vision chargent un encodeur d'image en parallèle des poids LLM. Cet encodeur ajoute 1–3 GB de VRAM au-delà de ce que le modèle texte seul nécessite — prévoyez cette surcharge lors de la vérification de votre budget VRAM.
Chaque modèle de vision nécessite plus de VRAM que son équivalent texte seul. Un modèle de vision 7B requiert typiquement 7–9 GB de VRAM, et non les ~6 GB prévus pour un modèle texte 7B.
Pour l'analyse de graphiques et de documents, Qwen-VL 7B et Gemma 3 offrent les options les plus efficaces en VRAM avec une bonne compréhension des diagrammes. Pour l'OCR et le raisonnement complexe sur images, Llama 3.2 Vision 11B justifie la VRAM supplémentaire. Pour le guide complet sur les modèles locaux multimodaux, consultez le guide des LLMs locaux multimodaux.
| Modèle | VRAM en Q4 | Capacité image |
|---|---|---|
| LLaVA 7B | ~7 GB | Q&R sur images générales, large compatibilité |
| Llama 3.2 Vision 11B | ~10 GB | OCR, raisonnement visuel multi-étapes |
| Qwen-VL 7B | ~7 GB | Graphiques, diagrammes, analyse de documents |
| Gemma 3 (vision) | ~6 GB | Compréhension d'images multilingue |
/api/chat avec l'image en base64 dans le tableau images. Corps JSON minimal : {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} Voir Qwen 3 sur Ollama pour une option multimodale avec un fort support de l'appel d'outils.