Points clés
- Multimodal = texte + images (+ audio). Traitez images nativement sans prétraitement OCR.
- Meilleurs modèles (2026) : Llama 3.2 Vision 11B, Qwen2-VL 7B, Gemma 3 Vision 9B.
- Cas d'usage : OCR de documents, analyse d'images, question-réponse visuelle, extraction de tableaux.
- Vitesse : 2-5 secondes par image (modèle 11B). Plus lent que texte seul, mais pratique.
- Depuis avril 2026, multimodal est mature pour cas d'usage spécifiques, pas encore général.
Modèles multimodaux disponibles (avril 2026)
| Modèle | Support d'image | VRAM | Vitesse par image | Idéal pour |
|---|---|---|---|---|
| Llama 3.2 Vision 11B | Oui | 8 GB | — | Vision générale |
| Qwen2-VL 7B | Oui | 5 GB | — | Vision rapide |
| Gemma 3 Vision 9B | Oui | 6 GB | — | Équilibré |
| Llama 3.2 Vision 90B | Oui | 55 GB | — | Haute qualité |
Capacités de vision
Les modèles multimodaux peuvent :
- Description d'images : Expliquez ce qui figure dans une image.
- OCR (reconnaissance optique de caractères) : Extrayez texte d'images (carte de visite, scan de document).
- Question-réponse visuelle : Répondez à des questions sur images (« Quelle est la marque de la voiture ? »).
- Extraction de tableaux : Analysez tableaux d'images en données structurées.
- Analyse de diagrammes : Interprétez visualisations de données.
- Détection d'objets : Identifiez et localisez objets dans images.
Installation et utilisation
Utilisation de Llama 3.2 Vision avec Ollama :
# Pull the model
ollama pull llama3.2-vision:11b
# Use it
from ollama import Client
client = Client()
with open("image.jpg", "rb") as f:
image_data = f.read()
response = client.generate(
model="llama3.2-vision:11b",
prompt="Describe this image",
images=[image_data] # Pass image data
)
print(response["response"])Cas d'usage réels
- Traitement de documents : Extrayez texte de PDFs numérisés sans service OCR externe.
- Modération de contenu : Signalez images inappropriées sans envoyer vers le cloud.
- Accessibilité : Décrivez images pour utilisateurs malvoyants.
- Analyse de produits : Analysez images produits en e-commerce (catégorie, état, défauts).
- Recherche : Analysez diagrammes et graphiques scientifiques.
Performance et limitations
Précision : Bonne pour OCR de documents et description, mais pas parfaite pour analyse détaillée ou petits objets.
Vitesse : 2-5 secondes par image. Modèles cloud (GPT-4 Vision) sont 10-50× plus rapides.
Taille d'image : Supporte jusqu'à ~1000×1000 pixels. Images plus larges sont réduites.
Limitations : Ne peut égaler précision GPT-4 Vision sur scènes complexes. Compromis : confidentialité vs. qualité.
Erreurs courantes
- Attendre précision de GPT-4 Vision. Modèles locaux sont 20-30% moins précis. Utilisez pour domaines spécifiques, pas vision générale.
- Ne pas préparer images. Recadrez images vers zone focale. Supprimez bruit. Meilleure entrée = meilleure sortie.
- Utiliser modèles 7B pour vision complexe. Petits modèles peinent sur détails subtils. Utilisez 11B+ pour vision fiable.
Sources
- Llama 3.2 Vision Model Card -- huggingface.co/meta-llama/Llama-3.2-11B-Vision
- Qwen2-VL -- github.com/QwenLM/Qwen2-VL