Wichtigste Erkenntnisse
- Multimodal = Text + Bilder (+ Audio). Verarbeiten Sie Bilder nativ ohne OCR-Vorverarbeitung.
- Beste Modelle (2026): Llama 3.2 Vision 11B, Qwen2-VL 7B, Gemma 3 Vision 9B.
- Anwendungsfälle: Dokumenten-OCR, Bildanalyse, visuelle Q&A, Tabellenextraktion.
- Geschwindigkeit: 2-5 Sekunden pro Bild (11B-Modell). Langsamer als reiner Text, aber praktisch.
- Ab April 2026 ist Multimodal für spezifische Anwendungsfälle reif, noch nicht für allgemeine Zwecke.
Verfügbare multimodale Modelle (April 2026)
| Modell | Bildunterstützung | VRAM | Geschwindigkeit pro Bild | Am besten für |
|---|---|---|---|---|
| Llama 3.2 Vision 11B | Ja | 8 GB | — | Allgemeine Vision |
| Qwen2-VL 7B | Ja | 5 GB | — | Schnelle Vision |
| Gemma 3 Vision 9B | Ja | 6 GB | — | Ausgeglichen |
| Llama 3.2 Vision 90B | Ja | 55 GB | — | Hohe Qualität |
Vision-Fähigkeiten
Multimodale Modelle können:
- Bildbeschreibung: Erklären Sie, was in einem Bild zu sehen ist.
- OCR (Optische Zeichenerkennung): Text aus Bildern extrahieren (Visitenkarte, Dokumentenscan).
- Visuelle Q&A: Fragen zu Bildern beantworten („Was ist die Marke des Autos?").
- Tabellenextraktion: Tabellen aus Bildern in strukturierte Daten umwandeln.
- Diagrammanalyse: Datenvisualisierungen interpretieren.
- Objekterkennung: Objekte in Bildern identifizieren und lokalisieren.
Setup und Verwendung
Verwendung von Llama 3.2 Vision mit Ollama:
# Pull the model
ollama pull llama3.2-vision:11b
# Use it
from ollama import Client
client = Client()
with open("image.jpg", "rb") as f:
image_data = f.read()
response = client.generate(
model="llama3.2-vision:11b",
prompt="Describe this image",
images=[image_data] # Pass image data
)
print(response["response"])Praktische Anwendungsfälle
- Dokumentenverarbeitung: Text aus gescannten PDFs extrahieren ohne externen OCR-Service.
- Inhaltsmoderation: Unangemessene Bilder kennzeichnen, ohne an die Cloud zu senden.
- Barrierefreiheit: Bilder für sehbehinderte Benutzer beschreiben.
- Produktanalyse: Produktbilder im E-Commerce analysieren (Kategorie, Zustand, Mängel).
- Forschung: Wissenschaftliche Diagramme und Schaubilder analysieren.
Performance und Einschränkungen
Genauigkeit: Gut für Dokumenten-OCR und Beschreibung, aber nicht perfekt für detaillierte Analysen oder kleine Objekte.
Geschwindigkeit: 2-5 Sekunden pro Bild. Cloud-Modelle (GPT-4 Vision) sind 10-50× schneller.
Bildgröße: Unterstützt bis zu etwa 1.000×1.000 Pixel. Größere Bilder werden herunterskaliert.
Einschränkungen: Können GPT-4 Vision-Genauigkeit bei komplexen Szenen nicht erreichen. Kompromiss: Datenschutz vs. Qualität.
Häufige Fehler
- Erwarten Sie die Genauigkeit von GPT-4 Vision. Lokale Modelle sind 20-30% weniger genau. Verwenden Sie für spezifische Domänen, nicht für allgemeine Vision.
- Bilder nicht vorbereiten. Schneiden Sie Bilder auf den Fokusbereich zu. Entfernen Sie Rauschen. Bessere Eingabe = bessere Ausgabe.
- 7B-Modelle für komplexe Vision verwenden. Kleine Modelle kämpfen mit subtilen Details. Verwenden Sie 11B+ für zuverlässige Vision.
Quellen
- Llama 3.2 Vision Model Card -- huggingface.co/meta-llama/Llama-3.2-11B-Vision
- Qwen2-VL -- github.com/QwenLM/Qwen2-VL