Schnelle Antwort
Ollama unterstützt mehrere Vision-Modelle: LLaVA, Gemma 3 multimodal und Qwen-VL. Der einfachste Einstieg ist ollama run llava. Alle akzeptieren Bilder über die Ollama API.
Aktualisiert: 2026-05
Wichtigste Punkte
Stand Mai 2026 unterstützt Ollama vier produktionsreife Vision-Modelle: LLaVA, Llama 3.2 Vision, Qwen-VL und Gemma 3. Jedes hat eine spezifische Stärke und ein eigenes VRAM-Profil.
LLaVA ist der sicherste Einstiegspunkt — es bietet die breiteste Client-Kompatibilität und funktioniert mit jedem Bildformat, das Ollama akzeptiert. Llama 3.2 Vision 11B ist die beste Wahl für OCR und mehrstufiges visuelles Schlussfolgern. Qwen-VL führt bei Charts, Diagrammen und strukturierten Dokumenten. Die Vision-Variante von Gemma 3 verarbeitet 35+ Sprachen — nützlich, wenn Bilder nicht-englischen Text enthalten, z. B. Beschilderungen, fremdsprachige Dokumente oder Diagramme mit lokalisierten Beschriftungen. LLaVA und Qwen-VL sind am stärksten bei englischem Text.
Alle Vision-Modelle laden einen Bild-Encoder neben den LLM-Gewichten. Dieser Encoder benötigt 1–3 GB VRAM zusätzlich zu dem, was das reine Textmodell benötigt — planen Sie diesen Overhead beim Prüfen Ihres VRAM-Budgets ein.
Jedes Vision-Modell benötigt mehr VRAM als sein Text-only-Äquivalent. Ein 7B-Vision-Modell benötigt typischerweise 7–9 GB VRAM, nicht die ~6 GB, die Sie für ein 7B-Textmodell einplanen würden.
Für Diagramm- und Dokumentenanalyse bieten Qwen-VL 7B und Gemma 3 die VRAM-effizientesten Optionen mit starkem Diagrammverständnis. Für OCR und komplexes Schlussfolgern auf Bildern rechtfertigt Llama 3.2 Vision 11B den höheren VRAM-Bedarf. Den vollständigen Leitfaden zu multimodalen lokalen Modellen und Anwendungsfall-Matching finden Sie im Leitfaden für multimodale lokale LLMs.
| Modell | VRAM bei Q4 | Bildfähigkeit |
|---|---|---|
| LLaVA 7B | ~7 GB | Allgemeine Bild-Q&A, breite Kompatibilität |
| Llama 3.2 Vision 11B | ~10 GB | OCR, mehrstufiges visuelles Schlussfolgern |
| Qwen-VL 7B | ~7 GB | Charts, Diagramme, Dokumentenanalyse |
| Gemma 3 (Vision) | ~6 GB | Mehrsprachiges Bildverständnis |
/api/chat-Endpunkt mit dem Bild als Base64-String im images-Array. Minimaler JSON-Body: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} Für eine multimodale Option mit starker Tool-Call-Unterstützung siehe Qwen 3 auf Ollama.