PromptQuorumPromptQuorum

Welche Ollama-Modelle unterstützen Vision?

Schnelle Antwort

Ollama unterstützt mehrere Vision-Modelle: LLaVA, Gemma 3 multimodal und Qwen-VL. Der einfachste Einstieg ist ollama run llava. Alle akzeptieren Bilder über die Ollama API.

  • llava: Original-Vision-Modell, beste Kompatibilität
  • gemma3: Googles multimodales Modell, gute Qualität
  • qwen-vl: stark bei Dokumentenverständnis

Aktualisiert: 2026-05

Ollama

Wichtigste Punkte

  • Vier Ollama-Vision-Modelle sind produktionsreif: LLaVA, Llama 3.2 Vision, Qwen-VL und Gemma 3
  • Vision-Modelle benötigen 1–3 GB mehr VRAM als ihre Text-only-Äquivalente — der Bild-Encoder läuft neben dem LLM
  • LLaVA 7B ist der sicherste Einstieg (~7 GB VRAM, breite Client-Kompatibilität)
  • Nutzen Sie Qwen-VL für Diagramm- und Chart-Analyse; Llama 3.2 Vision 11B für OCR und mehrstufiges Schlussfolgern

Die wichtigsten Vision-Modelle auf Ollama

Stand Mai 2026 unterstützt Ollama vier produktionsreife Vision-Modelle: LLaVA, Llama 3.2 Vision, Qwen-VL und Gemma 3. Jedes hat eine spezifische Stärke und ein eigenes VRAM-Profil.

LLaVA ist der sicherste Einstiegspunkt — es bietet die breiteste Client-Kompatibilität und funktioniert mit jedem Bildformat, das Ollama akzeptiert. Llama 3.2 Vision 11B ist die beste Wahl für OCR und mehrstufiges visuelles Schlussfolgern. Qwen-VL führt bei Charts, Diagrammen und strukturierten Dokumenten. Die Vision-Variante von Gemma 3 verarbeitet 35+ Sprachen — nützlich, wenn Bilder nicht-englischen Text enthalten, z. B. Beschilderungen, fremdsprachige Dokumente oder Diagramme mit lokalisierten Beschriftungen. LLaVA und Qwen-VL sind am stärksten bei englischem Text.

Alle Vision-Modelle laden einen Bild-Encoder neben den LLM-Gewichten. Dieser Encoder benötigt 1–3 GB VRAM zusätzlich zu dem, was das reine Textmodell benötigt — planen Sie diesen Overhead beim Prüfen Ihres VRAM-Budgets ein.

VRAM-Anforderungen für Vision

Jedes Vision-Modell benötigt mehr VRAM als sein Text-only-Äquivalent. Ein 7B-Vision-Modell benötigt typischerweise 7–9 GB VRAM, nicht die ~6 GB, die Sie für ein 7B-Textmodell einplanen würden.

Für Diagramm- und Dokumentenanalyse bieten Qwen-VL 7B und Gemma 3 die VRAM-effizientesten Optionen mit starkem Diagrammverständnis. Für OCR und komplexes Schlussfolgern auf Bildern rechtfertigt Llama 3.2 Vision 11B den höheren VRAM-Bedarf. Den vollständigen Leitfaden zu multimodalen lokalen Modellen und Anwendungsfall-Matching finden Sie im Leitfaden für multimodale lokale LLMs.

ModellVRAM bei Q4Bildfähigkeit
LLaVA 7B~7 GBAllgemeine Bild-Q&A, breite Kompatibilität
Llama 3.2 Vision 11B~10 GBOCR, mehrstufiges visuelles Schlussfolgern
Qwen-VL 7B~7 GBCharts, Diagramme, Dokumentenanalyse
Gemma 3 (Vision)~6 GBMehrsprachiges Bildverständnis

Schnelle Antworten zu Ollama-Vision-Modellen

Wie sende ich ein Bild über die API an Ollama?
Senden Sie einen POST-Request an den /api/chat-Endpunkt mit dem Bild als Base64-String im images-Array. Minimaler JSON-Body: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} Für eine multimodale Option mit starker Tool-Call-Unterstützung siehe Qwen 3 auf Ollama.
Können Vision-Modelle OCR (Text aus Bildern lesen)?
Ja, aber die Qualität variiert. Llama 3.2 Vision 11B ist unter den von Ollama unterstützten Modellen am stärksten für OCR. LLaVA 7B kann klar gedruckten Text lesen, hat aber Schwierigkeiten mit Handschrift oder kleinen Schriftgrößen.
Welches Ollama-Vision-Modell eignet sich am besten für Charts und Diagramme?
Qwen-VL 7B. Es wurde auf strukturierten Bilddaten einschließlich Charts, Tabellen und Diagrammen feinabgestimmt und übertrifft LLaVA und Gemma 3 in Dokumentenverständnis-Benchmarks.
Unterstützen Vision-Modelle mehrere Bilder in einem Prompt?
Die Unterstützung variiert je nach Modell. LLaVA und Qwen-VL verarbeiten derzeit ein Bild pro Turn in Ollama. Llama 3.2 Vision unterstützt Multi-Bild-Eingaben je nach Ollama-Version und Client-Implementierung.