PromptQuorumPromptQuorum
Startseite/Power Local LLM/Lokale Vision-Modelle 2026: LLaVA, Llama 3.2 Vision, Qwen2-VL & Ollama Multimodal-Setup
Voice, Speech & Multimodal

Lokale Vision-Modelle 2026: LLaVA, Llama 3.2 Vision, Qwen2-VL & Ollama Multimodal-Setup

·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Für die meisten Entwickler mit 6–8 GB VRAM sind MiniCPM-V 2.6 (8B) oder LLaVA 1.6 7B via Ollama der empfohlene Einstiegspunkt 2026. Beide laufen in ~6 GB VRAM, unterstützen Dokument-OCR, Bild-Q&A und Screenshot-Analyse und sind mit einem einzigen Ollama-Pull-Befehl verfügbar. Für die beste Gesamtqualität mit 8–16 GB VRAM ist Llama 3.2 Vision 11B das beste lokale Vision-Modell und stärkste lokale VLM – besonders für Dokumente und Fotoanalyse. Mit nur 2 GB VRAM ist Moondream 2 (1,9B) die einzige praktische Wahl, bietet jedoch begrenztes Verständnis komplexer Szenen. Alle Modelle laufen nach dem Download vollständig offline – kein API-Schlüssel oder Cloud-Konto erforderlich.

Vision-Language-Modelle (VLMs) verarbeiten Bild- und Texteingaben gemeinsam und erzeugen Textausgaben – für Dokument-OCR, Bild-Q&A, Screenshot-Analyse und Diagramminterpretation, vollständig lokal. Im Jahr 2026 ist Ollama der einfachste Weg, VLMs auszuführen: Modell herunterladen, Bild senden, Beschreibung oder Antwort erhalten. Dieser Leitfaden vergleicht die führenden lokalen Vision-Modelle (LLaVA 1.6, Llama 3.2 Vision, MiniCPM-V 2.6, Moondream 2, Qwen2-VL, InternVL 2.5), erläutert das Ollama-Setup Schritt für Schritt und ordnet jedes Modell seinem besten Anwendungsfall zu.

Wichtigste Erkenntnisse

  • Llama 3.2 Vision 11B ist das beste lokale Vision-Modell für die meisten Entwickler mit 8–16 GB VRAM. Es verarbeitet Fotos, Dokumente und gemischte Inhalte mit der höchsten Genauigkeit seiner Klasse und ist direkt über Ollama verfügbar.
  • MiniCPM-V 2.6 (8B) ist die erste Wahl für Dokument-OCR bei 6 GB VRAM. Die Trainingsdaten umfassen hochauflösende Dokumentscans – damit genauer als LLaVA bei Tabellen, Rechnungen und dichtem Text.
  • LLaVA 1.6 7B ist das am besten dokumentierte und gemeinschaftsgetestete lokale VLM. Beste Allzweck-Wahl, wenn umfangreiche Beispiele, Tutorials und Fehlerbehebungsressourcen wichtig sind.
  • Moondream 2 (1,9B) ist die einzige praktische Option unter 4 GB VRAM. Schnell und kompakt, aber überfordert von komplexen Szenen, dichtem Text und präzisen Diagrammwerten.
  • InternVL 2.5 (8B) ist am stärksten für Code-Screenshots und UI-Analyse. Das Training umfasste GitHub-Screenshots, UI-Mockups und Code-Ausgaben.
  • **Alle Modelle sind über Ollama mit einem einzigen pull-Befehl verfügbar.** Keine Modellkonvertierung, Quantisierung oder Python-Setup erforderlich.
  • Keines dieser Modelle erreicht die Qualität von GPT-4o Vision. Lokale VLMs 2026 sind eine starke Tier-2-Option – ausgezeichnet für strukturierte Dokumente und klare Fotos, schwächer bei Handschrift und komplexen Infografiken.

Schnellübersicht

  • Was VLMs leisten: Bild- + Texteingabe → Textausgabe. Keine Bildgeneratoren – diese Modelle *verstehen* Bilder.
  • Ollama-Unterstützung: Alle Modelle in diesem Vergleich haben offizielle oder Community-Ollama-Integration (Stand Mai 2026).
  • Kleinstes nutzbares Modell: Moondream 2 mit 1,9B Parametern, ~2 GB VRAM.
  • Größtes praktisches lokales Modell: Llama 3.2 Vision 90B mit ~64 GB Unified Memory (Apple M-Series oder Multi-GPU).
  • Bild-Eingabeformat: JPEG, PNG, WebP. Maximale Auflösung variiert je Modell (typisch 1024×1024 bis 4096×4096).
  • OCR-Stärke: Qwen2-VL 7B ≈ MiniCPM-V 2.6 > Llama 3.2 Vision 11B > LLaVA 1.6 13B > LLaVA 1.6 7B > Moondream 2.
  • Multimodal ist langsamer: Vision-Modelle fügen einen Vision-Encoder zum LLM hinzu – ~30–60 % langsamere Token-Generierung als ein reines Textmodell gleicher Parameterzahl.

Was sind Vision-Language-Modelle (VLMs)?

Ein Vision-Language-Modell (VLM) ist ein neuronales Netz, das Bild- und Texteingaben gleichzeitig verarbeitet und Textausgaben erzeugt. Die Standardarchitektur verbindet einen Vision-Encoder (typischerweise CLIP oder SigLIP) mit einem Language-Decoder (einem LLM) über eine Projektionsschicht, die Bildmerkmale in den Token-Raum des LLMs überführt.

  • Unterschied zu Bildgeneratoren: Stable Diffusion, FLUX und DALL-E 3 sind Text-zu-Bild-Generatoren. VLMs sind Bild-zu-Text-Modelle – sie beschreiben, analysieren und beantworten Fragen zu Bildern.
  • Unterschied zu reinen OCR-Tools: Klassische OCR (Tesseract, PaddleOCR) extrahiert Text per Mustererkennung. VLMs verstehen Kontext – sie können den Inhalt einer Tabelle erklären, Fragen zu einem Diagramm beantworten oder Objekte identifizieren.
  • Warum lokal betreiben: Private Dokumente (Krankenakten, juristische Scans, Finanzberichte), proprietäre Screenshots oder Workflows, bei denen das Senden von Bildern an Cloud-APIs Compliance- oder Vertraulichkeitsbedenken aufwirft.
  • Was sie nicht können: Bilder generieren, Code aus Screenshots ausführen oder auf das Internet zugreifen. VLMs erzeugen ausschließlich Textausgaben basierend auf dem, was im Bild sichtbar ist.

Verfügbare lokale Vision-Modelle — Vergleichstabelle

Vergleich der leistungsfähigsten lokalen Vision-Modelle, verfügbar über Ollama oder direkte Inferenz (Stand Mai 2026). VRAM-Angaben für 4-Bit-quantisierte (Q4) Varianten.

📍 In einem Satz

Für 6–8 GB VRAM: MiniCPM-V 2.6 für Dokument-OCR, Llama 3.2 Vision 11B für allgemeine Bild-Q&A – beide lokal via Ollama.

💬 In einfachen Worten

Moondream als leichtgewichtige Option; LLaVA als sichere Allzweck-Wahl; MiniCPM-V als OCR-Spezialist; Llama 3.2 Vision als bestes Gesamtmodell; InternVL als UI/Code-Experte.

ModellParameterVRAM (Q4)BildtypenQualitätVia Ollama?
Moondream 21,9B~2 GBEinfache FotosGrundlegendJa
LLaVA 1.6 7B7B~6 GBFotos, Dokumente, DiagrammeGutJa
LLaVA 1.6 13B13B~10 GBFotos, Dokumente, DiagrammeSehr gutJa
MiniCPM-V 2.68B~6 GBFotos, Dokumente, OCRSehr gutJa
Llama 3.2 Vision 11B11B~8 GBFotos, DokumenteAusgezeichnetJa
Llama 3.2 Vision 90B90B~64 GBFotos, Dokumente, KomplexBestes lokales ModellJa
InternVL 2.5 8B8B~8 GBDokumente, Diagramme, UI, CodeAusgezeichnet (UI/Diagramme)Community
Qwen2-VL 7B7B~6 GBFotos, Dokumente, OCR, MehrsprachigAusgezeichnetJa
Qwen2-VL 72B72B~48 GBFotos, Dokumente, KomplexBestes Open-SourceJa
PaliGemma 2 3B3B~3 GBFotos, DokumenteGutCommunity
SmolVLM 2,2B2,2B~2 GBEinfache Fotos, BeschriftungenGrundlegend+Community

Praxistest: Rechnungsextraktion

Vergleich der Genauigkeit lokaler Vision-Modelle bei strukturierter Dokumentenextraktion. Test: 5 Felder aus derselben Musterrechnung extrahieren (Lieferant, Datum, Gesamt, Steuer, Positionen).

ModellAnbieterDatumGesamtSteuerPositionenBewertung
Moondream 22/5
LLaVA 1.6 7B4/5
MiniCPM-V 2.65/5
Qwen2-VL 7B5/5
Llama 3.2 11B5/5
GPT-4o Vision5/5

📌Note: Ergebnisse aus einem einzelnen Testdokument. Die Genauigkeit variiert je nach Dokumentqualität, Schriftart und Layoutkomplexität. Extrahierte Zahlen immer gegen das Quelldokument prüfen.

Multi-Bild-Unterstützung

Nicht alle lokalen Vision-Modelle akzeptieren mehrere Bilder in einer Anfrage. Multi-Bild-Unterstützung ist wichtig für Dokumentenverarbeitung und visuelle Vergleichsaufgaben.

  • MiniCPM-V 2.6 akzeptiert bis zu 4 Bilder pro Prompt; Qwen2-VL verarbeitet bis zu 8. LLaVA und Moondream akzeptieren nur einzelne Bilder pro Anfrage.
  • Wann Multi-Bild wichtig ist: Alle Seiten eines mehrseitigen PDFs für vollständige Extraktion senden. Zwei Produktfotos nebeneinander vergleichen. Vorher/Nachher-Screenshots in einem Prompt analysieren.
FunktionMoondreamLLaVA 7BMiniCPM-VQwen2-VLLLaVA 13BLlama 3.2 VisionInternVL
Multi-Bild-EingabeNeinNeinJa (bis zu 4)Ja (bis zu 8)NeinJa (mehrere Seiten)Ja

Setup mit Ollama — Schritt für Schritt

Ollama ist der einfachste Weg, lokale Vision-Modelle auszuführen. Nach der Installation funktionieren Vision-Modelle mit einem einzigen Pull-Befehl.

  • Schritt 1 — Ollama installieren: Download von ollama.com für macOS, Linux oder Windows. Installation unter 2 Minuten.
  • Schritt 2 — Modell herunterladen: ollama pull llama3.2-vision (11B, ~8 GB) oder ollama pull moondream (1,9B, ~2 GB) für VRAM-beschränkte Systeme.
  • Schritt 3 — Über CLI nutzen: ollama run llama3.2-vision "Was ist auf diesem Bild?" --image /pfad/zum/foto.jpg
  • Schritt 4 — HTTP-API nutzen: POST an http://localhost:11434/api/generate mit dem Bild als Base64-String im images-Array.
  • Schritt 5 — Python-Beispiel: requests-Bibliothek mit Base64-Kodierung verwenden – siehe Code-Block unten.
python
import base64
import requests

def ask_vision_model(image_path: str, prompt: str, model: str = "llama3.2-vision") -> str:
    with open(image_path, "rb") as f:
        image_b64 = base64.b64encode(f.read()).decode("utf-8")

    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "images": [image_b64],
            "stream": False,
        },
    )
    return response.json()["response"]

# Beispielaufruf
result = ask_vision_model("rechnung.png", "Extrahiere alle Positionen und Gesamtbeträge aus dieser Rechnung.")
print(result)

Anwendungsfall 1: Dokument-OCR und -Extraktion

VLMs übertreffen klassische OCR bei halbstrukturierten Dokumenten – Rechnungen, Quittungen, Verträge und Tabellen, bei denen Layout und Text gleich wichtig sind.

  • Was gut funktioniert: Gescannte Rechnungen, PDF-Screenshots, handgeschriebene Druckschrift, Tabellen mit klaren Linien, Visitenkarten.
  • Was weniger gut funktioniert: Kursivhandschrift, Scans unter 150 DPI, stark komprimierte JPEGs, überlappender Text.
  • Beste Modelle für OCR: MiniCPM-V 2.6 (höchste Genauigkeit in der 6-GB-Klasse), Llama 3.2 Vision 11B (beste Leistung bei gemischten Dokumenttypen).
  • Prompt-Engineering für OCR: „Extrahiere den gesamten Text aus diesem Dokument genau wie geschrieben." Oder: „Gib den Inhalt dieser Rechnung als JSON zurück mit Feldern: Anbieter, Datum, Positionen[], Gesamt."
  • Vs. klassische OCR: VLMs sind langsamer, aber semantisch mächtiger. Tesseract für reine Textextraktion aus sauberen Dokumenten; VLMs für strukturierte Datenextraktion.

Anwendungsfall 2: Bild-Q&A und -Beschreibung

Für allgemeines Szenenverständnis, Produktbeschreibungen und visuelle Q&A ist Llama 3.2 Vision 11B das empfohlene lokale Modell.

  • Szenenbeschreibung: „Was ist auf diesem Foto?" – Objekte, Personen, Aktivitäten, Umgebung, Stimmung.
  • Produktkatalogisierung: Produktfotos mit einem Template verarbeiten: „Beschreibe Farbe, Form, Material, Zustand." Nützlich für E-Commerce-Inventar ohne Cloud-APIs.
  • Barrierefreiheit: Alt-Texte für Bilder im großen Maßstab generieren.
  • Beste Modelle: LLaVA 1.6 13B oder Llama 3.2 Vision 11B für allgemeine Foto-Q&A. LLaVA 1.6 7B für Massenverarbeitung.
  • Geschwindigkeitshinweis: Auf einer 6-GB-GPU generiert Llama 3.2 Vision 11B Q4 ~8–12 Token/Sek. – 100 Bilder dauern ~2–5 Minuten.

Anwendungsfall 3: Screenshot- und UI-Analyse

Für die Analyse von Anwendungs-Screenshots, Fehlermeldungen und Dashboards ist InternVL 2.5 das stärkste lokale Modell.

  • Entwickler-Workflows: Screenshots von Fehlermeldungen an das Modell weiterleiten: „Was ist falsch und wie würde man es beheben?"
  • Bug-Report-Generierung: Automatische Erstellung von Bug-Beschreibungen aus Screenshots.
  • Dashboard-Monitoring: Screenshots auf Anomalien analysieren – „Gibt es Metriken auf Warnstufe in diesem Grafana-Screenshot?"
  • Accessibility-Testing: Screenshots vor und nach UI-Änderungen vergleichen.
  • Beste Modelle: InternVL 2.5 8B (bestes UI-Verständnis), MiniCPM-V 2.6 (zweitbeste mit Ollama-Unterstützung).

Anwendungsfall 4: Diagramm- und Grafikanalyse

Daten aus Diagrammen und Tabellen zu extrahieren ist möglich, erfordert aber sorgfältiges Prompting. Alle lokalen VLMs sind bei Diagrammen schwächer als bei Fotos – extrahierte Zahlen immer gegen Quelldaten prüfen.

  • Was gut funktioniert: Achsenbeschriftungen lesen, Trends erkennen, relative Balkenhöhen vergleichen, Tabellenwerte auslesen.
  • Was unzuverlässig ist: Präzise numerische Extraktion aus kontinuierlichen Diagrammen, Kreisdiagramm-Prozentsätze ohne Beschriftungen.
  • Prompt-Strategie: „Beschreibe den Trend" funktioniert besser als „Was ist der exakte Wert?"
  • Beste Modelle: InternVL 2.5 (bestes Diagrammverständnis), Llama 3.2 Vision 11B (gut bei klar beschrifteten Diagrammen).
  • Einschränkungshinweis: Kein lokales VLM extrahiert 2026 zuverlässig präzise Zahlen aus komplexen Diagrammen.

Anwendungsfall 5: Video-Frame-Analyse

Lokale Vision-Modelle können Videos analysieren, indem sie einzelne Frames verarbeiten – Frames per ffmpeg extrahieren, durch das Vision-Modell schicken, dann mit einem Text-LLM zusammenfassen. Nicht in Echtzeit: 1 Frame pro 0,5–3 Sekunden.

  • Frame-Extraktion: ffmpeg -i video.mp4 -vf fps=1 frames/frame_%04d.jpg
  • Frame-für-Frame-Analyse: Jeden Frame mit konsistentem Prompt durch das Vision-Modell schicken.
  • Übergreifende Zusammenfassung: Alle Frame-Beschreibungen an ein Text-LLM übergeben.
  • Anwendungsfälle: Sicherheitskamera-Review, Vorlesungsaufzeichnungsanalyse, Qualitätskontrolle in der Fertigung.
  • Beste Modelle: Llama 3.2 Vision 11B für Qualität, LLaVA 1.6 7B für Geschwindigkeit.
  • Geschwindigkeitsrealität: Ein 10-minütiges Video dauert ~20–30 Minuten vollständig zu verarbeiten.
python
import base64
import subprocess
import os
import requests

def extract_frames(video_path: str, output_dir: str, fps: int = 1) -> list[str]:
    os.makedirs(output_dir, exist_ok=True)
    subprocess.run([
        "ffmpeg", "-i", video_path,
        "-vf", f"fps={fps}",
        f"{output_dir}/frame_%04d.jpg",
        "-y"
    ], check=True)
    return sorted([
        os.path.join(output_dir, f)
        for f in os.listdir(output_dir)
        if f.endswith(".jpg")
    ])

def analyze_frame(image_path: str, model: str = "llama3.2-vision") -> str:
    with open(image_path, "rb") as f:
        image_b64 = base64.b64encode(f.read()).decode("utf-8")
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": "Describe what is happening in this frame in one sentence.",
            "images": [image_b64],
            "stream": False,
        },
    )
    return response.json()["response"]

frames = extract_frames("vorlesung.mp4", "frames/", fps=1)
descriptions = [analyze_frame(f) for f in frames]
print("\n".join(f"[{i+1}s] {d}" for i, d in enumerate(descriptions)))

VRAM und Leistungs-Realitätscheck

Lokale Vision-Modelle fügen einen Vision-Encoder zum Basis-LLM hinzu, was sowohl VRAM-Bedarf als auch Inferenzzeit erhöht.

ModellVRAM (Q4)Token/Sek. (RTX 4070)Token/Sek. (M5 Pro 36 GB)Produktionstauglich?
Moondream 2 (1,9B)~2 GB~25–35~30–40Ja — für einfache Aufgaben
LLaVA 1.6 7B~6 GB~15–20~18–25Ja — Allzweck
MiniCPM-V 2.6 (8B)~6 GB~12–18~15–20Ja — OCR und Dokumente
Llama 3.2 Vision 11B~8 GB~10–14~12–16Ja — beste Gesamtqualität
LLaVA 1.6 13B~10 GB~8–12~10–14Ja — mit 12-GB-GPU
Llama 3.2 Vision 90B~64 GBN/A (Multi-GPU oder M-Max)N/A (M5 Max 128 GB+)Nur High-End Apple Silicon

📌Note: Die Token-Generierungsgeschwindigkeit ist langsamer als bei reinen Textmodellen, da der Vision-Encoder beim ersten Bild-Token erheblichen Mehraufwand verursacht. Nachfolgende Text-Tokens werden nahezu normal generiert.

📌Note: Apple Silicon Unified Memory ermöglicht größere Modelle (bis 90B auf M5 Max 128 GB), die nicht in diskreten GPU-VRAM passen. Etwas langsamer als NVIDIA, aber ohne VRAM-Beschränkung.

Lokale Vision-Modelle vs. GPT-4o Vision

Lokale VLMs haben den Rückstand bei strukturierten Dokumenten deutlich verringert, liegen aber bei komplexen Aufgaben noch hinter GPT-4o Vision.

  • Strukturierte Dokumente (Rechnungen, Formulare): Lokale Modelle bei 80–90 % der GPT-4o-Qualität – ausreichend für den Produktionseinsatz.
  • Komplexe Szenen, mehrdeutige Bilder: Lokale Modelle bei 50–70 % von GPT-4o – spürbare Qualitätslücke.
  • Handschrifterkennung: Lokale Modelle deutlich schwächer, besonders bei Kursivschrift.
  • Diagrammdatenextraktion: Auf beiden unzuverlässig, aber GPT-4o bei präzisen Zahlenwerten genauer.
  • Kosten: GPT-4o Vision bei 0,01–0,03 $ pro Bild vs. 0 $ lokal. 10.000 Bilder/Monat = 100–300 $ gespart.
  • Datenschutz: Lokale Modelle verarbeiten Bilder auf dem Gerät – keine Daten verlassen die Maschine.
  • Geschwindigkeit: Lokale Modelle 10–20 Token/Sek. vs. GPT-4o 30–80 Token/Sek., aber lokal ohne Netzwerklatenz.

📌Note: Für Rechnungs- und Formularverarbeitung mit sauberem Input können lokale VLMs (Llama 3.2 Vision 11B, Qwen2-VL 7B) GPT-4o Vision bei null Kosten ersetzen.

LLaVA im Detail

LLaVA (Large Language and Vision Assistant) ist die grundlegende Open-Source-VLM-Architektur. Veröffentlicht von der University of Wisconsin-Madison und Microsoft Research 2023.

  • Architektur: CLIP ViT-L/14 Vision-Encoder + Llama-2 oder Mistral Text-Decoder, verbunden durch eine lineare Projektionsschicht.
  • LLaVA 1.5 vs. 1.6: Version 1.6 (Anfang 2024) fügte dynamisches Patching für höhere Auflösungen hinzu und verbesserte OCR und Diagrammauswertung deutlich.
  • Training: Instruction-tuning auf LLaVA-Instruct-150K – visuellen Konversationen aus Bildbeschriftungen und Objekterkennungsannotationen.
  • Stärken: Breites Allgemeinwissen, gut dokumentiert, große Community, umfangreiche Ollama-Integration.
  • Schwächen: Schwächere OCR als MiniCPM-V 2.6, schwächere UI-Analyse als InternVL 2.5.
  • Warum weiterhin empfohlen: Größte Community, meiste Tutorials, meiste Beispiel-Prompts aller lokalen VLMs.

Qwen2-VL — Beste multilinguale OCR-Leistung

Qwen2-VL ist Alibabas Vision-Language-Modell und 2026 die stärkste Open-Source-Option bei Dokument-Benchmarks.

  • Architektur: Dynamische Auflösung bis 4096×4096 – deutlich höher als LLaVA 1.6 (672×672) oder Llama 3.2 Vision (1120×1120).
  • Mehrsprachige OCR: Beste Klasse für Chinesisch, Japanisch, Koreanisch und Englisch. Umfangreiche mehrsprachige Dokumentkorpora im Training.
  • 7B vs. 72B: 7B in ~6 GB VRAM (Q4), konkurrenzfähig mit Llama 3.2 Vision 11B. 72B mit ~48 GB führt Open-Source-Benchmarks an.
  • Ollama-Installation: ollama pull qwen2-vl:7b
  • Multi-Bild: Bis zu 8 Bilder pro Anfrage – höchste Kapazität im Vergleich.
  • Modellseite: Qwen2-VL 7B auf Hugging Face

Auswahl des richtigen Vision-Modells

Entscheidungsbaum für die Modellauswahl – VRAM zuerst:

📍 In einem Satz

Modell nach VRAM wählen (2→4→6→8→16 GB), dann nach Anwendungsfall verfeinern.

💬 In einfachen Worten

Unter 4 GB: nur Moondream. 6 GB: MiniCPM-V für Dokumente, LLaVA 7B für Fotos. 8–16 GB: Llama 3.2 Vision 11B für fast alles. 64+ GB: Llama 3.2 Vision 90B für beste Qualität.

  • Unter 4 GB VRAM: Moondream 2 (1,9B) bei 2 GB. PaliGemma 2 (3B) und SmolVLM (2,2B) als Alternativen – PaliGemma 2 mit besserem Dokumentenverständnis (~3 GB). Keines für dichten Text-OCR geeignet.
  • 6 GB VRAM: MiniCPM-V 2.6 für Dokument-OCR. LLaVA 1.6 7B für allgemeine Foto-Q&A. Qwen2-VL 7B für mehrsprachige OCR.
  • 8–16 GB VRAM: Llama 3.2 Vision 11B – beste Gesamtqualität, breite Ollama-Unterstützung.
  • 16+ GB VRAM: LLaVA 1.6 13B für komplexes Szenenverständnis. InternVL 2.5 8B für UI/Code-Screenshots.
  • 64+ GB Unified Memory: Llama 3.2 Vision 90B für beste lokale Qualität. Qwen2-VL 72B als Alternative mit führenden Benchmark-Werten.
  • Zahlen immer prüfen: Aus Diagrammen extrahierte Zahlenwerte immer gegen Quelldaten gegenchecken.

FAQ

Kann ich LLaVA oder Llama 3.2 Vision ohne Ollama verwenden?

Ja. Beide können direkt über llama.cpp (mit Vision-Unterstützung), die transformers-Bibliothek oder LM Studio ausgeführt werden. Ollama wird der Einfachheit halber empfohlen.

Unterstützt Llama 3.2 Vision direkte PDF-Eingabe?

Kein lokales VLM akzeptiert PDFs direkt. PDF-Seiten zuerst in Bilder umwandeln (pdf2image, pypdfium2) und jede Seite als separate Anfrage senden.

Wie vergleichen sich lokale Vision-Modelle mit GPT-4o Vision?

GPT-4o ist bei mehrdeutigen Szenen, Handschrift und komplexen Infografiken noch deutlich besser. Llama 3.2 Vision 11B nähert sich GPT-4o bei strukturierten Dokumenten. Den vollständigen Vergleich mit Kosten, Datenschutz und Geschwindigkeit siehe oben.

Welche Bildauflösung unterstützen lokale VLMs?

LLaVA 1.6 bis 672×672 (dynamisches Patching). MiniCPM-V 2.6 bis 1792×1792. Llama 3.2 Vision bis 1120×1120. Für beste OCR-Ergebnisse Dokumente mit 150+ DPI senden.

Kann ich ein lokales Vision-Modell auf eigenen Bildern fine-tunen?

Ja, aber ressourcenintensiver als reines Text-LLM-Fine-Tuning. LLaVA-Fine-Tuning mit dem Original-Trainings-Code gut dokumentiert. MiniCPM-V über Hugging Face-Skripte. Für die meisten Fälle reicht Prompt-Engineering.

Was ist das beste lokale Vision-Modell für 8 GB VRAM?

Llama 3.2 Vision 11B (Q4 passt in ~8 GB) für den allgemeinen Einsatz. Qwen2-VL 7B für mehrsprachige OCR. Beide über Ollama verfügbar.

LLaVA vs. MiniCPM-V – welches ist besser für OCR?

MiniCPM-V 2.6 ist bei Dokument-OCR genauer, besonders bei dichten Tabellen und hochauflösenden Scans. LLaVA ist besser dokumentiert. Für OCR-Genauigkeit: MiniCPM-V. Für Community-Ressourcen: LLaVA.

Können lokale Vision-Modelle Handschrift erkennen?

Druckschrift: Ja, mit moderater Genauigkeit. Kursivschrift: Unzuverlässig bei allen lokalen Modellen. GPT-4o Vision ist bei Kursivschrift deutlich besser.

Muss ich beim Einsatz lokaler Vision-Modelle die DSGVO beachten?

Da lokale VLMs Bilder ausschließlich auf dem eigenen Gerät verarbeiten, sind die Anforderungen nach DSGVO Art. 28 (Auftragsverarbeitung) in der Regel nicht anwendbar. Für Unternehmen mit Personendaten in Dokumenten empfiehlt sich eine Dokumentation nach BSI-Grundschutz. Die vollständige Offline-Verarbeitung gilt als datenschutzfreundliche Technik gemäß DSGVO Art. 25.

Ist der Einsatz lokaler Vision-Modelle für den deutschen Mittelstand geeignet?

Ja. Für KMU, die sensible Geschäftsdokumente verarbeiten, bieten lokale VLMs klare Vorteile: keine Datenweitergabe an Cloud-Anbieter, Betrieb auf vorhandener Hardware (ab 8 GB VRAM), keine laufenden API-Kosten. Die BSI-Grundschutz-Kataloge empfehlen lokale Verarbeitung für vertrauliche Geschäftsdaten. Llama 3.2 Vision 11B ist ab 8 GB VRAM produktionstauglich.

Quellen

← Zurück zu Power Local LLM

Lokale Vision-Modelle 2026: LLaVA, Llama 3.2 Vision, Qwen2-VL & Ollama Setup