Wichtigste Erkenntnisse
- Llama 3.2 Vision 11B ist das beste lokale Vision-Modell für die meisten Entwickler mit 8–16 GB VRAM. Es verarbeitet Fotos, Dokumente und gemischte Inhalte mit der höchsten Genauigkeit seiner Klasse und ist direkt über Ollama verfügbar.
- MiniCPM-V 2.6 (8B) ist die erste Wahl für Dokument-OCR bei 6 GB VRAM. Die Trainingsdaten umfassen hochauflösende Dokumentscans – damit genauer als LLaVA bei Tabellen, Rechnungen und dichtem Text.
- LLaVA 1.6 7B ist das am besten dokumentierte und gemeinschaftsgetestete lokale VLM. Beste Allzweck-Wahl, wenn umfangreiche Beispiele, Tutorials und Fehlerbehebungsressourcen wichtig sind.
- Moondream 2 (1,9B) ist die einzige praktische Option unter 4 GB VRAM. Schnell und kompakt, aber überfordert von komplexen Szenen, dichtem Text und präzisen Diagrammwerten.
- InternVL 2.5 (8B) ist am stärksten für Code-Screenshots und UI-Analyse. Das Training umfasste GitHub-Screenshots, UI-Mockups und Code-Ausgaben.
- **Alle Modelle sind über Ollama mit einem einzigen
pull-Befehl verfügbar.** Keine Modellkonvertierung, Quantisierung oder Python-Setup erforderlich. - Keines dieser Modelle erreicht die Qualität von GPT-4o Vision. Lokale VLMs 2026 sind eine starke Tier-2-Option – ausgezeichnet für strukturierte Dokumente und klare Fotos, schwächer bei Handschrift und komplexen Infografiken.
Schnellübersicht
- Was VLMs leisten: Bild- + Texteingabe → Textausgabe. Keine Bildgeneratoren – diese Modelle *verstehen* Bilder.
- Ollama-Unterstützung: Alle Modelle in diesem Vergleich haben offizielle oder Community-Ollama-Integration (Stand Mai 2026).
- Kleinstes nutzbares Modell: Moondream 2 mit 1,9B Parametern, ~2 GB VRAM.
- Größtes praktisches lokales Modell: Llama 3.2 Vision 90B mit ~64 GB Unified Memory (Apple M-Series oder Multi-GPU).
- Bild-Eingabeformat: JPEG, PNG, WebP. Maximale Auflösung variiert je Modell (typisch 1024×1024 bis 4096×4096).
- OCR-Stärke: Qwen2-VL 7B ≈ MiniCPM-V 2.6 > Llama 3.2 Vision 11B > LLaVA 1.6 13B > LLaVA 1.6 7B > Moondream 2.
- Multimodal ist langsamer: Vision-Modelle fügen einen Vision-Encoder zum LLM hinzu – ~30–60 % langsamere Token-Generierung als ein reines Textmodell gleicher Parameterzahl.
Was sind Vision-Language-Modelle (VLMs)?
Ein Vision-Language-Modell (VLM) ist ein neuronales Netz, das Bild- und Texteingaben gleichzeitig verarbeitet und Textausgaben erzeugt. Die Standardarchitektur verbindet einen Vision-Encoder (typischerweise CLIP oder SigLIP) mit einem Language-Decoder (einem LLM) über eine Projektionsschicht, die Bildmerkmale in den Token-Raum des LLMs überführt.
- Unterschied zu Bildgeneratoren: Stable Diffusion, FLUX und DALL-E 3 sind Text-zu-Bild-Generatoren. VLMs sind Bild-zu-Text-Modelle – sie beschreiben, analysieren und beantworten Fragen zu Bildern.
- Unterschied zu reinen OCR-Tools: Klassische OCR (Tesseract, PaddleOCR) extrahiert Text per Mustererkennung. VLMs verstehen Kontext – sie können den Inhalt einer Tabelle erklären, Fragen zu einem Diagramm beantworten oder Objekte identifizieren.
- Warum lokal betreiben: Private Dokumente (Krankenakten, juristische Scans, Finanzberichte), proprietäre Screenshots oder Workflows, bei denen das Senden von Bildern an Cloud-APIs Compliance- oder Vertraulichkeitsbedenken aufwirft.
- Was sie nicht können: Bilder generieren, Code aus Screenshots ausführen oder auf das Internet zugreifen. VLMs erzeugen ausschließlich Textausgaben basierend auf dem, was im Bild sichtbar ist.
Verfügbare lokale Vision-Modelle — Vergleichstabelle
Vergleich der leistungsfähigsten lokalen Vision-Modelle, verfügbar über Ollama oder direkte Inferenz (Stand Mai 2026). VRAM-Angaben für 4-Bit-quantisierte (Q4) Varianten.
📍 In einem Satz
Für 6–8 GB VRAM: MiniCPM-V 2.6 für Dokument-OCR, Llama 3.2 Vision 11B für allgemeine Bild-Q&A – beide lokal via Ollama.
💬 In einfachen Worten
Moondream als leichtgewichtige Option; LLaVA als sichere Allzweck-Wahl; MiniCPM-V als OCR-Spezialist; Llama 3.2 Vision als bestes Gesamtmodell; InternVL als UI/Code-Experte.
| Modell | Parameter | VRAM (Q4) | Bildtypen | Qualität | Via Ollama? |
|---|---|---|---|---|---|
| Moondream 2 | 1,9B | ~2 GB | Einfache Fotos | Grundlegend | Ja |
| LLaVA 1.6 7B | 7B | ~6 GB | Fotos, Dokumente, Diagramme | Gut | Ja |
| LLaVA 1.6 13B | 13B | ~10 GB | Fotos, Dokumente, Diagramme | Sehr gut | Ja |
| MiniCPM-V 2.6 | 8B | ~6 GB | Fotos, Dokumente, OCR | Sehr gut | Ja |
| Llama 3.2 Vision 11B | 11B | ~8 GB | Fotos, Dokumente | Ausgezeichnet | Ja |
| Llama 3.2 Vision 90B | 90B | ~64 GB | Fotos, Dokumente, Komplex | Bestes lokales Modell | Ja |
| InternVL 2.5 8B | 8B | ~8 GB | Dokumente, Diagramme, UI, Code | Ausgezeichnet (UI/Diagramme) | Community |
| Qwen2-VL 7B | 7B | ~6 GB | Fotos, Dokumente, OCR, Mehrsprachig | Ausgezeichnet | Ja |
| Qwen2-VL 72B | 72B | ~48 GB | Fotos, Dokumente, Komplex | Bestes Open-Source | Ja |
| PaliGemma 2 3B | 3B | ~3 GB | Fotos, Dokumente | Gut | Community |
| SmolVLM 2,2B | 2,2B | ~2 GB | Einfache Fotos, Beschriftungen | Grundlegend+ | Community |
Praxistest: Rechnungsextraktion
Vergleich der Genauigkeit lokaler Vision-Modelle bei strukturierter Dokumentenextraktion. Test: 5 Felder aus derselben Musterrechnung extrahieren (Lieferant, Datum, Gesamt, Steuer, Positionen).
| Modell | Anbieter | Datum | Gesamt | Steuer | Positionen | Bewertung |
|---|---|---|---|---|---|---|
| Moondream 2 | ✓ | ✓ | ✗ | ✗ | ✗ | 2/5 |
| LLaVA 1.6 7B | ✓ | ✓ | ✓ | ✗ | ✓ | 4/5 |
| MiniCPM-V 2.6 | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
| Qwen2-VL 7B | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
| Llama 3.2 11B | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
| GPT-4o Vision | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
📌Note: Ergebnisse aus einem einzelnen Testdokument. Die Genauigkeit variiert je nach Dokumentqualität, Schriftart und Layoutkomplexität. Extrahierte Zahlen immer gegen das Quelldokument prüfen.
Multi-Bild-Unterstützung
Nicht alle lokalen Vision-Modelle akzeptieren mehrere Bilder in einer Anfrage. Multi-Bild-Unterstützung ist wichtig für Dokumentenverarbeitung und visuelle Vergleichsaufgaben.
- MiniCPM-V 2.6 akzeptiert bis zu 4 Bilder pro Prompt; Qwen2-VL verarbeitet bis zu 8. LLaVA und Moondream akzeptieren nur einzelne Bilder pro Anfrage.
- Wann Multi-Bild wichtig ist: Alle Seiten eines mehrseitigen PDFs für vollständige Extraktion senden. Zwei Produktfotos nebeneinander vergleichen. Vorher/Nachher-Screenshots in einem Prompt analysieren.
| Funktion | Moondream | LLaVA 7B | MiniCPM-V | Qwen2-VL | LLaVA 13B | Llama 3.2 Vision | InternVL |
|---|---|---|---|---|---|---|---|
| Multi-Bild-Eingabe | Nein | Nein | Ja (bis zu 4) | Ja (bis zu 8) | Nein | Ja (mehrere Seiten) | Ja |
Setup mit Ollama — Schritt für Schritt
Ollama ist der einfachste Weg, lokale Vision-Modelle auszuführen. Nach der Installation funktionieren Vision-Modelle mit einem einzigen Pull-Befehl.
- Schritt 1 — Ollama installieren: Download von ollama.com für macOS, Linux oder Windows. Installation unter 2 Minuten.
- Schritt 2 — Modell herunterladen:
ollama pull llama3.2-vision(11B, ~8 GB) oderollama pull moondream(1,9B, ~2 GB) für VRAM-beschränkte Systeme. - Schritt 3 — Über CLI nutzen:
ollama run llama3.2-vision "Was ist auf diesem Bild?" --image /pfad/zum/foto.jpg - Schritt 4 — HTTP-API nutzen: POST an
http://localhost:11434/api/generatemit dem Bild als Base64-String imimages-Array. - Schritt 5 — Python-Beispiel:
requests-Bibliothek mit Base64-Kodierung verwenden – siehe Code-Block unten.
import base64
import requests
def ask_vision_model(image_path: str, prompt: str, model: str = "llama3.2-vision") -> str:
with open(image_path, "rb") as f:
image_b64 = base64.b64encode(f.read()).decode("utf-8")
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": model,
"prompt": prompt,
"images": [image_b64],
"stream": False,
},
)
return response.json()["response"]
# Beispielaufruf
result = ask_vision_model("rechnung.png", "Extrahiere alle Positionen und Gesamtbeträge aus dieser Rechnung.")
print(result)Anwendungsfall 1: Dokument-OCR und -Extraktion
VLMs übertreffen klassische OCR bei halbstrukturierten Dokumenten – Rechnungen, Quittungen, Verträge und Tabellen, bei denen Layout und Text gleich wichtig sind.
- Was gut funktioniert: Gescannte Rechnungen, PDF-Screenshots, handgeschriebene Druckschrift, Tabellen mit klaren Linien, Visitenkarten.
- Was weniger gut funktioniert: Kursivhandschrift, Scans unter 150 DPI, stark komprimierte JPEGs, überlappender Text.
- Beste Modelle für OCR: MiniCPM-V 2.6 (höchste Genauigkeit in der 6-GB-Klasse), Llama 3.2 Vision 11B (beste Leistung bei gemischten Dokumenttypen).
- Prompt-Engineering für OCR: „Extrahiere den gesamten Text aus diesem Dokument genau wie geschrieben." Oder: „Gib den Inhalt dieser Rechnung als JSON zurück mit Feldern: Anbieter, Datum, Positionen[], Gesamt."
- Vs. klassische OCR: VLMs sind langsamer, aber semantisch mächtiger. Tesseract für reine Textextraktion aus sauberen Dokumenten; VLMs für strukturierte Datenextraktion.
Anwendungsfall 2: Bild-Q&A und -Beschreibung
Für allgemeines Szenenverständnis, Produktbeschreibungen und visuelle Q&A ist Llama 3.2 Vision 11B das empfohlene lokale Modell.
- Szenenbeschreibung: „Was ist auf diesem Foto?" – Objekte, Personen, Aktivitäten, Umgebung, Stimmung.
- Produktkatalogisierung: Produktfotos mit einem Template verarbeiten: „Beschreibe Farbe, Form, Material, Zustand." Nützlich für E-Commerce-Inventar ohne Cloud-APIs.
- Barrierefreiheit: Alt-Texte für Bilder im großen Maßstab generieren.
- Beste Modelle: LLaVA 1.6 13B oder Llama 3.2 Vision 11B für allgemeine Foto-Q&A. LLaVA 1.6 7B für Massenverarbeitung.
- Geschwindigkeitshinweis: Auf einer 6-GB-GPU generiert Llama 3.2 Vision 11B Q4 ~8–12 Token/Sek. – 100 Bilder dauern ~2–5 Minuten.
Anwendungsfall 3: Screenshot- und UI-Analyse
Für die Analyse von Anwendungs-Screenshots, Fehlermeldungen und Dashboards ist InternVL 2.5 das stärkste lokale Modell.
- Entwickler-Workflows: Screenshots von Fehlermeldungen an das Modell weiterleiten: „Was ist falsch und wie würde man es beheben?"
- Bug-Report-Generierung: Automatische Erstellung von Bug-Beschreibungen aus Screenshots.
- Dashboard-Monitoring: Screenshots auf Anomalien analysieren – „Gibt es Metriken auf Warnstufe in diesem Grafana-Screenshot?"
- Accessibility-Testing: Screenshots vor und nach UI-Änderungen vergleichen.
- Beste Modelle: InternVL 2.5 8B (bestes UI-Verständnis), MiniCPM-V 2.6 (zweitbeste mit Ollama-Unterstützung).
Anwendungsfall 4: Diagramm- und Grafikanalyse
Daten aus Diagrammen und Tabellen zu extrahieren ist möglich, erfordert aber sorgfältiges Prompting. Alle lokalen VLMs sind bei Diagrammen schwächer als bei Fotos – extrahierte Zahlen immer gegen Quelldaten prüfen.
- Was gut funktioniert: Achsenbeschriftungen lesen, Trends erkennen, relative Balkenhöhen vergleichen, Tabellenwerte auslesen.
- Was unzuverlässig ist: Präzise numerische Extraktion aus kontinuierlichen Diagrammen, Kreisdiagramm-Prozentsätze ohne Beschriftungen.
- Prompt-Strategie: „Beschreibe den Trend" funktioniert besser als „Was ist der exakte Wert?"
- Beste Modelle: InternVL 2.5 (bestes Diagrammverständnis), Llama 3.2 Vision 11B (gut bei klar beschrifteten Diagrammen).
- Einschränkungshinweis: Kein lokales VLM extrahiert 2026 zuverlässig präzise Zahlen aus komplexen Diagrammen.
Anwendungsfall 5: Video-Frame-Analyse
Lokale Vision-Modelle können Videos analysieren, indem sie einzelne Frames verarbeiten – Frames per ffmpeg extrahieren, durch das Vision-Modell schicken, dann mit einem Text-LLM zusammenfassen. Nicht in Echtzeit: 1 Frame pro 0,5–3 Sekunden.
- Frame-Extraktion:
ffmpeg -i video.mp4 -vf fps=1 frames/frame_%04d.jpg - Frame-für-Frame-Analyse: Jeden Frame mit konsistentem Prompt durch das Vision-Modell schicken.
- Übergreifende Zusammenfassung: Alle Frame-Beschreibungen an ein Text-LLM übergeben.
- Anwendungsfälle: Sicherheitskamera-Review, Vorlesungsaufzeichnungsanalyse, Qualitätskontrolle in der Fertigung.
- Beste Modelle: Llama 3.2 Vision 11B für Qualität, LLaVA 1.6 7B für Geschwindigkeit.
- Geschwindigkeitsrealität: Ein 10-minütiges Video dauert ~20–30 Minuten vollständig zu verarbeiten.
import base64
import subprocess
import os
import requests
def extract_frames(video_path: str, output_dir: str, fps: int = 1) -> list[str]:
os.makedirs(output_dir, exist_ok=True)
subprocess.run([
"ffmpeg", "-i", video_path,
"-vf", f"fps={fps}",
f"{output_dir}/frame_%04d.jpg",
"-y"
], check=True)
return sorted([
os.path.join(output_dir, f)
for f in os.listdir(output_dir)
if f.endswith(".jpg")
])
def analyze_frame(image_path: str, model: str = "llama3.2-vision") -> str:
with open(image_path, "rb") as f:
image_b64 = base64.b64encode(f.read()).decode("utf-8")
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": model,
"prompt": "Describe what is happening in this frame in one sentence.",
"images": [image_b64],
"stream": False,
},
)
return response.json()["response"]
frames = extract_frames("vorlesung.mp4", "frames/", fps=1)
descriptions = [analyze_frame(f) for f in frames]
print("\n".join(f"[{i+1}s] {d}" for i, d in enumerate(descriptions)))VRAM und Leistungs-Realitätscheck
Lokale Vision-Modelle fügen einen Vision-Encoder zum Basis-LLM hinzu, was sowohl VRAM-Bedarf als auch Inferenzzeit erhöht.
| Modell | VRAM (Q4) | Token/Sek. (RTX 4070) | Token/Sek. (M5 Pro 36 GB) | Produktionstauglich? |
|---|---|---|---|---|
| Moondream 2 (1,9B) | ~2 GB | ~25–35 | ~30–40 | Ja — für einfache Aufgaben |
| LLaVA 1.6 7B | ~6 GB | ~15–20 | ~18–25 | Ja — Allzweck |
| MiniCPM-V 2.6 (8B) | ~6 GB | ~12–18 | ~15–20 | Ja — OCR und Dokumente |
| Llama 3.2 Vision 11B | ~8 GB | ~10–14 | ~12–16 | Ja — beste Gesamtqualität |
| LLaVA 1.6 13B | ~10 GB | ~8–12 | ~10–14 | Ja — mit 12-GB-GPU |
| Llama 3.2 Vision 90B | ~64 GB | N/A (Multi-GPU oder M-Max) | N/A (M5 Max 128 GB+) | Nur High-End Apple Silicon |
📌Note: Die Token-Generierungsgeschwindigkeit ist langsamer als bei reinen Textmodellen, da der Vision-Encoder beim ersten Bild-Token erheblichen Mehraufwand verursacht. Nachfolgende Text-Tokens werden nahezu normal generiert.
📌Note: Apple Silicon Unified Memory ermöglicht größere Modelle (bis 90B auf M5 Max 128 GB), die nicht in diskreten GPU-VRAM passen. Etwas langsamer als NVIDIA, aber ohne VRAM-Beschränkung.
Lokale Vision-Modelle vs. GPT-4o Vision
Lokale VLMs haben den Rückstand bei strukturierten Dokumenten deutlich verringert, liegen aber bei komplexen Aufgaben noch hinter GPT-4o Vision.
- Strukturierte Dokumente (Rechnungen, Formulare): Lokale Modelle bei 80–90 % der GPT-4o-Qualität – ausreichend für den Produktionseinsatz.
- Komplexe Szenen, mehrdeutige Bilder: Lokale Modelle bei 50–70 % von GPT-4o – spürbare Qualitätslücke.
- Handschrifterkennung: Lokale Modelle deutlich schwächer, besonders bei Kursivschrift.
- Diagrammdatenextraktion: Auf beiden unzuverlässig, aber GPT-4o bei präzisen Zahlenwerten genauer.
- Kosten: GPT-4o Vision bei 0,01–0,03 $ pro Bild vs. 0 $ lokal. 10.000 Bilder/Monat = 100–300 $ gespart.
- Datenschutz: Lokale Modelle verarbeiten Bilder auf dem Gerät – keine Daten verlassen die Maschine.
- Geschwindigkeit: Lokale Modelle 10–20 Token/Sek. vs. GPT-4o 30–80 Token/Sek., aber lokal ohne Netzwerklatenz.
📌Note: Für Rechnungs- und Formularverarbeitung mit sauberem Input können lokale VLMs (Llama 3.2 Vision 11B, Qwen2-VL 7B) GPT-4o Vision bei null Kosten ersetzen.
LLaVA im Detail
LLaVA (Large Language and Vision Assistant) ist die grundlegende Open-Source-VLM-Architektur. Veröffentlicht von der University of Wisconsin-Madison und Microsoft Research 2023.
- Architektur: CLIP ViT-L/14 Vision-Encoder + Llama-2 oder Mistral Text-Decoder, verbunden durch eine lineare Projektionsschicht.
- LLaVA 1.5 vs. 1.6: Version 1.6 (Anfang 2024) fügte dynamisches Patching für höhere Auflösungen hinzu und verbesserte OCR und Diagrammauswertung deutlich.
- Training: Instruction-tuning auf LLaVA-Instruct-150K – visuellen Konversationen aus Bildbeschriftungen und Objekterkennungsannotationen.
- Stärken: Breites Allgemeinwissen, gut dokumentiert, große Community, umfangreiche Ollama-Integration.
- Schwächen: Schwächere OCR als MiniCPM-V 2.6, schwächere UI-Analyse als InternVL 2.5.
- Warum weiterhin empfohlen: Größte Community, meiste Tutorials, meiste Beispiel-Prompts aller lokalen VLMs.
Qwen2-VL — Beste multilinguale OCR-Leistung
Qwen2-VL ist Alibabas Vision-Language-Modell und 2026 die stärkste Open-Source-Option bei Dokument-Benchmarks.
- Architektur: Dynamische Auflösung bis 4096×4096 – deutlich höher als LLaVA 1.6 (672×672) oder Llama 3.2 Vision (1120×1120).
- Mehrsprachige OCR: Beste Klasse für Chinesisch, Japanisch, Koreanisch und Englisch. Umfangreiche mehrsprachige Dokumentkorpora im Training.
- 7B vs. 72B: 7B in ~6 GB VRAM (Q4), konkurrenzfähig mit Llama 3.2 Vision 11B. 72B mit ~48 GB führt Open-Source-Benchmarks an.
- Ollama-Installation:
ollama pull qwen2-vl:7b - Multi-Bild: Bis zu 8 Bilder pro Anfrage – höchste Kapazität im Vergleich.
- Modellseite: Qwen2-VL 7B auf Hugging Face
Auswahl des richtigen Vision-Modells
Entscheidungsbaum für die Modellauswahl – VRAM zuerst:
📍 In einem Satz
Modell nach VRAM wählen (2→4→6→8→16 GB), dann nach Anwendungsfall verfeinern.
💬 In einfachen Worten
Unter 4 GB: nur Moondream. 6 GB: MiniCPM-V für Dokumente, LLaVA 7B für Fotos. 8–16 GB: Llama 3.2 Vision 11B für fast alles. 64+ GB: Llama 3.2 Vision 90B für beste Qualität.
- Unter 4 GB VRAM: Moondream 2 (1,9B) bei 2 GB. PaliGemma 2 (3B) und SmolVLM (2,2B) als Alternativen – PaliGemma 2 mit besserem Dokumentenverständnis (~3 GB). Keines für dichten Text-OCR geeignet.
- 6 GB VRAM: MiniCPM-V 2.6 für Dokument-OCR. LLaVA 1.6 7B für allgemeine Foto-Q&A. Qwen2-VL 7B für mehrsprachige OCR.
- 8–16 GB VRAM: Llama 3.2 Vision 11B – beste Gesamtqualität, breite Ollama-Unterstützung.
- 16+ GB VRAM: LLaVA 1.6 13B für komplexes Szenenverständnis. InternVL 2.5 8B für UI/Code-Screenshots.
- 64+ GB Unified Memory: Llama 3.2 Vision 90B für beste lokale Qualität. Qwen2-VL 72B als Alternative mit führenden Benchmark-Werten.
- Zahlen immer prüfen: Aus Diagrammen extrahierte Zahlenwerte immer gegen Quelldaten gegenchecken.
FAQ
Kann ich LLaVA oder Llama 3.2 Vision ohne Ollama verwenden?
Ja. Beide können direkt über llama.cpp (mit Vision-Unterstützung), die transformers-Bibliothek oder LM Studio ausgeführt werden. Ollama wird der Einfachheit halber empfohlen.
Unterstützt Llama 3.2 Vision direkte PDF-Eingabe?
Kein lokales VLM akzeptiert PDFs direkt. PDF-Seiten zuerst in Bilder umwandeln (pdf2image, pypdfium2) und jede Seite als separate Anfrage senden.
Wie vergleichen sich lokale Vision-Modelle mit GPT-4o Vision?
GPT-4o ist bei mehrdeutigen Szenen, Handschrift und komplexen Infografiken noch deutlich besser. Llama 3.2 Vision 11B nähert sich GPT-4o bei strukturierten Dokumenten. Den vollständigen Vergleich mit Kosten, Datenschutz und Geschwindigkeit siehe oben.
Welche Bildauflösung unterstützen lokale VLMs?
LLaVA 1.6 bis 672×672 (dynamisches Patching). MiniCPM-V 2.6 bis 1792×1792. Llama 3.2 Vision bis 1120×1120. Für beste OCR-Ergebnisse Dokumente mit 150+ DPI senden.
Kann ich ein lokales Vision-Modell auf eigenen Bildern fine-tunen?
Ja, aber ressourcenintensiver als reines Text-LLM-Fine-Tuning. LLaVA-Fine-Tuning mit dem Original-Trainings-Code gut dokumentiert. MiniCPM-V über Hugging Face-Skripte. Für die meisten Fälle reicht Prompt-Engineering.
Was ist das beste lokale Vision-Modell für 8 GB VRAM?
Llama 3.2 Vision 11B (Q4 passt in ~8 GB) für den allgemeinen Einsatz. Qwen2-VL 7B für mehrsprachige OCR. Beide über Ollama verfügbar.
LLaVA vs. MiniCPM-V – welches ist besser für OCR?
MiniCPM-V 2.6 ist bei Dokument-OCR genauer, besonders bei dichten Tabellen und hochauflösenden Scans. LLaVA ist besser dokumentiert. Für OCR-Genauigkeit: MiniCPM-V. Für Community-Ressourcen: LLaVA.
Können lokale Vision-Modelle Handschrift erkennen?
Druckschrift: Ja, mit moderater Genauigkeit. Kursivschrift: Unzuverlässig bei allen lokalen Modellen. GPT-4o Vision ist bei Kursivschrift deutlich besser.
Muss ich beim Einsatz lokaler Vision-Modelle die DSGVO beachten?
Da lokale VLMs Bilder ausschließlich auf dem eigenen Gerät verarbeiten, sind die Anforderungen nach DSGVO Art. 28 (Auftragsverarbeitung) in der Regel nicht anwendbar. Für Unternehmen mit Personendaten in Dokumenten empfiehlt sich eine Dokumentation nach BSI-Grundschutz. Die vollständige Offline-Verarbeitung gilt als datenschutzfreundliche Technik gemäß DSGVO Art. 25.
Ist der Einsatz lokaler Vision-Modelle für den deutschen Mittelstand geeignet?
Ja. Für KMU, die sensible Geschäftsdokumente verarbeiten, bieten lokale VLMs klare Vorteile: keine Datenweitergabe an Cloud-Anbieter, Betrieb auf vorhandener Hardware (ab 8 GB VRAM), keine laufenden API-Kosten. Die BSI-Grundschutz-Kataloge empfehlen lokale Verarbeitung für vertrauliche Geschäftsdaten. Llama 3.2 Vision 11B ist ab 8 GB VRAM produktionstauglich.
Quellen
- LLaVA-Projektseite — LLaVA 1.5 und 1.6 Modell-Cards, Architekturdetails und Trainingsdatensatz.
- Llama 3.2 Vision auf Hugging Face — Metas offizielle Modell-Card und Benchmark-Werte.
- MiniCPM-V 2.6 auf Hugging Face — OpenBMB Modell-Card, OCR-Benchmarks und Fine-Tuning-Anleitung.
- Moondream auf GitHub — Architekturbeschreibung und Inferenzskripte.
- InternVL 2.5 auf Hugging Face — OpenGVLab Modell-Card und Benchmark-Werte.
- Ollama-Dokumentation — Vision-Modell-Unterstützung, API-Referenz und Modellbibliothek.
- Qwen2-VL auf Hugging Face — Alibabas Qwen2-VL Modell-Card und multilinguale OCR-Benchmarks.
- PaliGemma 2 auf Hugging Face — Googles PaliGemma 2 3B Modell-Card.
- SmolVLM auf Hugging Face — HuggingFace SmolVLM Modell-Card und Inferenzanleitung.