PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Qwen2-VL lokal ausführen 2026: Dokumenten-OCR & Vision-Setup-Anleitung
Advanced Techniques

Qwen2-VL lokal ausführen 2026: Dokumenten-OCR & Vision-Setup-Anleitung

·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Führen Sie `ollama pull qwen2-vl:7b` auf jedem Rechner mit 8 GB VRAM aus, um chinesische, japanische und gemischtsprachige Dokumente lokal zu lesen. Qwen2-VL ist das stärkste offene Vision-Modell für mehrsprachige OCR — jedes Bild wird auf Ihrem Rechner verarbeitet, ohne Cloud-Upload.

Qwen2-VL ist das offene Vision-Language-Modell von Alibaba, und die 7B-Variante läuft lokal mit etwa 6 GB VRAM über Ollama oder LM Studio. Es liest Dokumente, Screenshots, Diagramme und Fotos — und führt bei der OCR für Chinesisch, Japanisch und Koreanisch vor jedem anderen lokalen Vision-Modell. Diese Anleitung behandelt Modellauswahl, Hardware, die Einrichtung mit Ollama und LM Studio, die Extraktion mehrsprachiger Dokumente und den Vergleich von Qwen2-VL mit LLaVA und Llama 3.2 Vision.

Wichtigste Erkenntnisse

  • Qwen2-VL 7B läuft lokal mit ~6 GB VRAM (Q4) über Ollama — ein einziger Befehl `ollama pull qwen2-vl:7b`, keine Modellkonvertierung nötig.
  • Bestes lokales Modell für mehrsprachige OCR: Qwen2-VL liegt gleichauf mit MiniCPM-V 2.6 und schlägt LLaVA 1.6 und Llama 3.2 Vision 11B bei chinesischem, japanischem und koreanischem Text.
  • Native Auflösung bis zu 4096×4096 — liest hochauflösende Scans ohne Verkleinerung, anders als LLaVA 1.6 (672×672) oder Llama 3.2 Vision (1120×1120).
  • Drei Größen: 2B (~3 GB VRAM, schnell und einfach), 7B (~6 GB, für die meisten Nutzer empfohlen), 72B (~48 GB, führt Open-Source-Benchmarks an).
  • Verarbeitet bis zu 8 Bilder pro Anfrage — die höchste Mehrbild-Kapazität unter den lokalen Vision-Modellen.
  • Keine direkte PDF-Eingabe: PDF-Seiten zuerst in PNG oder JPEG umwandeln, dann jede Seite als einzelnes Bild senden.
  • Nach dem Download zu 100 % offline: kein API-Schlüssel, kein Cloud-Upload — jedes Dokument bleibt auf Ihrem Rechner, was die KI-Ebene aus dem DSGVO-Datenübermittlungsumfang herausnimmt.

Warum Qwen2-VL unter den lokalen Vision-Modellen bei mehrsprachiger OCR führt

Qwen2-VL ist das stärkste lokale Vision-Modell für mehrsprachige Dokumenten-OCR — es liegt beim Lesen von chinesischem, japanischem, koreanischem und englischem Text gleichauf mit jedem anderen Modell auf Consumer-Hardware oder darüber. Alibaba hat es mit umfangreichen mehrsprachigen Dokumentkorpora trainiert, weshalb es LLaVA 1.6 und Llama 3.2 Vision 11B bei der Textextraktion außerhalb des Englischen übertrifft.

Qwen2-VL unterstützt eine dynamische Eingabeauflösung von bis zu 4096×4096 Pixeln. LLaVA 1.6 ist auf 672×672 begrenzt und Llama 3.2 Vision auf 1120×1120, sodass beide hochauflösende Scans vor dem Lesen verkleinern. Qwen2-VL liest einen A4-Scan mit 300 DPI in nativer Auflösung — der Hauptgrund für die höhere OCR-Genauigkeit bei dichten Dokumenten und kleinen CJK-Schriftzeichen.

Der lokale Betrieb von Qwen2-VL kostet nach der Hardware 0 € pro Bild. Eine Cloud-Vision-API berechnet etwa 0,01–0,03 € pro Bild; bei 10.000 Bildern pro Monat sind das 100–300 € Ersparnis — und kein Dokument verlässt jemals Ihren Rechner.

Verwenden Sie Qwen2-VL, wenn Ihre Dokumente CJK-Text, kleine Schriften oder hochauflösende Scans enthalten. Wenn Sie ausschließlich auf Englisch mit Foto-Q&A arbeiten, ist Llama 3.2 Vision 11B eine ebenso gute Wahl.

📍 In einem Satz

Qwen2-VL ist das genaueste lokale Vision-Modell für die Dokumenten-OCR von Chinesisch, Japanisch und Koreanisch und läuft mit ~6 GB VRAM über Ollama.

💬 In einfachen Worten

Ein Vision-Language-Modell liest Bilder, anstatt sie zu erzeugen. Sie geben Qwen2-VL ein Foto oder eine gescannte Seite, und es liefert Text zurück — eine Beschreibung, eine Antwort oder den extrahierten Inhalt.

Die passende Qwen2-VL-Modellgröße wählen

Qwen2-VL ist in drei Größen verfügbar. Wählen Sie je nach VRAM und benötigter Genauigkeit. Alle Größen finden Sie auf Hugging Face (Qwen) und in der Ollama-Modellbibliothek mit expliziten Tags.

ModellVRAM (Q4)Ollama-TagGeeignet für
Qwen2-VL 2B Q4~3 GBqwen2-vl:2bSchnelle Bildunterschriften, einfache OCR, VRAM-arme Laptops
Qwen2-VL 7B Q4~6 GBqwen2-vl:7bEmpfohlen — Dokumenten-OCR, Bild-Q&A, Diagramme
Qwen2-VL 72B Q4~48 GBqwen2-vl:72bMaximale Qualität, Apple Silicon ab 64 GB oder Multi-GPU

Q4_K_M ist die empfohlene Quantisierung — das beste Verhältnis von Qualität zu Größe. Die meisten Nutzer sollten mit Qwen2-VL 7B beginnen: Es passt auf eine 8-GB-GPU und bewältigt jeden Anwendungsfall in dieser Anleitung. Wechseln Sie nur dann zum 2B-Modell, wenn der VRAM unter 6 GB liegt. Siehe LLM-Quantisierung erklärt, wie sich Q4 auf die Qualität auswirkt.

Hardware-Anforderungen für Qwen2-VL

  • Minimum (Qwen2-VL 7B Q4): GPU mit 8 GB VRAM — NVIDIA RTX 4060, RTX 3060 12 GB oder RTX 2080.
  • VRAM-arme Option (Qwen2-VL 2B Q4): 4 GB VRAM — läuft auf den meisten Laptop-GPUs und integriertem Apple Silicon.
  • Maximale Qualität (Qwen2-VL 72B Q4): ~48 GB — Apple Silicon mit 64 GB+ Unified Memory oder zwei 24-GB-GPUs.
  • Apple Silicon: Ein M-Series-Chip mit 16 GB+ Unified Memory führt das 7B-Modell problemlos aus; für das 72B-Modell sind 64 GB+ erforderlich.
  • Arbeitsspeicher: 16 GB Minimum neben der GPU-Inferenz; 32 GB empfohlen, wenn eine vollständige Entwicklungsumgebung geöffnet ist.
  • Speicherplatz: ~6 GB freier Speicher für Qwen2-VL 7B Q4 (GGUF), ~30 GB für das 72B-Modell.

📌Note: Vision-Modelle laufen rund 30–60 % langsamer als ein reines Textmodell mit gleicher Parameterzahl. Der Vision-Encoder verarbeitet das gesamte Bild beim ersten Token; Text wird danach nahezu mit normaler Geschwindigkeit erzeugt. Planen Sie VRAM sowohl für den Encoder als auch für das Sprachmodell ein.

Einrichtung von Qwen2-VL mit Ollama

Ollama ist der schnellste Weg, Qwen2-VL lokal auszuführen. Es lädt das Modell herunter, verwaltet die Quantisierung und stellt eine API unter localhost:11434 bereit. Installieren Sie es von ollama.com — oder beginnen Sie, falls Sie neu damit sind, mit So installieren Sie Ollama.

  1. 1
    Ollama installieren
    Why it matters: Ollama übernimmt den Modell-Download, das GGUF-Format und die lokale API. Es ist für macOS, Linux und Windows verfügbar.
  2. 2
    Qwen2-VL mit explizitem Größen-Tag laden
    Why it matters: Verwenden Sie qwen2-vl:7b. Der bloße Tag qwen2-vl kann eine andere Größe auflösen — geben Sie immer 2b, 7b oder 72b an, damit Sie das in dieser Anleitung behandelte Modell erhalten.
  3. 3
    Modell ausführen und ein Bild anhängen
    Why it matters: Geben Sie im interaktiven Modus den Bildpfad innerhalb Ihrer Eingabe an. Ollama erkennt den Pfad und lädt das Bild in den Vision-Encoder.
  4. 4
    Bilder über die API senden
    Why it matters: Der Endpunkt /api/generate akzeptiert ein Base64-codiertes images-Array. So senden Anwendungen — und PromptQuorum — Bilder programmatisch.
  5. 5
    Mehrsprachige OCR überprüfen
    Why it matters: Senden Sie einen chinesischen oder japanischen Dokumentscan und prüfen Sie, ob der extrahierte Text übereinstimmt. Das beweist, dass Vision-Encoder und Tokenizer CJK-Schrift korrekt verarbeiten, bevor Sie darauf aufbauen.
bash
# Step 1 — Install Ollama
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — download from https://ollama.com/download

# Step 2 — Pull Qwen2-VL 7B (explicit size tag)
ollama pull qwen2-vl:7b
# Downloads Qwen2-VL 7B Q4_K_M (~6 GB)

# Step 3 — Run and attach an image (interactive)
ollama run qwen2-vl:7b
>>> Extract every line of text from ./invoice-jp.png

# Step 4 — Send an image through the API
# Encode the image first:  base64 -i scan.png   (macOS)
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2-vl:7b",
  "prompt": "Extract every line of text from this document. Preserve line breaks.",
  "images": ["<base64-encoded-image>"],
  "stream": false
}'

# Step 5 — Verify multilingual OCR
ollama run qwen2-vl:7b
>>> Extract all text from this image: ./contract-zh.png

⚠️Warning: Senden Sie Dokumentbilder mit 150 DPI oder höher. Qwen2-VL liest nativ bis zu 4096×4096, sodass hochauflösende Scans die Genauigkeit direkt verbessern. Anders als bei einer Texteingabe ist die Bildqualität der wichtigste Faktor für OCR-Ergebnisse — ein unscharfer Scan liefert falsche Zeichen, egal wie gut das Modell ist.

Einrichtung von Qwen2-VL mit LM Studio

LM Studio führt Qwen2-VL über eine grafische Oberfläche ohne CLI-Befehle aus. Es ist der empfohlene Weg für Windows-Nutzer und alle, die eine GUI bevorzugen. Laden Sie es von lmstudio.ai herunter oder lesen Sie So installieren Sie LM Studio.

  1. 1
    LM Studio herunterladen und installieren
    Why it matters: Eine kostenlose, plattformübergreifende GUI für lokale Modell-Inferenz. Kein Terminal erforderlich.
  2. 2
    Im Modellbrowser nach Qwen2-VL suchen
    Why it matters: Suchen Sie nach "Qwen2-VL 7B" und wählen Sie eine Q4_K_M-GGUF-Variante. LM Studio kennzeichnet vision-fähige Modelle mit einem Bildsymbol.
  3. 3
    Modell laden und ein Bild anhängen
    Why it matters: Klicken Sie auf das Bildsymbol im Eingabefeld, um ein Foto oder einen Scan hochzuladen. LM Studio übergibt es an den Vision-Encoder.
  4. 4
    Lokalen Server starten
    Why it matters: Die Schaltfläche "Start Server" stellt eine OpenAI-kompatible API unter localhost:1234 bereit. Vision-Anfragen verwenden das Standard-image_url-Inhaltsformat.
json
// LM Studio — OpenAI-compatible vision request (localhost:1234)
{
  "model": "qwen2-vl-7b",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Extract all text from this document." },
        {
          "type": "image_url",
          "image_url": { "url": "data:image/png;base64,<base64-encoded-image>" }
        }
      ]
    }
  ]
}

Dokumenten-OCR für chinesische, japanische und gemischtsprachige Dateien

Qwen2-VL extrahiert Text aus chinesischen, japanischen, koreanischen und gemischtsprachigen Dokumenten genauer als jedes andere lokale Vision-Modell. Seine Trainingsdaten umfassten große mehrsprachige Dokumentkorpora, und seine native Auflösung von 4096×4096 liest kleine CJK-Schriftzeichen, die LLaVA 1.6 und Llama 3.2 Vision verkleinern und übersehen.

Das zuverlässigste Muster ist eine spezifische Extraktionsanweisung. Fordern Sie Struktur an — "behalte das Tabellenlayout bei", "gib jedes Feld als key: value zurück" — statt eines vagen "lies das". Qwen2-VL folgt Formatierungsanweisungen genau, was die Ausgabe ohne Nachbearbeitung nutzbar hält.

📍 In einem Satz

Um mit Qwen2-VL Text aus einem CJK-Dokument zu extrahieren, senden Sie das Bild mit mindestens 150 DPI und einer spezifischen Anweisung, die Struktur verlangt, etwa "gib jedes Feld als key: value zurück".

💬 In einfachen Worten

OCR bedeutet, ein Bild von Text in bearbeitbaren Text umzuwandeln. Qwen2-VL betrachtet eine gescannte Seite und tippt ab, was es sieht — und es bewältigt chinesische und japanische Schriftzeichen ebenso gut wie englische.

  • Reine Textextraktion: "Extrahiere jede Textzeile aus diesem Bild. Behalte Zeilenumbrüche und Lesereihenfolge bei."
  • Strukturierte Felder: "Dies ist eine japanische Rechnung. Gib Lieferant, Datum, Zwischensumme, Steuer und Gesamtbetrag als key: value-Paare zurück."
  • Tabellenextraktion: "Extrahiere diese Tabelle als CSV. Behandle die erste Zeile als Kopfzeile."
  • Extrahieren und übersetzen in einem Durchgang: "Extrahiere den chinesischen Text aus diesem Bild und übersetze ihn dann ins Englische. Zeige beides."
bash
# Japanese invoice -> structured fields
ollama run qwen2-vl:7b
>>> This is a Japanese invoice. Extract vendor name, invoice date,
    subtotal, consumption tax, and total. Return as key: value pairs.
    ./invoice-jp.png

# Example output:
# vendor: Sample Trading Co., Ltd.
# date: 2026-04-30
# subtotal: 84,000 JPY
# tax: 8,400 JPY
# total: 92,400 JPY

Important: Überprüfen Sie extrahierte Zahlen immer anhand des Originaldokuments. Lokale Vision-Modelle — auch Qwen2-VL — können auf einem Scan geringer Qualität eine Ziffer falsch lesen. Behandeln Sie die OCR-Ausgabe als zu prüfenden Entwurf, nicht als endgültigen Wert, besonders bei Rechnungen und Finanzdokumenten.

Bild-Q&A, Screenshot-Analyse und Diagrammlesen

Über OCR hinaus bewältigt Qwen2-VL allgemeines Bildverständnis — das Beschreiben von Fotos, das Beantworten von Fragen zu Screenshots und das Lesen von Diagrammen. Es ist bei klaren Eingaben genau und bei unübersichtlichen oder mehrdeutigen Szenen schwächer.

  • Bild-Q&A: Stellen Sie offene Fragen zu einem Foto — "Was ist auf diesem Bild?", "Wie viele Personen tragen Rot?". Qwen2-VL 7B ist bei klaren Fotos genau, bei unübersichtlichen oder mehrdeutigen Szenen schwächer.
  • Screenshot- und UI-Analyse: Qwen2-VL liest UI-Screenshots, Fehlerdialoge und App-Zustände. Speziell für dichte Code-Screenshots ist InternVL 2.5 stärker auf diese Daten trainiert — verwenden Sie es, wenn UI und Code Ihr Hauptarbeitsbereich sind.
  • Diagramm- und Grafiklesen: Qwen2-VL beschreibt Diagrammstruktur und Trends gut, aber präzise Zahlenwerte aus Diagrammen sind bei jedem lokalen Vision-Modell unzuverlässig. Prüfen Sie exakte Werte anhand der zugrunde liegenden Daten.
  • Videoframes: Qwen2-VL akzeptiert mehrere Frames als Sequenz — entnehmen Sie etwa einen Frame pro Sekunde und senden Sie bis zu 8, um einen kurzen Clip zusammenzufassen.
  • Mehrbildvergleich: Senden Sie bis zu 8 Bilder in einer Anfrage, um Versionen zu vergleichen, Unterschiede zu erkennen oder einen Satz im Stapel zu beschreiben.

💡Tip: Verwenden Sie Qwen2-VL für OCR, mehrsprachige Dokumente und allgemeines Bild-Q&A. Wechseln Sie zu InternVL 2.5, wenn Ihr Hauptarbeitsbereich Code- oder UI-Screenshots sind, oder zu Moondream 2, wenn Sie unter 4 GB VRAM haben.

Qwen2-VL vs. LLaVA vs. Llama 3.2 Vision

Bei mehrsprachiger OCR schlägt Qwen2-VL LLaVA 1.6 und erreicht oder übertrifft Llama 3.2 Vision 11B bei geringerem VRAM. Für reines englisches Foto-Q&A ist Llama 3.2 Vision 11B eine ebenso starke Wahl. LLaVA 1.6 bleibt das am besten dokumentierte Modell, wenn Sie Community-Ressourcen zur Fehlerbehebung benötigen.

ModellVRAM (Q4)OCR / CJKMax. AuflösungGeeignet für
Qwen2-VL 7B~6 GBExzellent4096×4096Mehrsprachige OCR, hochauflösende Scans
Llama 3.2 Vision 11B~8 GBGut1120×1120Englisches Foto-Q&A, allgemeine Dokumente
LLaVA 1.6 7B~6 GBBefriedigend672×672Allgemeines Q&A, Community-Unterstützung
MiniCPM-V 2.6 8B~6 GBExzellent1792×1792Dokumenten-OCR (englischlastig)
InternVL 2.5 8B~8 GBGutHochCode- und UI-Screenshots

Alle fünf laufen über Ollama (InternVL 2.5 über Community-Builds). Den vollständigen Überblick über lokale Vision-Modelle — einschließlich Moondream 2 und einem Rechnungsextraktions-Benchmark — finden Sie im Vergleich lokaler Vision-Modelle. Im Zweifelsfall beginnen Sie mit Qwen2-VL 7B: Es deckt OCR, Dokumente und allgemeines Q&A mit 6 GB VRAM ab.

Lokales Qwen2-VL mit PromptQuorum verbinden

PromptQuorum leitet Eingaben über mehrere Modelle. Um lokales Qwen2-VL als Vision-Dispatch-Ziel zu verwenden, richten Sie den lokalen LLM-Endpunkt von PromptQuorum auf Ihren Ollama-Server aus. Die Bildverarbeitung bleibt dann auf Ihrer Hardware, während Cloud-Modelle für Textaufgaben verfügbar bleiben.

Dies ist der Ollama-Endpunkt (OpenAI-kompatibel), getrennt von der Anthropic-API-Konfiguration für Claude. Beide können gleichzeitig aktiv sein, wobei PromptQuorum nach Aufgabentyp und Datensensibilität weiterleitet.

📍 In einem Satz

Verbinden Sie PromptQuorum mit lokalem Qwen2-VL, indem Sie OLLAMA_BASE_URL auf http://localhost:11434/v1 setzen und das lokale Vision-Modell auf qwen2-vl:7b zeigen lassen.

bash
# PromptQuorum dispatch config — local Qwen2-VL via Ollama
# Set in your .env or the PromptQuorum settings panel

OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_VISION_MODEL=qwen2-vl:7b

# Example routing rules:
# - task_type: ocr / image  -> qwen2-vl:7b        (local Ollama, no cloud upload)
# - task_type: text         -> claude-sonnet-4-6  (Anthropic API, separate config)

Fehlerbehebung bei Qwen2-VL

  • "unknown model" oder der Pull schlägt fehl: Verwenden Sie einen expliziten Größen-Tag — `ollama pull qwen2-vl:7b`, nicht `qwen2-vl`. Führen Sie `ollama list` aus, um den installierten Namen zu bestätigen.
  • Das Bild wird ignoriert und das Modell antwortet, als wäre kein Bild gesendet worden: Prüfen Sie, ob der Dateipfad korrekt und lesbar ist. In der Ollama-API muss das `images`-Array rohes Base64 *ohne* das `data:`-Präfix enthalten — das `data:`-Präfix gehört nur zum LM-Studio- und OpenAI-Format.
  • Verstümmelte oder fehlende CJK-Zeichen: Der Scan hat eine zu geringe Auflösung. Scannen Sie mit 150–300 DPI neu. Qwen2-VL liest bis zu 4096×4096, sodass eine höhere Eingabeauflösung die Genauigkeit für Chinesisch und Japanisch direkt verbessert.
  • CUDA-Speicherüberlauf (out of memory): Das Modell passt nicht in Ihren VRAM. Wechseln Sie zu Qwen2-VL 2B (~3 GB) oder führen Sie es auf Apple Silicon aus, das Unified Memory zwischen CPU und GPU teilt.
  • Langsame erste Antwort, dann schnell: Das ist normal. Der Vision-Encoder verarbeitet das gesamte Bild beim ersten Token; Text wird danach nahezu mit normaler Geschwindigkeit erzeugt.
  • Falsche Zahlen aus einer Rechnung oder einem Diagramm extrahiert: Lokale Vision-Modelle lesen Ziffern bei verrauschten Eingaben falsch. Erhöhen Sie die Scan-Qualität und prüfen Sie die Zahlenausgabe immer anhand der Quelle.
  • Eine PDF lässt sich nicht laden: Kein lokales Vision-Modell akzeptiert PDF direkt. Wandeln Sie Seiten zuerst in PNG oder JPEG um (mit pdf2image oder pypdfium2) und senden Sie dann jede Seite als einzelnes Bild.
  • LM Studio zeigt "failed to load model": Entweder zu wenig VRAM oder Sie haben eine GGUF-Datei ohne Vision-Unterstützung heruntergeladen. Prüfen Sie, ob die Modellkarte Vision-Unterstützung angibt, und wählen Sie die Q4_K_M-Variante.

💡Tip: Führen Sie `ollama ps` aus, um zu sehen, welche Modelle in den VRAM geladen sind und wie viel Speicher jedes belegt. Verwenden Sie `ollama stop qwen2-vl:7b`, um das Modell zu entladen, bevor Sie zum 72B-Modell wechseln.

FAQ

Was ist die Mindest-Hardware, um Qwen2-VL lokal auszuführen?

Qwen2-VL 7B mit Q4_K_M-Quantisierung benötigt 8 GB VRAM (RTX 4060, RTX 3060 12 GB oder RTX 2080). Das kleinere Qwen2-VL 2B läuft mit 4 GB. Das 72B-Modell benötigt ~48 GB — Apple Silicon mit 64 GB+ Unified Memory oder zwei 24-GB-GPUs. Apple Silicon mit 16 GB+ Unified Memory führt das 7B-Modell problemlos aus.

Ist Qwen2-VL besser als LLaVA für OCR?

Ja, besonders für nicht-englischen Text. Qwen2-VL liegt gleichauf mit MiniCPM-V 2.6 und schlägt LLaVA 1.6 und Llama 3.2 Vision 11B bei chinesischer, japanischer und koreanischer OCR. Seine native Auflösung von 4096×4096 liest hochauflösende Scans ohne Verkleinerung, während LLaVA 1.6 auf 672×672 begrenzt ist. LLaVA hat weiterhin die größte Community und die meisten Tutorials.

Kann Qwen2-VL PDFs direkt lesen?

Nein. Kein lokales Vision-Modell akzeptiert PDF-Eingaben direkt. Wandeln Sie jede PDF-Seite zuerst in ein PNG- oder JPEG-Bild um (mit pdf2image oder pypdfium2) und senden Sie dann jede Seite als einzelne Bildanfrage. Bei einer 10-seitigen PDF senden Sie 10 Bildanfragen und fügen die Ergebnisse zusammen.

Wie sende ich ein Bild über Ollama an Qwen2-VL?

Auf zwei Wegen. Im interaktiven Modus (`ollama run qwen2-vl:7b`) geben Sie den Bildpfad innerhalb Ihrer Eingabe an — Ollama erkennt ihn und lädt das Bild. Über die API senden Sie ein POST an /api/generate mit einem Base64-codierten `images`-Array. Der Base64-String darf das `data:`-Präfix nicht enthalten.

Läuft Qwen2-VL vollständig offline?

Ja. Nach dem einmaligen Modell-Download läuft Qwen2-VL vollständig auf Ihrem Rechner — kein API-Schlüssel und kein Cloud-Konto. Es wird kein Bild irgendwohin hochgeladen, wodurch die Dokumentverarbeitung innerhalb Ihrer Infrastruktur bleibt. Die Compliance-Auswirkungen erläutert der Qwen-Leitfaden zur lokalen DSGVO-Einrichtung.

Wie viele Bilder kann Qwen2-VL gleichzeitig verarbeiten?

Bis zu 8 Bilder pro Anfrage — die höchste Mehrbild-Kapazität unter den lokalen Vision-Modellen. Das macht es gut geeignet, um Dokumentversionen zu vergleichen, Unterschiede zu erkennen oder ein kurzes Video zusammenzufassen, das mit einem Frame pro Sekunde abgetastet wurde.

Qwen2-VL oder Llama 3.2 Vision — welches sollte ich wählen?

Wählen Sie Qwen2-VL für chinesische, japanische oder koreanische Dokumente, hochauflösende Scans oder kleine Schriften — und weil das 7B-Modell in 6 GB VRAM passt gegenüber 8 GB bei Llama 3.2 Vision 11B. Wählen Sie Llama 3.2 Vision 11B für reines englisches Foto-Q&A, wo beide vergleichbar sind.

Warum sind die Zeichen in meiner OCR-Ausgabe verstümmelt?

Fast immer ist es ein Scan mit geringer Auflösung. Qwen2-VL liest nativ bis zu 4096×4096, sodass ein erneuter Scan des Dokuments mit 150–300 DPI verstümmelte oder fehlende Zeichen meist behebt. Eingaben geringer Qualität sind die häufigste Ursache für OCR-Fehler bei jedem lokalen Vision-Modell.

Muss ich bei der Verwendung von Qwen2-VL die DSGVO beachten?

Wenn Sie Qwen2-VL lokal ausführen, wird kein Bild und kein Dokument an Dritte übermittelt, sodass DSGVO-Artikel 44 zur Drittlandübermittlung für die KI-Ebene nicht greift. Sie bleiben weiterhin Verantwortlicher nach Artikel 28 für Ihre eigene Verarbeitung und sollten die Verarbeitung in Ihrem Verzeichnis von Verarbeitungstätigkeiten dokumentieren. Lokale Inferenz erleichtert zudem die Einhaltung der BSI-Grundschutz-Kataloge, da die Bildverarbeitung Ihre kontrollierte Infrastruktur nicht verlässt.

Ist Qwen2-VL für den deutschen Mittelstand geeignet?

Ja. Für mittelständische Unternehmen, die Rechnungen, Verträge oder Formulare verarbeiten, läuft Qwen2-VL 7B auf einer einzelnen 8-GB-GPU oder einem Apple-Silicon-Rechner und hält dabei sensible Dokumente im Haus. Das passt zu den IT-Sicherheitsstandards des BSI und vermeidet Auftragsverarbeitungsverträge mit Cloud-Anbietern. Für DACH-Unternehmen, die mit chinesischen oder japanischen Geschäftsdokumenten arbeiten, ist die mehrsprachige OCR-Stärke ein konkreter praktischer Vorteil.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Auf die PromptQuorum-Warteliste →

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Qwen2-VL lokal ausführen 2026: OCR- & Vision-Setup