PromptQuorumPromptQuorum
ホーム/ローカルLLM/Qwen2-VLをローカル実行 2026:ドキュメントOCRと画像認識ガイド
Advanced Techniques

Qwen2-VLをローカル実行 2026:ドキュメントOCRと画像認識ガイド

·11分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

8 GBのVRAMを搭載したマシンで `ollama pull qwen2-vl:7b` を実行すれば、中国語・日本語・多言語混在のドキュメントをローカルで読み取れます。 Qwen2-VLは多言語OCRで最も優れたオープンなvisionモデルで、すべての画像がご自身のマシンで処理され、クラウドへのアップロードはありません。

Qwen2-VLはAlibabaのオープンなvision-languageモデルで、7Bバリアントは約6 GBのVRAMでOllamaまたはLM Studioを使ってローカルで動作します。ドキュメント、スクリーンショット、グラフ、写真を読み取り、中国語・日本語・韓国語のOCRでは他のどのローカルvisionモデルよりも優れています。このガイドでは、モデル選択、ハードウェア、OllamaとLM Studioのセットアップ、多言語ドキュメントの抽出、そしてQwen2-VLとLLaVA・Llama 3.2 Visionの比較を解説します。

重要なポイント

  • Qwen2-VL 7Bは約6 GBのVRAM(Q4)でローカル動作します。Ollama経由で `ollama pull qwen2-vl:7b` というコマンド1つで済み、モデル変換は不要です。
  • 多言語OCRに最適なローカルモデル:Qwen2-VLはMiniCPM-V 2.6と並び、中国語・日本語・韓国語のテキストでLLaVA 1.6とLlama 3.2 Vision 11Bを上回ります。
  • ネイティブ解像度は最大4096×4096。LLaVA 1.6(672×672)やLlama 3.2 Vision(1120×1120)と異なり、高解像度スキャンを縮小せずに読み取ります。
  • 3つのサイズ:2B(約3 GB VRAM、高速・基本的)、7B(約6 GB、ほとんどのユーザーに推奨)、72B(約48 GB、オープンソースのベンチマークで首位)。
  • 1リクエストあたり最大8枚の画像に対応 — ローカルvisionモデルの中で最も高い複数画像対応数です。
  • PDFの直接入力は不可:PDFのページをまずPNGまたはJPEGに変換し、各ページを別々の画像として送信します。
  • ダウンロード後は100%オフライン:APIキー不要、クラウドへのアップロードなし — すべてのドキュメントがご自身のマシンに留まります。

なぜQwen2-VLは多言語OCRでローカルvisionモデルの中で優れているのか

Qwen2-VLは多言語ドキュメントOCRに最も優れたローカルvisionモデルです。中国語・日本語・韓国語・英語のテキスト読み取りにおいて、コンシューマー向けハードウェアで動作する他のどのモデルと同等か、それ以上です。 Alibabaはこれを大規模な多言語ドキュメントコーパスで学習させており、そのため英語以外のテキスト抽出でLLaVA 1.6やLlama 3.2 Vision 11Bを上回ります。

Qwen2-VLは最大4096×4096ピクセルの動的な入力解像度に対応します。LLaVA 1.6は672×672、Llama 3.2 Visionは1120×1120が上限のため、どちらも高解像度スキャンを読み取り前に縮小します。Qwen2-VLは300 DPIのA4スキャンをネイティブ解像度で読み取ります — これが、密度の高いドキュメントや小さなCJK文字でOCR精度が高い主な理由です。

Qwen2-VLをローカルで動かす場合、ハードウェア費用を除けば1画像あたりのコストは0円です。クラウドのVision APIは1画像あたり約2~5円ほど課金されます。月10,000画像であれば約15,000~45,000円の節約になり、しかもドキュメントがマシンの外に出ることは一切ありません。

ドキュメントにCJKテキスト、小さなフォント、または高解像度スキャンが含まれる場合はQwen2-VLを使用してください。作業が英語のみの写真Q&Aであれば、Llama 3.2 Vision 11Bも同等に良い選択肢です。

📍 一文で説明

Qwen2-VLは中国語・日本語・韓国語のドキュメントOCRに最も精度の高いローカルvisionモデルで、約6 GBのVRAMでOllama経由で動作します。

💬 簡潔に説明

vision-languageモデルは画像を生成するのではなく読み取ります。Qwen2-VLに写真やスキャンしたページを渡すと、テキストが返ってきます — 説明、回答、または抽出された内容です。

Qwen2-VLのモデルサイズを選ぶ

Qwen2-VLには3つのサイズがあります。VRAMと必要な精度に応じて選んでください。すべてのサイズは Hugging Face (Qwen) およびOllamaのモデルライブラリで明示的なタグ付きで利用できます。

モデルVRAM (Q4)Ollamaタグ適した用途
Qwen2-VL 2B Q4~3 GBqwen2-vl:2b高速なキャプション、簡単なOCR、VRAMの少ないノートPC
Qwen2-VL 7B Q4~6 GBqwen2-vl:7b推奨 — ドキュメントOCR、画像Q&A、グラフ
Qwen2-VL 72B Q4~48 GBqwen2-vl:72b最高品質、64 GB以上のApple SiliconまたはマルチGPU

Q4_K_Mが推奨される量子化です — 品質とサイズのバランスが最も優れています。ほとんどのユーザーはQwen2-VL 7Bから始めるべきです:8 GBのGPUに収まり、このガイドのすべてのユースケースに対応します。VRAMが6 GB未満の場合のみ2Bモデルに切り替えてください。Q4が品質に与える影響については LLMの量子化を解説 を参照してください。

Qwen2-VLのハードウェア要件

  • 最小(Qwen2-VL 7B Q4):8 GB VRAMのGPU — NVIDIA RTX 4060、RTX 3060 12 GB、またはRTX 2080。
  • VRAMが少ない場合の選択肢(Qwen2-VL 2B Q4):4 GB VRAM — ほとんどのノートPCのGPUや内蔵Apple Siliconで動作します。
  • 最高品質(Qwen2-VL 72B Q4):約48 GB — 64 GB以上のユニファイドメモリを備えたApple Silicon、または24 GBのGPU 2基。
  • Apple Silicon:16 GB以上のユニファイドメモリを備えたM-seriesチップは7Bモデルを問題なく実行します。72Bモデルには64 GB以上が必要です。
  • システムRAM:GPU推論と並行して最低16 GB。完全な開発環境を開いた状態では32 GBを推奨します。
  • ストレージ:Qwen2-VL 7B Q4(GGUF)に約6 GB、72Bに約30 GBの空き容量。

📌Note: visionモデルは、同じパラメータ数のテキスト専用モデルより約30~60%遅く動作します。visionエンコーダは最初のトークンで画像全体を処理し、その後テキストはほぼ通常の速度で生成されます。VRAMはエンコーダと言語モデルの両方のために確保してください。

Qwen2-VLをOllamaでセットアップする

Ollamaは、Qwen2-VLをローカルで実行する最も速い方法です。モデルのダウンロード、量子化の管理を行い、localhost:11434でAPIを公開します。ollama.com からインストールしてください。初めての方は Ollamaのインストール方法 から始めてください。

  1. 1
    Ollamaをインストールする
    Why it matters: Ollamaはモデルのダウンロード、GGUF形式、ローカルAPIを処理します。macOS、Linux、Windowsで利用できます。
  2. 2
    明示的なサイズタグでQwen2-VLを取得する
    Why it matters: qwen2-vl:7bを使用してください。タグなしのqwen2-vlは別のサイズに解決されることがあります — このガイドが対象とするモデルを取得するため、必ず2b、7b、72bを指定してください。
  3. 3
    モデルを実行して画像を添付する
    Why it matters: インタラクティブモードでは、プロンプト内に画像ファイルのパスを入力します。Ollamaがパスを検出し、画像をvisionエンコーダに読み込みます。
  4. 4
    API経由で画像を送信する
    Why it matters: /api/generateエンドポイントはbase64エンコードされたimages配列を受け付けます。アプリケーション — そしてPromptQuorum — はこの方法でプログラムから画像を送信します。
  5. 5
    多言語OCRを検証する
    Why it matters: 中国語または日本語のドキュメントスキャンを送信し、抽出されたテキストが一致するか確認します。これにより、その上に構築する前に、visionエンコーダとトークナイザがCJK文字を正しく処理することを確認できます。
bash
# Step 1 — Install Ollama
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — download from https://ollama.com/download

# Step 2 — Pull Qwen2-VL 7B (explicit size tag)
ollama pull qwen2-vl:7b
# Downloads Qwen2-VL 7B Q4_K_M (~6 GB)

# Step 3 — Run and attach an image (interactive)
ollama run qwen2-vl:7b
>>> Extract every line of text from ./invoice-jp.png

# Step 4 — Send an image through the API
# Encode the image first:  base64 -i scan.png   (macOS)
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2-vl:7b",
  "prompt": "Extract every line of text from this document. Preserve line breaks.",
  "images": ["<base64-encoded-image>"],
  "stream": false
}'

# Step 5 — Verify multilingual OCR
ollama run qwen2-vl:7b
>>> Extract all text from this image: ./contract-zh.png

⚠️Warning: ドキュメント画像は150 DPI以上で送信してください。Qwen2-VLはネイティブで最大4096×4096を読み取るため、高解像度スキャンは精度を直接向上させます。テキストプロンプトとは異なり、画像品質はOCR結果を左右する最大の要因です — ぼやけたスキャンは、モデルがどれだけ優れていても誤った文字を生成します。

Qwen2-VLをLM Studioでセットアップする

LM Studioは、CLIコマンドなしでGUIからQwen2-VLを実行します。Windowsユーザーや、GUIを好む方に推奨される方法です。lmstudio.ai からダウンロードするか、LM Studioのインストール方法 を参照してください。

  1. 1
    LM Studioをダウンロードしてインストールする
    Why it matters: ローカルモデル推論のための無料・クロスプラットフォームのGUIです。ターミナルは不要です。
  2. 2
    モデルブラウザでQwen2-VLを検索する
    Why it matters: 「Qwen2-VL 7B」を検索し、Q4_K_M GGUFビルドを選択します。LM Studioはvision対応モデルを画像アイコンで示します。
  3. 3
    モデルを読み込んで画像を添付する
    Why it matters: 入力欄の画像アイコンをクリックして写真やスキャンをアップロードします。LM Studioがそれをvisionエンコーダに渡します。
  4. 4
    ローカルサーバーを起動する
    Why it matters: 「Start Server」ボタンはlocalhost:1234でOpenAI互換APIを公開します。visionリクエストは標準のimage_urlコンテンツ形式を使用します。
json
// LM Studio — OpenAI-compatible vision request (localhost:1234)
{
  "model": "qwen2-vl-7b",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Extract all text from this document." },
        {
          "type": "image_url",
          "image_url": { "url": "data:image/png;base64,<base64-encoded-image>" }
        }
      ]
    }
  ]
}

中国語・日本語・多言語混在ファイルのドキュメントOCR

Qwen2-VLは、中国語・日本語・韓国語・多言語混在のドキュメントから、他のどのローカルvisionモデルよりも正確にテキストを抽出します。 学習データには大規模な多言語ドキュメントコーパスが含まれ、ネイティブ解像度の4096×4096により、LLaVA 1.6やLlama 3.2 Visionが縮小して見落とす小さなCJK文字も読み取ります。

最も信頼できるパターンは、具体的な抽出指示です。曖昧な「これを読んで」ではなく、構造を求めてください — 「表のレイアウトを保持して」「各フィールドをkey: valueとして返して」など。Qwen2-VLは書式の指示に忠実に従うため、後処理なしで使える出力が得られます。

📍 一文で説明

Qwen2-VLでCJKドキュメントからテキストを抽出するには、画像を150 DPI以上で送信し、「各フィールドをkey: valueとして返して」のように構造を求める具体的なプロンプトを使用します。

💬 簡潔に説明

OCRとは、テキストの画像を編集可能なテキストに変換することです。Qwen2-VLはスキャンしたページを見て、見たものを書き出します — そして中国語や日本語の文字も英語と同じように扱えます。

  • プレーンテキストの抽出:「この画像からすべてのテキスト行を抽出してください。改行と読み順を保持してください。」
  • 構造化フィールド:「これは日本語の請求書です。取引先、日付、小計、税額、合計をkey: valueのペアで返してください。」
  • 表の抽出:「この表をCSVとして抽出してください。1行目をヘッダーとして扱ってください。」
  • 抽出と翻訳を1回で:「この画像から中国語のテキストを抽出し、それを英語に翻訳してください。両方を表示してください。」
bash
# Japanese invoice -> structured fields
ollama run qwen2-vl:7b
>>> This is a Japanese invoice. Extract vendor name, invoice date,
    subtotal, consumption tax, and total. Return as key: value pairs.
    ./invoice-jp.png

# Example output:
# vendor: Sample Trading Co., Ltd.
# date: 2026-04-30
# subtotal: 84,000 JPY
# tax: 8,400 JPY
# total: 92,400 JPY

Important: 抽出された数値は必ず元のドキュメントと照合してください。ローカルvisionモデル — Qwen2-VLを含む — は、品質の低いスキャンで数字を読み間違えることがあります。特に請求書や財務ドキュメントでは、OCRの出力を確定値ではなく、確認すべき下書きとして扱ってください。

画像Q&A、スクリーンショット分析、グラフの読み取り

OCR以外にも、Qwen2-VLは一般的な画像理解を扱います — 写真の説明、スクリーンショットに関する質問への回答、グラフの読み取りです。鮮明な入力には正確で、雑然とした、または曖昧なシーンには弱くなります。

  • 画像Q&A:写真について自由な質問ができます — 「この画像には何が写っていますか?」「赤い服を着ている人は何人ですか?」。Qwen2-VL 7Bは鮮明な写真には正確で、雑然とした、または曖昧なシーンには弱くなります。
  • スクリーンショット・UI分析:Qwen2-VLはUIのスクリーンショット、エラーダイアログ、アプリの状態を読み取ります。特に密度の高いコードのスクリーンショットについては、InternVL 2.5がそのデータでより重点的に学習されています — UIやコードが主な用途であればそちらを使用してください。
  • グラフ・図の読み取り:Qwen2-VLはグラフの構造や傾向をうまく説明しますが、グラフから取り出した正確な数値はどのローカルvisionモデルでも信頼できません。正確な数値は元データと照合してください。
  • 動画フレーム:Qwen2-VLは複数のフレームをシーケンスとして受け付けます — 1秒あたり約1フレームを抽出し、最大8枚を送信して短いクリップを要約できます。
  • 複数画像の比較:1リクエストで最大8枚の画像を送信し、バージョンの比較、相違点の発見、セットの一括説明ができます。

💡Tip: OCR、多言語ドキュメント、一般的な画像Q&AにはQwen2-VLを使用してください。コードやUIのスクリーンショットが主な用途であればInternVL 2.5に、VRAMが4 GB未満であればMoondream 2に切り替えてください。

Qwen2-VL対LLaVA対Llama 3.2 Vision

多言語OCRでは、Qwen2-VLはLLaVA 1.6を上回り、より少ないVRAMでLlama 3.2 Vision 11Bと同等か、それ以上です。 英語のみの写真Q&Aであれば、Llama 3.2 Vision 11Bも同等に強力な選択肢です。トラブルシューティングのためのコミュニティリソースが必要な場合、LLaVA 1.6は依然として最も文書化された選択肢です。

モデルVRAM (Q4)OCR / CJK最大解像度適した用途
Qwen2-VL 7B~6 GB非常に優秀4096×4096多言語OCR、高解像度スキャン
Llama 3.2 Vision 11B~8 GB良好1120×1120英語の写真Q&A、一般的なドキュメント
LLaVA 1.6 7B~6 GBまずまず672×672一般的なQ&A、コミュニティサポート
MiniCPM-V 2.6 8B~6 GB非常に優秀1792×1792ドキュメントOCR(英語寄り)
InternVL 2.5 8B~8 GB良好高いコード・UIのスクリーンショット

5つすべてがOllama経由で動作します(InternVL 2.5はコミュニティビルド経由)。Moondream 2や請求書抽出のベンチマークを含む、ローカルvisionモデルの完全な総まとめは ローカルvisionモデルの比較 を参照してください。迷ったらQwen2-VL 7Bから始めてください:6 GBのVRAMでOCR、ドキュメント、一般的なQ&Aをカバーします。

ローカルのQwen2-VLをPromptQuorumに接続する

PromptQuorumは複数のモデルにプロンプトを振り分けます。ローカルのQwen2-VLをvisionのディスパッチ先として使用するには、PromptQuorumのローカルLLMエンドポイントをOllamaサーバーに向けます。これにより、画像処理はご自身のハードウェアに留まり、クラウドモデルはテキストタスク用に引き続き利用できます。

これはOllamaエンドポイント(OpenAI互換)で、Claudeに使用するAnthropic APIの設定とは別です。両方を同時に有効にでき、PromptQuorumはタスクの種類とデータの機密性に応じて振り分けます。

📍 一文で説明

PromptQuorumをローカルのQwen2-VLに接続するには、OLLAMA_BASE_URLをhttp://localhost:11434/v1に設定し、ローカルvisionモデルをqwen2-vl:7bに向けます。

bash
# PromptQuorum dispatch config — local Qwen2-VL via Ollama
# Set in your .env or the PromptQuorum settings panel

OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_VISION_MODEL=qwen2-vl:7b

# Example routing rules:
# - task_type: ocr / image  -> qwen2-vl:7b        (local Ollama, no cloud upload)
# - task_type: text         -> claude-sonnet-4-6  (Anthropic API, separate config)

Qwen2-VLのトラブルシューティング

  • 「unknown model」またはpullが失敗する:明示的なサイズタグを使用してください — `qwen2-vl`ではなく `ollama pull qwen2-vl:7b`。`ollama list` を実行してインストール済みの名前を確認してください。
  • 画像が無視され、画像が送信されていないかのようにモデルが応答する:ファイルパスが正しく、読み取り可能か確認してください。Ollama APIでは、`images`配列に `data:` プレフィックス *なし* の生のbase64を入れる必要があります — `data:` プレフィックスはLM StudioとOpenAIの形式のみです。
  • CJK文字が文字化けする、または欠落する:スキャンの解像度が低すぎます。150~300 DPIで再スキャンしてください。Qwen2-VLは最大4096×4096を読み取るため、入力解像度を上げると中国語と日本語の精度が直接向上します。
  • CUDAのメモリ不足(out of memory):モデルがVRAMに収まりません。Qwen2-VL 2B(約3 GB)に切り替えるか、CPUとGPUでユニファイドメモリを共有するApple Siliconで実行してください。
  • 最初の応答が遅く、その後速くなる:これは正常です。visionエンコーダは最初のトークンで画像全体を処理し、その後テキストはほぼ通常の速度で生成されます。
  • 請求書やグラフから誤った数値が抽出される:ローカルvisionモデルは、ノイズの多い入力で数字を読み間違えます。スキャン品質を上げ、数値の出力は必ず元データと照合してください。
  • PDFが読み込めない:PDFを直接受け付けるローカルvisionモデルはありません。まずページをPNGまたはJPEGに変換し(pdf2imageやpypdfium2など)、各ページを別々の画像として送信してください。
  • LM Studioが「failed to load model」と表示する:VRAM不足か、vision非対応のGGUFをダウンロードしたかのいずれかです。モデルカードにvision対応の記載があるか確認し、Q4_K_Mビルドを選択してください。

💡Tip: `ollama ps` を実行すると、どのモデルがVRAMに読み込まれ、それぞれがどれだけメモリを使用しているか確認できます。72Bモデルに切り替える前に `ollama stop qwen2-vl:7b` でモデルをアンロードしてください。

FAQ

Qwen2-VLをローカルで実行するための最小ハードウェアは?

Q4_K_M量子化のQwen2-VL 7Bには8 GBのVRAMが必要です(RTX 4060、RTX 3060 12 GB、またはRTX 2080)。より小さいQwen2-VL 2Bは4 GBで動作します。72Bモデルには約48 GBが必要です — 64 GB以上のユニファイドメモリを備えたApple Silicon、または24 GBのGPU 2基。16 GB以上のユニファイドメモリを備えたApple Siliconは7Bモデルを問題なく実行します。

Qwen2-VLはOCRでLLaVAより優れていますか?

はい、特に英語以外のテキストで優れています。Qwen2-VLはMiniCPM-V 2.6と並び、中国語・日本語・韓国語のOCRでLLaVA 1.6とLlama 3.2 Vision 11Bを上回ります。ネイティブ解像度の4096×4096により高解像度スキャンを縮小せずに読み取りますが、LLaVA 1.6は672×672が上限です。ただしLLaVAは依然として最大のコミュニティと最も多くのチュートリアルを持っています。

Qwen2-VLはPDFを直接読み取れますか?

いいえ。PDF入力を直接受け付けるローカルvisionモデルはありません。まず各PDFページをPNGまたはJPEG画像に変換し(pdf2imageやpypdfium2を使用)、各ページを別々の画像リクエストとして送信してください。10ページのPDFであれば、10回の画像リクエストを送信して結果を結合します。

Ollama経由でQwen2-VLに画像を送信するには?

2つの方法があります。インタラクティブモード(`ollama run qwen2-vl:7b`)では、プロンプト内に画像ファイルのパスを入力すると — Ollamaがそれを検出して画像を読み込みます。API経由では、base64エンコードした `images` 配列を付けて /api/generate にPOSTします。base64文字列に `data:` プレフィックスを含めてはいけません。

Qwen2-VLは完全にオフラインで動作しますか?

はい。一度モデルをダウンロードすれば、Qwen2-VLは完全にご自身のマシンで動作します — APIキーもクラウドアカウントも不要です。画像はどこにもアップロードされず、ドキュメント処理がご自身のインフラ内に留まります。コンプライアンスへの影響については Qwenのローカルでのデータ保護(GDPR)設定ガイド を参照してください。

Qwen2-VLは一度に何枚の画像を処理できますか?

1リクエストあたり最大8枚です — ローカルvisionモデルの中で最も高い複数画像対応数です。そのため、ドキュメントのバージョン比較、相違点の発見、または1秒あたり1フレームでサンプリングした短い動画の要約に適しています。

Qwen2-VLとLlama 3.2 Vision — どちらを選ぶべきですか?

中国語・日本語・韓国語のドキュメント、高解像度スキャン、小さなフォントにはQwen2-VLを選んでください — また、7BモデルはLlama 3.2 Vision 11Bの8 GBに対して6 GBのVRAMに収まります。英語のみの一般的な写真Q&Aには、両者が同等であるLlama 3.2 Vision 11Bを選んでください。

OCRの出力で文字が文字化けするのはなぜですか?

ほとんどの場合、解像度の低いスキャンが原因です。Qwen2-VLはネイティブで最大4096×4096を読み取るため、ドキュメントを150~300 DPIで再スキャンすれば、文字化けや欠落した文字はたいてい解消されます。品質の低い入力は、どのローカルvisionモデルでもOCRエラーの最大の原因です。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

PromptQuorumの順番待ちリストに登録 →

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

Qwen2-VLローカル実行2026:OCR・画像認識セットアップ | PromptQuorum