重要なポイント
- Qwen2-VL 7Bは約6 GBのVRAM(Q4)でローカル動作します。Ollama経由で `ollama pull qwen2-vl:7b` というコマンド1つで済み、モデル変換は不要です。
- 多言語OCRに最適なローカルモデル:Qwen2-VLはMiniCPM-V 2.6と並び、中国語・日本語・韓国語のテキストでLLaVA 1.6とLlama 3.2 Vision 11Bを上回ります。
- ネイティブ解像度は最大4096×4096。LLaVA 1.6(672×672)やLlama 3.2 Vision(1120×1120)と異なり、高解像度スキャンを縮小せずに読み取ります。
- 3つのサイズ:2B(約3 GB VRAM、高速・基本的)、7B(約6 GB、ほとんどのユーザーに推奨)、72B(約48 GB、オープンソースのベンチマークで首位)。
- 1リクエストあたり最大8枚の画像に対応 — ローカルvisionモデルの中で最も高い複数画像対応数です。
- PDFの直接入力は不可:PDFのページをまずPNGまたはJPEGに変換し、各ページを別々の画像として送信します。
- ダウンロード後は100%オフライン:APIキー不要、クラウドへのアップロードなし — すべてのドキュメントがご自身のマシンに留まります。
なぜQwen2-VLは多言語OCRでローカルvisionモデルの中で優れているのか
Qwen2-VLは多言語ドキュメントOCRに最も優れたローカルvisionモデルです。中国語・日本語・韓国語・英語のテキスト読み取りにおいて、コンシューマー向けハードウェアで動作する他のどのモデルと同等か、それ以上です。 Alibabaはこれを大規模な多言語ドキュメントコーパスで学習させており、そのため英語以外のテキスト抽出でLLaVA 1.6やLlama 3.2 Vision 11Bを上回ります。
Qwen2-VLは最大4096×4096ピクセルの動的な入力解像度に対応します。LLaVA 1.6は672×672、Llama 3.2 Visionは1120×1120が上限のため、どちらも高解像度スキャンを読み取り前に縮小します。Qwen2-VLは300 DPIのA4スキャンをネイティブ解像度で読み取ります — これが、密度の高いドキュメントや小さなCJK文字でOCR精度が高い主な理由です。
Qwen2-VLをローカルで動かす場合、ハードウェア費用を除けば1画像あたりのコストは0円です。クラウドのVision APIは1画像あたり約2~5円ほど課金されます。月10,000画像であれば約15,000~45,000円の節約になり、しかもドキュメントがマシンの外に出ることは一切ありません。
ドキュメントにCJKテキスト、小さなフォント、または高解像度スキャンが含まれる場合はQwen2-VLを使用してください。作業が英語のみの写真Q&Aであれば、Llama 3.2 Vision 11Bも同等に良い選択肢です。
📍 一文で説明
Qwen2-VLは中国語・日本語・韓国語のドキュメントOCRに最も精度の高いローカルvisionモデルで、約6 GBのVRAMでOllama経由で動作します。
💬 簡潔に説明
vision-languageモデルは画像を生成するのではなく読み取ります。Qwen2-VLに写真やスキャンしたページを渡すと、テキストが返ってきます — 説明、回答、または抽出された内容です。
Qwen2-VLのモデルサイズを選ぶ
Qwen2-VLには3つのサイズがあります。VRAMと必要な精度に応じて選んでください。すべてのサイズは Hugging Face (Qwen) およびOllamaのモデルライブラリで明示的なタグ付きで利用できます。
| モデル | VRAM (Q4) | Ollamaタグ | 適した用途 |
|---|---|---|---|
| Qwen2-VL 2B Q4 | ~3 GB | qwen2-vl:2b | 高速なキャプション、簡単なOCR、VRAMの少ないノートPC |
| Qwen2-VL 7B Q4 | ~6 GB | qwen2-vl:7b | 推奨 — ドキュメントOCR、画像Q&A、グラフ |
| Qwen2-VL 72B Q4 | ~48 GB | qwen2-vl:72b | 最高品質、64 GB以上のApple SiliconまたはマルチGPU |
Q4_K_Mが推奨される量子化です — 品質とサイズのバランスが最も優れています。ほとんどのユーザーはQwen2-VL 7Bから始めるべきです:8 GBのGPUに収まり、このガイドのすべてのユースケースに対応します。VRAMが6 GB未満の場合のみ2Bモデルに切り替えてください。Q4が品質に与える影響については LLMの量子化を解説 を参照してください。
Qwen2-VLのハードウェア要件
- 最小(Qwen2-VL 7B Q4):8 GB VRAMのGPU — NVIDIA RTX 4060、RTX 3060 12 GB、またはRTX 2080。
- VRAMが少ない場合の選択肢(Qwen2-VL 2B Q4):4 GB VRAM — ほとんどのノートPCのGPUや内蔵Apple Siliconで動作します。
- 最高品質(Qwen2-VL 72B Q4):約48 GB — 64 GB以上のユニファイドメモリを備えたApple Silicon、または24 GBのGPU 2基。
- Apple Silicon:16 GB以上のユニファイドメモリを備えたM-seriesチップは7Bモデルを問題なく実行します。72Bモデルには64 GB以上が必要です。
- システムRAM:GPU推論と並行して最低16 GB。完全な開発環境を開いた状態では32 GBを推奨します。
- ストレージ:Qwen2-VL 7B Q4(GGUF)に約6 GB、72Bに約30 GBの空き容量。
📌Note: visionモデルは、同じパラメータ数のテキスト専用モデルより約30~60%遅く動作します。visionエンコーダは最初のトークンで画像全体を処理し、その後テキストはほぼ通常の速度で生成されます。VRAMはエンコーダと言語モデルの両方のために確保してください。
Qwen2-VLをOllamaでセットアップする
Ollamaは、Qwen2-VLをローカルで実行する最も速い方法です。モデルのダウンロード、量子化の管理を行い、localhost:11434でAPIを公開します。ollama.com からインストールしてください。初めての方は Ollamaのインストール方法 から始めてください。
- 1Ollamaをインストールする
Why it matters: Ollamaはモデルのダウンロード、GGUF形式、ローカルAPIを処理します。macOS、Linux、Windowsで利用できます。 - 2明示的なサイズタグでQwen2-VLを取得する
Why it matters: qwen2-vl:7bを使用してください。タグなしのqwen2-vlは別のサイズに解決されることがあります — このガイドが対象とするモデルを取得するため、必ず2b、7b、72bを指定してください。 - 3モデルを実行して画像を添付する
Why it matters: インタラクティブモードでは、プロンプト内に画像ファイルのパスを入力します。Ollamaがパスを検出し、画像をvisionエンコーダに読み込みます。 - 4API経由で画像を送信する
Why it matters: /api/generateエンドポイントはbase64エンコードされたimages配列を受け付けます。アプリケーション — そしてPromptQuorum — はこの方法でプログラムから画像を送信します。 - 5多言語OCRを検証する
Why it matters: 中国語または日本語のドキュメントスキャンを送信し、抽出されたテキストが一致するか確認します。これにより、その上に構築する前に、visionエンコーダとトークナイザがCJK文字を正しく処理することを確認できます。
# Step 1 — Install Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — download from https://ollama.com/download
# Step 2 — Pull Qwen2-VL 7B (explicit size tag)
ollama pull qwen2-vl:7b
# Downloads Qwen2-VL 7B Q4_K_M (~6 GB)
# Step 3 — Run and attach an image (interactive)
ollama run qwen2-vl:7b
>>> Extract every line of text from ./invoice-jp.png
# Step 4 — Send an image through the API
# Encode the image first: base64 -i scan.png (macOS)
curl http://localhost:11434/api/generate -d '{
"model": "qwen2-vl:7b",
"prompt": "Extract every line of text from this document. Preserve line breaks.",
"images": ["<base64-encoded-image>"],
"stream": false
}'
# Step 5 — Verify multilingual OCR
ollama run qwen2-vl:7b
>>> Extract all text from this image: ./contract-zh.png⚠️Warning: ドキュメント画像は150 DPI以上で送信してください。Qwen2-VLはネイティブで最大4096×4096を読み取るため、高解像度スキャンは精度を直接向上させます。テキストプロンプトとは異なり、画像品質はOCR結果を左右する最大の要因です — ぼやけたスキャンは、モデルがどれだけ優れていても誤った文字を生成します。
Qwen2-VLをLM Studioでセットアップする
LM Studioは、CLIコマンドなしでGUIからQwen2-VLを実行します。Windowsユーザーや、GUIを好む方に推奨される方法です。lmstudio.ai からダウンロードするか、LM Studioのインストール方法 を参照してください。
- 1LM Studioをダウンロードしてインストールする
Why it matters: ローカルモデル推論のための無料・クロスプラットフォームのGUIです。ターミナルは不要です。 - 2モデルブラウザでQwen2-VLを検索する
Why it matters: 「Qwen2-VL 7B」を検索し、Q4_K_M GGUFビルドを選択します。LM Studioはvision対応モデルを画像アイコンで示します。 - 3モデルを読み込んで画像を添付する
Why it matters: 入力欄の画像アイコンをクリックして写真やスキャンをアップロードします。LM Studioがそれをvisionエンコーダに渡します。 - 4ローカルサーバーを起動する
Why it matters: 「Start Server」ボタンはlocalhost:1234でOpenAI互換APIを公開します。visionリクエストは標準のimage_urlコンテンツ形式を使用します。
// LM Studio — OpenAI-compatible vision request (localhost:1234)
{
"model": "qwen2-vl-7b",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Extract all text from this document." },
{
"type": "image_url",
"image_url": { "url": "data:image/png;base64,<base64-encoded-image>" }
}
]
}
]
}中国語・日本語・多言語混在ファイルのドキュメントOCR
Qwen2-VLは、中国語・日本語・韓国語・多言語混在のドキュメントから、他のどのローカルvisionモデルよりも正確にテキストを抽出します。 学習データには大規模な多言語ドキュメントコーパスが含まれ、ネイティブ解像度の4096×4096により、LLaVA 1.6やLlama 3.2 Visionが縮小して見落とす小さなCJK文字も読み取ります。
最も信頼できるパターンは、具体的な抽出指示です。曖昧な「これを読んで」ではなく、構造を求めてください — 「表のレイアウトを保持して」「各フィールドをkey: valueとして返して」など。Qwen2-VLは書式の指示に忠実に従うため、後処理なしで使える出力が得られます。
📍 一文で説明
Qwen2-VLでCJKドキュメントからテキストを抽出するには、画像を150 DPI以上で送信し、「各フィールドをkey: valueとして返して」のように構造を求める具体的なプロンプトを使用します。
💬 簡潔に説明
OCRとは、テキストの画像を編集可能なテキストに変換することです。Qwen2-VLはスキャンしたページを見て、見たものを書き出します — そして中国語や日本語の文字も英語と同じように扱えます。
- プレーンテキストの抽出:「この画像からすべてのテキスト行を抽出してください。改行と読み順を保持してください。」
- 構造化フィールド:「これは日本語の請求書です。取引先、日付、小計、税額、合計をkey: valueのペアで返してください。」
- 表の抽出:「この表をCSVとして抽出してください。1行目をヘッダーとして扱ってください。」
- 抽出と翻訳を1回で:「この画像から中国語のテキストを抽出し、それを英語に翻訳してください。両方を表示してください。」
# Japanese invoice -> structured fields
ollama run qwen2-vl:7b
>>> This is a Japanese invoice. Extract vendor name, invoice date,
subtotal, consumption tax, and total. Return as key: value pairs.
./invoice-jp.png
# Example output:
# vendor: Sample Trading Co., Ltd.
# date: 2026-04-30
# subtotal: 84,000 JPY
# tax: 8,400 JPY
# total: 92,400 JPY•Important: 抽出された数値は必ず元のドキュメントと照合してください。ローカルvisionモデル — Qwen2-VLを含む — は、品質の低いスキャンで数字を読み間違えることがあります。特に請求書や財務ドキュメントでは、OCRの出力を確定値ではなく、確認すべき下書きとして扱ってください。
画像Q&A、スクリーンショット分析、グラフの読み取り
OCR以外にも、Qwen2-VLは一般的な画像理解を扱います — 写真の説明、スクリーンショットに関する質問への回答、グラフの読み取りです。鮮明な入力には正確で、雑然とした、または曖昧なシーンには弱くなります。
- 画像Q&A:写真について自由な質問ができます — 「この画像には何が写っていますか?」「赤い服を着ている人は何人ですか?」。Qwen2-VL 7Bは鮮明な写真には正確で、雑然とした、または曖昧なシーンには弱くなります。
- スクリーンショット・UI分析:Qwen2-VLはUIのスクリーンショット、エラーダイアログ、アプリの状態を読み取ります。特に密度の高いコードのスクリーンショットについては、InternVL 2.5がそのデータでより重点的に学習されています — UIやコードが主な用途であればそちらを使用してください。
- グラフ・図の読み取り:Qwen2-VLはグラフの構造や傾向をうまく説明しますが、グラフから取り出した正確な数値はどのローカルvisionモデルでも信頼できません。正確な数値は元データと照合してください。
- 動画フレーム:Qwen2-VLは複数のフレームをシーケンスとして受け付けます — 1秒あたり約1フレームを抽出し、最大8枚を送信して短いクリップを要約できます。
- 複数画像の比較:1リクエストで最大8枚の画像を送信し、バージョンの比較、相違点の発見、セットの一括説明ができます。
💡Tip: OCR、多言語ドキュメント、一般的な画像Q&AにはQwen2-VLを使用してください。コードやUIのスクリーンショットが主な用途であればInternVL 2.5に、VRAMが4 GB未満であればMoondream 2に切り替えてください。
Qwen2-VL対LLaVA対Llama 3.2 Vision
多言語OCRでは、Qwen2-VLはLLaVA 1.6を上回り、より少ないVRAMでLlama 3.2 Vision 11Bと同等か、それ以上です。 英語のみの写真Q&Aであれば、Llama 3.2 Vision 11Bも同等に強力な選択肢です。トラブルシューティングのためのコミュニティリソースが必要な場合、LLaVA 1.6は依然として最も文書化された選択肢です。
| モデル | VRAM (Q4) | OCR / CJK | 最大解像度 | 適した用途 |
|---|---|---|---|---|
| Qwen2-VL 7B | ~6 GB | 非常に優秀 | 4096×4096 | 多言語OCR、高解像度スキャン |
| Llama 3.2 Vision 11B | ~8 GB | 良好 | 1120×1120 | 英語の写真Q&A、一般的なドキュメント |
| LLaVA 1.6 7B | ~6 GB | まずまず | 672×672 | 一般的なQ&A、コミュニティサポート |
| MiniCPM-V 2.6 8B | ~6 GB | 非常に優秀 | 1792×1792 | ドキュメントOCR(英語寄り) |
| InternVL 2.5 8B | ~8 GB | 良好 | 高い | コード・UIのスクリーンショット |
5つすべてがOllama経由で動作します(InternVL 2.5はコミュニティビルド経由)。Moondream 2や請求書抽出のベンチマークを含む、ローカルvisionモデルの完全な総まとめは ローカルvisionモデルの比較 を参照してください。迷ったらQwen2-VL 7Bから始めてください:6 GBのVRAMでOCR、ドキュメント、一般的なQ&Aをカバーします。
ローカルのQwen2-VLをPromptQuorumに接続する
PromptQuorumは複数のモデルにプロンプトを振り分けます。ローカルのQwen2-VLをvisionのディスパッチ先として使用するには、PromptQuorumのローカルLLMエンドポイントをOllamaサーバーに向けます。これにより、画像処理はご自身のハードウェアに留まり、クラウドモデルはテキストタスク用に引き続き利用できます。
これはOllamaエンドポイント(OpenAI互換)で、Claudeに使用するAnthropic APIの設定とは別です。両方を同時に有効にでき、PromptQuorumはタスクの種類とデータの機密性に応じて振り分けます。
📍 一文で説明
PromptQuorumをローカルのQwen2-VLに接続するには、OLLAMA_BASE_URLをhttp://localhost:11434/v1に設定し、ローカルvisionモデルをqwen2-vl:7bに向けます。
# PromptQuorum dispatch config — local Qwen2-VL via Ollama
# Set in your .env or the PromptQuorum settings panel
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_VISION_MODEL=qwen2-vl:7b
# Example routing rules:
# - task_type: ocr / image -> qwen2-vl:7b (local Ollama, no cloud upload)
# - task_type: text -> claude-sonnet-4-6 (Anthropic API, separate config)Qwen2-VLのトラブルシューティング
- 「unknown model」またはpullが失敗する:明示的なサイズタグを使用してください — `qwen2-vl`ではなく `ollama pull qwen2-vl:7b`。`ollama list` を実行してインストール済みの名前を確認してください。
- 画像が無視され、画像が送信されていないかのようにモデルが応答する:ファイルパスが正しく、読み取り可能か確認してください。Ollama APIでは、`images`配列に `data:` プレフィックス *なし* の生のbase64を入れる必要があります — `data:` プレフィックスはLM StudioとOpenAIの形式のみです。
- CJK文字が文字化けする、または欠落する:スキャンの解像度が低すぎます。150~300 DPIで再スキャンしてください。Qwen2-VLは最大4096×4096を読み取るため、入力解像度を上げると中国語と日本語の精度が直接向上します。
- CUDAのメモリ不足(out of memory):モデルがVRAMに収まりません。Qwen2-VL 2B(約3 GB)に切り替えるか、CPUとGPUでユニファイドメモリを共有するApple Siliconで実行してください。
- 最初の応答が遅く、その後速くなる:これは正常です。visionエンコーダは最初のトークンで画像全体を処理し、その後テキストはほぼ通常の速度で生成されます。
- 請求書やグラフから誤った数値が抽出される:ローカルvisionモデルは、ノイズの多い入力で数字を読み間違えます。スキャン品質を上げ、数値の出力は必ず元データと照合してください。
- PDFが読み込めない:PDFを直接受け付けるローカルvisionモデルはありません。まずページをPNGまたはJPEGに変換し(pdf2imageやpypdfium2など)、各ページを別々の画像として送信してください。
- LM Studioが「failed to load model」と表示する:VRAM不足か、vision非対応のGGUFをダウンロードしたかのいずれかです。モデルカードにvision対応の記載があるか確認し、Q4_K_Mビルドを選択してください。
💡Tip: `ollama ps` を実行すると、どのモデルがVRAMに読み込まれ、それぞれがどれだけメモリを使用しているか確認できます。72Bモデルに切り替える前に `ollama stop qwen2-vl:7b` でモデルをアンロードしてください。
FAQ
Qwen2-VLをローカルで実行するための最小ハードウェアは?
Q4_K_M量子化のQwen2-VL 7Bには8 GBのVRAMが必要です(RTX 4060、RTX 3060 12 GB、またはRTX 2080)。より小さいQwen2-VL 2Bは4 GBで動作します。72Bモデルには約48 GBが必要です — 64 GB以上のユニファイドメモリを備えたApple Silicon、または24 GBのGPU 2基。16 GB以上のユニファイドメモリを備えたApple Siliconは7Bモデルを問題なく実行します。
Qwen2-VLはOCRでLLaVAより優れていますか?
はい、特に英語以外のテキストで優れています。Qwen2-VLはMiniCPM-V 2.6と並び、中国語・日本語・韓国語のOCRでLLaVA 1.6とLlama 3.2 Vision 11Bを上回ります。ネイティブ解像度の4096×4096により高解像度スキャンを縮小せずに読み取りますが、LLaVA 1.6は672×672が上限です。ただしLLaVAは依然として最大のコミュニティと最も多くのチュートリアルを持っています。
Qwen2-VLはPDFを直接読み取れますか?
いいえ。PDF入力を直接受け付けるローカルvisionモデルはありません。まず各PDFページをPNGまたはJPEG画像に変換し(pdf2imageやpypdfium2を使用)、各ページを別々の画像リクエストとして送信してください。10ページのPDFであれば、10回の画像リクエストを送信して結果を結合します。
Ollama経由でQwen2-VLに画像を送信するには?
2つの方法があります。インタラクティブモード(`ollama run qwen2-vl:7b`)では、プロンプト内に画像ファイルのパスを入力すると — Ollamaがそれを検出して画像を読み込みます。API経由では、base64エンコードした `images` 配列を付けて /api/generate にPOSTします。base64文字列に `data:` プレフィックスを含めてはいけません。
Qwen2-VLは完全にオフラインで動作しますか?
はい。一度モデルをダウンロードすれば、Qwen2-VLは完全にご自身のマシンで動作します — APIキーもクラウドアカウントも不要です。画像はどこにもアップロードされず、ドキュメント処理がご自身のインフラ内に留まります。コンプライアンスへの影響については Qwenのローカルでのデータ保護(GDPR)設定ガイド を参照してください。
Qwen2-VLは一度に何枚の画像を処理できますか?
1リクエストあたり最大8枚です — ローカルvisionモデルの中で最も高い複数画像対応数です。そのため、ドキュメントのバージョン比較、相違点の発見、または1秒あたり1フレームでサンプリングした短い動画の要約に適しています。
Qwen2-VLとLlama 3.2 Vision — どちらを選ぶべきですか?
中国語・日本語・韓国語のドキュメント、高解像度スキャン、小さなフォントにはQwen2-VLを選んでください — また、7BモデルはLlama 3.2 Vision 11Bの8 GBに対して6 GBのVRAMに収まります。英語のみの一般的な写真Q&Aには、両者が同等であるLlama 3.2 Vision 11Bを選んでください。
OCRの出力で文字が文字化けするのはなぜですか?
ほとんどの場合、解像度の低いスキャンが原因です。Qwen2-VLはネイティブで最大4096×4096を読み取るため、ドキュメントを150~300 DPIで再スキャンすれば、文字化けや欠落した文字はたいてい解消されます。品質の低い入力は、どのローカルvisionモデルでもOCRエラーの最大の原因です。