OllamaでVisionに対応しているモデルは？

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

クイック回答

OllamaはLLaVA、Gemma 3マルチモーダル、Qwen-VLなど複数のVisionモデルに対応しています。最も簡単な始め方は ollama run llava です。すべてOllama API経由で画像を受け付けます。

▸llava：オリジナルのVisionモデル、互換性が最も広い
▸gemma3：Googleのマルチモーダルモデル、高品質
▸qwen-vl：ドキュメント理解に強い

更新: 2026-05

Ollama

重要なポイント

✓本番利用可能なOllama Visionモデルは4つ：LLaVA、Llama 3.2 Vision、Qwen-VL、Gemma 3
✓VisionモデルはテキストのみのモデルよりVRAMが1–3 GB多く必要です——画像エンコーダーがLLMと並行して動作するためです
✓LLaVA 7Bが最も安全な出発点（~7 GB VRAM、広いクライアント互換性）
✓チャートや図の分析にはQwen-VL、OCRや多段階推論にはLlama 3.2 Vision 11Bを使用してください

OllamaのトップVisionモデル

2026年5月時点で、Ollamaは本番利用可能な4つのVisionモデルをサポートしています：LLaVA、Llama 3.2 Vision、Qwen-VL、Gemma 3。それぞれ異なる強みとVRAMプロファイルを持ちます。

LLaVAは最も安全な出発点です——最も広いクライアント互換性を持ち、Ollamaが受け付けるあらゆる画像フォーマットで動作します。Llama 3.2 Vision 11BはOCRと多段階の視覚的推論に最適です。Qwen-VLはチャート、図、構造化ドキュメントで優れています。Gemma 3のVisionバリアントは35以上の言語に対応しており、標識や外国語文書、ローカライズされたラベルの入ったグラフなど、英語以外のテキストを含む画像に有効です。LLaVAとQwen-VLは英語テキストで最も強力です。

すべてのVisionモデルはLLMの重みと並行して画像エンコーダーを読み込みます。このエンコーダーはベースのテキストモデルが必要とするVRAMに加えて1–3 GB追加されます——VRAMの予算を確認する際はこのオーバーヘッドを計画に含めてください。

VisionのVRAM要件

すべてのVisionモデルは、テキストのみの同等モデルよりも多くのVRAMを必要とします。7BのVisionモデルは通常7–9 GB VRAMが必要で、7Bテキストモデルで想定する~6 GBではありません。

チャートやドキュメント分析には、Qwen-VL 7BとGemma 3が強力な図の理解力を持ちながら最もVRAM効率の高い選択肢です。画像上のOCRや複雑な推論には、Llama 3.2 Vision 11BがVRAMの追加使用を正当化します。マルチモーダルローカルモデルのユースケース別ガイドは、マルチモーダルローカルLLMガイドをご覧ください。

モデル	Q4でのVRAM	画像機能
LLaVA 7B	~7 GB	一般的な画像Q&A、広い互換性
Llama 3.2 Vision 11B	~10 GB	OCR、多段階視覚推論
Qwen-VL 7B	~7 GB	チャート、図、ドキュメント分析
Gemma 3（Vision）	~6 GB	多言語画像理解

Ollama Visionモデルへのよくある質問

API経由でOllamaに画像を送るにはどうすればいいですか？▾

/api/chatエンドポイントにPOSTリクエストを送り、images配列にbase64文字列として画像を含めます。最小動作JSONボディ: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} ツールコールサポートが強いマルチモーダル対応オプションはOllamaでのQwen 3をご覧ください。

VisionモデルはOCR（画像からテキストを読み取る）できますか？▾

はい、ただし品質は異なります。Llama 3.2 Vision 11BはOllamaがサポートするモデルの中でOCRが最も優れています。LLaVA 7Bは明瞭に印刷されたテキストは読めますが、手書きや小さいフォントは苦手です。

チャートや図に最適なOllama Visionモデルはどれですか？▾

Qwen-VL 7Bです。チャート、表、図を含む構造化された視覚データでファインチューニングされており、ドキュメント理解ベンチマークでLLaVAとGemma 3を上回ります。

Visionモデルは1つのプロンプトで複数の画像をサポートしていますか？▾

モデルによって対応状況が異なります。LLaVAとQwen-VLは現在Ollamaで1ターンに1枚の画像を処理します。Llama 3.2 VisionはOllamaのバージョンとクライアントの実装によってマルチ画像入力をサポートしています。

← プロンプト早わかりに戻る

OllamaでVisionに対応しているモデルは？

OllamaのトップVisionモデル

VisionのVRAM要件

関連ガイド

Ollama Visionモデルへのよくある質問