PromptQuorumPromptQuorum

OllamaでVisionに対応しているモデルは?

クイック回答

OllamaはLLaVA、Gemma 3マルチモーダル、Qwen-VLなど複数のVisionモデルに対応しています。最も簡単な始め方は ollama run llava です。すべてOllama API経由で画像を受け付けます。

  • llava:オリジナルのVisionモデル、互換性が最も広い
  • gemma3:Googleのマルチモーダルモデル、高品質
  • qwen-vl:ドキュメント理解に強い

更新: 2026-05

Ollama

重要なポイント

  • 本番利用可能なOllama Visionモデルは4つ:LLaVA、Llama 3.2 Vision、Qwen-VL、Gemma 3
  • VisionモデルはテキストのみのモデルよりVRAMが1–3 GB多く必要です——画像エンコーダーがLLMと並行して動作するためです
  • LLaVA 7Bが最も安全な出発点(~7 GB VRAM、広いクライアント互換性)
  • チャートや図の分析にはQwen-VL、OCRや多段階推論にはLlama 3.2 Vision 11Bを使用してください

OllamaのトップVisionモデル

2026年5月時点で、Ollamaは本番利用可能な4つのVisionモデルをサポートしています:LLaVA、Llama 3.2 Vision、Qwen-VL、Gemma 3。それぞれ異なる強みとVRAMプロファイルを持ちます。

LLaVAは最も安全な出発点です——最も広いクライアント互換性を持ち、Ollamaが受け付けるあらゆる画像フォーマットで動作します。Llama 3.2 Vision 11BはOCRと多段階の視覚的推論に最適です。Qwen-VLはチャート、図、構造化ドキュメントで優れています。Gemma 3のVisionバリアントは35以上の言語に対応しており、標識や外国語文書、ローカライズされたラベルの入ったグラフなど、英語以外のテキストを含む画像に有効です。LLaVAとQwen-VLは英語テキストで最も強力です。

すべてのVisionモデルはLLMの重みと並行して画像エンコーダーを読み込みます。このエンコーダーはベースのテキストモデルが必要とするVRAMに加えて1–3 GB追加されます——VRAMの予算を確認する際はこのオーバーヘッドを計画に含めてください。

VisionのVRAM要件

すべてのVisionモデルは、テキストのみの同等モデルよりも多くのVRAMを必要とします。7BのVisionモデルは通常7–9 GB VRAMが必要で、7Bテキストモデルで想定する~6 GBではありません。

チャートやドキュメント分析には、Qwen-VL 7BとGemma 3が強力な図の理解力を持ちながら最もVRAM効率の高い選択肢です。画像上のOCRや複雑な推論には、Llama 3.2 Vision 11BがVRAMの追加使用を正当化します。マルチモーダルローカルモデルのユースケース別ガイドは、マルチモーダルローカルLLMガイドをご覧ください。

モデルQ4でのVRAM画像機能
LLaVA 7B~7 GB一般的な画像Q&A、広い互換性
Llama 3.2 Vision 11B~10 GBOCR、多段階視覚推論
Qwen-VL 7B~7 GBチャート、図、ドキュメント分析
Gemma 3(Vision)~6 GB多言語画像理解

Ollama Visionモデルへのよくある質問

API経由でOllamaに画像を送るにはどうすればいいですか?
/api/chatエンドポイントにPOSTリクエストを送り、images配列にbase64文字列として画像を含めます。最小動作JSONボディ: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} ツールコールサポートが強いマルチモーダル対応オプションはOllamaでのQwen 3をご覧ください。
VisionモデルはOCR(画像からテキストを読み取る)できますか?
はい、ただし品質は異なります。Llama 3.2 Vision 11BはOllamaがサポートするモデルの中でOCRが最も優れています。LLaVA 7Bは明瞭に印刷されたテキストは読めますが、手書きや小さいフォントは苦手です。
チャートや図に最適なOllama Visionモデルはどれですか?
Qwen-VL 7Bです。チャート、表、図を含む構造化された視覚データでファインチューニングされており、ドキュメント理解ベンチマークでLLaVAとGemma 3を上回ります。
Visionモデルは1つのプロンプトで複数の画像をサポートしていますか?
モデルによって対応状況が異なります。LLaVAとQwen-VLは現在Ollamaで1ターンに1枚の画像を処理します。Llama 3.2 VisionはOllamaのバージョンとクライアントの実装によってマルチ画像入力をサポートしています。