クイック回答
OllamaはLLaVA、Gemma 3マルチモーダル、Qwen-VLなど複数のVisionモデルに対応しています。最も簡単な始め方は ollama run llava です。すべてOllama API経由で画像を受け付けます。
更新: 2026-05
重要なポイント
2026年5月時点で、Ollamaは本番利用可能な4つのVisionモデルをサポートしています:LLaVA、Llama 3.2 Vision、Qwen-VL、Gemma 3。それぞれ異なる強みとVRAMプロファイルを持ちます。
LLaVAは最も安全な出発点です——最も広いクライアント互換性を持ち、Ollamaが受け付けるあらゆる画像フォーマットで動作します。Llama 3.2 Vision 11BはOCRと多段階の視覚的推論に最適です。Qwen-VLはチャート、図、構造化ドキュメントで優れています。Gemma 3のVisionバリアントは35以上の言語に対応しており、標識や外国語文書、ローカライズされたラベルの入ったグラフなど、英語以外のテキストを含む画像に有効です。LLaVAとQwen-VLは英語テキストで最も強力です。
すべてのVisionモデルはLLMの重みと並行して画像エンコーダーを読み込みます。このエンコーダーはベースのテキストモデルが必要とするVRAMに加えて1–3 GB追加されます——VRAMの予算を確認する際はこのオーバーヘッドを計画に含めてください。
すべてのVisionモデルは、テキストのみの同等モデルよりも多くのVRAMを必要とします。7BのVisionモデルは通常7–9 GB VRAMが必要で、7Bテキストモデルで想定する~6 GBではありません。
チャートやドキュメント分析には、Qwen-VL 7BとGemma 3が強力な図の理解力を持ちながら最もVRAM効率の高い選択肢です。画像上のOCRや複雑な推論には、Llama 3.2 Vision 11BがVRAMの追加使用を正当化します。マルチモーダルローカルモデルのユースケース別ガイドは、マルチモーダルローカルLLMガイドをご覧ください。
| モデル | Q4でのVRAM | 画像機能 |
|---|---|---|
| LLaVA 7B | ~7 GB | 一般的な画像Q&A、広い互換性 |
| Llama 3.2 Vision 11B | ~10 GB | OCR、多段階視覚推論 |
| Qwen-VL 7B | ~7 GB | チャート、図、ドキュメント分析 |
| Gemma 3(Vision) | ~6 GB | 多言語画像理解 |
/api/chatエンドポイントにPOSTリクエストを送り、images配列にbase64文字列として画像を含めます。最小動作JSONボディ: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} ツールコールサポートが強いマルチモーダル対応オプションはOllamaでのQwen 3をご覧ください。