OllamaでVisionに対応しているモデルは?
クイック回答
OllamaはLLaVA、Gemma 3マルチモーダル、Qwen-VLなど複数のVisionモデルに対応しています。最も簡単な始め方は ollama run llava です。すべてOllama API経由で画像を受け付けます。
- ▸llava:オリジナルのVisionモデル、互換性が最も広い
- ▸gemma3:Googleのマルチモーダルモデル、高品質
- ▸qwen-vl:ドキュメント理解に強い
更新: 2026-05
重要なポイント
- ✓本番利用可能なOllama Visionモデルは4つ:LLaVA、Llama 3.2 Vision、Qwen-VL、Gemma 3
- ✓VisionモデルはテキストのみのモデルよりVRAMが1–3 GB多く必要です——画像エンコーダーがLLMと並行して動作するためです
- ✓LLaVA 7Bが最も安全な出発点(~7 GB VRAM、広いクライアント互換性)
- ✓チャートや図の分析にはQwen-VL、OCRや多段階推論にはLlama 3.2 Vision 11Bを使用してください
OllamaのトップVisionモデル
2026年5月時点で、Ollamaは本番利用可能な4つのVisionモデルをサポートしています:LLaVA、Llama 3.2 Vision、Qwen-VL、Gemma 3。それぞれ異なる強みとVRAMプロファイルを持ちます。
LLaVAは最も安全な出発点です——最も広いクライアント互換性を持ち、Ollamaが受け付けるあらゆる画像フォーマットで動作します。Llama 3.2 Vision 11BはOCRと多段階の視覚的推論に最適です。Qwen-VLはチャート、図、構造化ドキュメントで優れています。Gemma 3のVisionバリアントは35以上の言語に対応しており、標識や外国語文書、ローカライズされたラベルの入ったグラフなど、英語以外のテキストを含む画像に有効です。LLaVAとQwen-VLは英語テキストで最も強力です。
すべてのVisionモデルはLLMの重みと並行して画像エンコーダーを読み込みます。このエンコーダーはベースのテキストモデルが必要とするVRAMに加えて1–3 GB追加されます——VRAMの予算を確認する際はこのオーバーヘッドを計画に含めてください。
VisionのVRAM要件
すべてのVisionモデルは、テキストのみの同等モデルよりも多くのVRAMを必要とします。7BのVisionモデルは通常7–9 GB VRAMが必要で、7Bテキストモデルで想定する~6 GBではありません。
チャートやドキュメント分析には、Qwen-VL 7BとGemma 3が強力な図の理解力を持ちながら最もVRAM効率の高い選択肢です。画像上のOCRや複雑な推論には、Llama 3.2 Vision 11BがVRAMの追加使用を正当化します。マルチモーダルローカルモデルのユースケース別ガイドは、マルチモーダルローカルLLMガイドをご覧ください。
| モデル | Q4でのVRAM | 画像機能 |
|---|---|---|
| LLaVA 7B | ~7 GB | 一般的な画像Q&A、広い互換性 |
| Llama 3.2 Vision 11B | ~10 GB | OCR、多段階視覚推論 |
| Qwen-VL 7B | ~7 GB | チャート、図、ドキュメント分析 |
| Gemma 3(Vision) | ~6 GB | 多言語画像理解 |
関連ガイド
- ▸Ollama 128Kコンテキストモデル -- long context models
Ollama Visionモデルへのよくある質問
API経由でOllamaに画像を送るにはどうすればいいですか?▾
/api/chatエンドポイントにPOSTリクエストを送り、images配列にbase64文字列として画像を含めます。最小動作JSONボディ: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} ツールコールサポートが強いマルチモーダル対応オプションはOllamaでのQwen 3をご覧ください。