快速回答
Ollama支持多个视觉模型:LLaVA、Gemma 3多模态和Qwen-VL。最简单的入门方式是 ollama run llava。所有模型均通过Ollama API接受图片。
更新于: 2026-05
关键要点
截至2026年5月,Ollama支持四个可用于生产的视觉模型:LLaVA、Llama 3.2 Vision、Qwen-VL和Gemma 3。每个模型都有独特的优势和VRAM需求。
LLaVA是最安全的起点——它具有最广泛的客户端兼容性,支持Ollama接受的所有图片格式。Llama 3.2 Vision 11B是OCR和多步视觉推理的最佳选择。Qwen-VL在图表、图形和结构化文档方面领先。Gemma 3的视觉版本支持35种以上的语言——适用于图片包含非英文文本的场景,如标识、外语文档或带有本地化标签的图表。LLaVA和Qwen-VL在英文文本上最为强大。
所有视觉模型都会在LLM权重的基础上加载图像编码器。此编码器在纯文本模型所需VRAM之上额外增加1–3 GB——规划VRAM预算时请考虑这一开销。
每个视觉模型所需的VRAM都多于其纯文本版本。7B视觉模型通常需要7–9 GB VRAM,而不是7B文本模型预算的~6 GB。
对于图表和文档分析,Qwen-VL 7B和Gemma 3提供了最具VRAM效率的选项,同时具有强大的图形理解能力。对于图片上的OCR和复杂推理,Llama 3.2 Vision 11B的额外VRAM是值得的。关于多模态本地模型及用例匹配的完整指南,请参阅多模态本地LLM指南。
| 模型 | Q4量化的VRAM | 图像能力 |
|---|---|---|
| LLaVA 7B | ~7 GB | 通用图像问答,广泛兼容 |
| Llama 3.2 Vision 11B | ~10 GB | OCR,多步视觉推理 |
| Qwen-VL 7B | ~7 GB | 图表、图形、文档分析 |
| Gemma 3(视觉版) | ~6 GB | 多语言图像理解 |
/api/chat端点发送POST请求,将图片作为base64字符串放在images数组中。最简JSON请求体:{"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} 如需多模态能力加强大工具调用支持,参见在Ollama上运行Qwen 3。