哪些Ollama模型支持视觉功能?
快速回答
Ollama支持多个视觉模型:LLaVA、Gemma 3多模态和Qwen-VL。最简单的入门方式是 ollama run llava。所有模型均通过Ollama API接受图片。
- ▸llava:原始视觉模型,兼容性最广
- ▸gemma3:Google多模态模型,质量优秀
- ▸qwen-vl:文档理解能力强
更新于: 2026-05
Ollama
关键要点
- ✓四个Ollama视觉模型已可用于生产:LLaVA、Llama 3.2 Vision、Qwen-VL和Gemma 3
- ✓视觉模型比纯文本模型需要多1–3 GB VRAM——图像编码器与LLM并行运行
- ✓LLaVA 7B是最安全的起点(~7 GB VRAM,广泛的客户端兼容性)
- ✓图表和图形分析使用Qwen-VL;OCR和多步推理使用Llama 3.2 Vision 11B
Ollama上的顶级视觉模型
截至2026年5月,Ollama支持四个可用于生产的视觉模型:LLaVA、Llama 3.2 Vision、Qwen-VL和Gemma 3。每个模型都有独特的优势和VRAM需求。
LLaVA是最安全的起点——它具有最广泛的客户端兼容性,支持Ollama接受的所有图片格式。Llama 3.2 Vision 11B是OCR和多步视觉推理的最佳选择。Qwen-VL在图表、图形和结构化文档方面领先。Gemma 3的视觉版本支持35种以上的语言——适用于图片包含非英文文本的场景,如标识、外语文档或带有本地化标签的图表。LLaVA和Qwen-VL在英文文本上最为强大。
所有视觉模型都会在LLM权重的基础上加载图像编码器。此编码器在纯文本模型所需VRAM之上额外增加1–3 GB——规划VRAM预算时请考虑这一开销。
视觉功能的VRAM需求
每个视觉模型所需的VRAM都多于其纯文本版本。7B视觉模型通常需要7–9 GB VRAM,而不是7B文本模型预算的~6 GB。
对于图表和文档分析,Qwen-VL 7B和Gemma 3提供了最具VRAM效率的选项,同时具有强大的图形理解能力。对于图片上的OCR和复杂推理,Llama 3.2 Vision 11B的额外VRAM是值得的。关于多模态本地模型及用例匹配的完整指南,请参阅多模态本地LLM指南。
| 模型 | Q4量化的VRAM | 图像能力 |
|---|---|---|
| LLaVA 7B | ~7 GB | 通用图像问答,广泛兼容 |
| Llama 3.2 Vision 11B | ~10 GB | OCR,多步视觉推理 |
| Qwen-VL 7B | ~7 GB | 图表、图形、文档分析 |
| Gemma 3(视觉版) | ~6 GB | 多语言图像理解 |
相关指南
- ▸Ollama 128K上下文模型 -- long context models
关于Ollama视觉模型的快速解答
如何通过API向Ollama发送图片?▾
向
/api/chat端点发送POST请求,将图片作为base64字符串放在images数组中。最简JSON请求体:{"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} 如需多模态能力加强大工具调用支持,参见在Ollama上运行Qwen 3。视觉模型可以做OCR(从图片中读取文字)吗?▾
可以,但质量因模型而异。Llama 3.2 Vision 11B在Ollama支持的模型中OCR能力最强。LLaVA 7B能读取清晰印刷的文字,但对手写或小字体有困难。
哪个Ollama视觉模型最适合图表和图形?▾
Qwen-VL 7B。它在结构化视觉数据(包括图表、表格和图形)上进行了微调,在文档理解基准测试中超越了LLaVA和Gemma 3。
视觉模型支持在单个提示中处理多张图片吗?▾
支持情况因模型而异。LLaVA和Qwen-VL目前在Ollama中每轮处理一张图片。Llama 3.2 Vision根据Ollama版本和客户端实现支持多图片输入。