PromptQuorumPromptQuorum

哪些Ollama模型支持视觉功能?

快速回答

Ollama支持多个视觉模型:LLaVA、Gemma 3多模态和Qwen-VL。最简单的入门方式是 ollama run llava。所有模型均通过Ollama API接受图片。

  • llava:原始视觉模型,兼容性最广
  • gemma3:Google多模态模型,质量优秀
  • qwen-vl:文档理解能力强

更新于: 2026-05

Ollama

关键要点

  • 四个Ollama视觉模型已可用于生产:LLaVA、Llama 3.2 Vision、Qwen-VL和Gemma 3
  • 视觉模型比纯文本模型需要多1–3 GB VRAM——图像编码器与LLM并行运行
  • LLaVA 7B是最安全的起点(~7 GB VRAM,广泛的客户端兼容性)
  • 图表和图形分析使用Qwen-VL;OCR和多步推理使用Llama 3.2 Vision 11B

Ollama上的顶级视觉模型

截至2026年5月,Ollama支持四个可用于生产的视觉模型:LLaVA、Llama 3.2 Vision、Qwen-VL和Gemma 3。每个模型都有独特的优势和VRAM需求。

LLaVA是最安全的起点——它具有最广泛的客户端兼容性,支持Ollama接受的所有图片格式。Llama 3.2 Vision 11B是OCR和多步视觉推理的最佳选择。Qwen-VL在图表、图形和结构化文档方面领先。Gemma 3的视觉版本支持35种以上的语言——适用于图片包含非英文文本的场景,如标识、外语文档或带有本地化标签的图表。LLaVA和Qwen-VL在英文文本上最为强大。

所有视觉模型都会在LLM权重的基础上加载图像编码器。此编码器在纯文本模型所需VRAM之上额外增加1–3 GB——规划VRAM预算时请考虑这一开销。

视觉功能的VRAM需求

每个视觉模型所需的VRAM都多于其纯文本版本。7B视觉模型通常需要7–9 GB VRAM,而不是7B文本模型预算的~6 GB。

对于图表和文档分析,Qwen-VL 7B和Gemma 3提供了最具VRAM效率的选项,同时具有强大的图形理解能力。对于图片上的OCR和复杂推理,Llama 3.2 Vision 11B的额外VRAM是值得的。关于多模态本地模型及用例匹配的完整指南,请参阅多模态本地LLM指南

模型Q4量化的VRAM图像能力
LLaVA 7B~7 GB通用图像问答,广泛兼容
Llama 3.2 Vision 11B~10 GBOCR,多步视觉推理
Qwen-VL 7B~7 GB图表、图形、文档分析
Gemma 3(视觉版)~6 GB多语言图像理解

关于Ollama视觉模型的快速解答

如何通过API向Ollama发送图片?
/api/chat端点发送POST请求,将图片作为base64字符串放在images数组中。最简JSON请求体:{"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} 如需多模态能力加强大工具调用支持,参见在Ollama上运行Qwen 3
视觉模型可以做OCR(从图片中读取文字)吗?
可以,但质量因模型而异。Llama 3.2 Vision 11B在Ollama支持的模型中OCR能力最强。LLaVA 7B能读取清晰印刷的文字,但对手写或小字体有困难。
哪个Ollama视觉模型最适合图表和图形?
Qwen-VL 7B。它在结构化视觉数据(包括图表、表格和图形)上进行了微调,在文档理解基准测试中超越了LLaVA和Gemma 3。
视觉模型支持在单个提示中处理多张图片吗?
支持情况因模型而异。LLaVA和Qwen-VL目前在Ollama中每轮处理一张图片。Llama 3.2 Vision根据Ollama版本和客户端实现支持多图片输入。