哪些Ollama模型支持视觉功能？

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

快速回答

Ollama支持多个视觉模型：LLaVA、Gemma 3多模态和Qwen-VL。最简单的入门方式是 ollama run llava。所有模型均通过Ollama API接受图片。

▸llava：原始视觉模型，兼容性最广
▸gemma3：Google多模态模型，质量优秀
▸qwen-vl：文档理解能力强

更新于: 2026-05

Ollama

关键要点

✓四个Ollama视觉模型已可用于生产：LLaVA、Llama 3.2 Vision、Qwen-VL和Gemma 3
✓视觉模型比纯文本模型需要多1–3 GB VRAM——图像编码器与LLM并行运行
✓LLaVA 7B是最安全的起点（~7 GB VRAM，广泛的客户端兼容性）
✓图表和图形分析使用Qwen-VL；OCR和多步推理使用Llama 3.2 Vision 11B

Ollama上的顶级视觉模型

截至2026年5月，Ollama支持四个可用于生产的视觉模型：LLaVA、Llama 3.2 Vision、Qwen-VL和Gemma 3。每个模型都有独特的优势和VRAM需求。

LLaVA是最安全的起点——它具有最广泛的客户端兼容性，支持Ollama接受的所有图片格式。Llama 3.2 Vision 11B是OCR和多步视觉推理的最佳选择。Qwen-VL在图表、图形和结构化文档方面领先。Gemma 3的视觉版本支持35种以上的语言——适用于图片包含非英文文本的场景，如标识、外语文档或带有本地化标签的图表。LLaVA和Qwen-VL在英文文本上最为强大。

所有视觉模型都会在LLM权重的基础上加载图像编码器。此编码器在纯文本模型所需VRAM之上额外增加1–3 GB——规划VRAM预算时请考虑这一开销。

视觉功能的VRAM需求

每个视觉模型所需的VRAM都多于其纯文本版本。7B视觉模型通常需要7–9 GB VRAM，而不是7B文本模型预算的~6 GB。

对于图表和文档分析，Qwen-VL 7B和Gemma 3提供了最具VRAM效率的选项，同时具有强大的图形理解能力。对于图片上的OCR和复杂推理，Llama 3.2 Vision 11B的额外VRAM是值得的。关于多模态本地模型及用例匹配的完整指南，请参阅多模态本地LLM指南。

模型	Q4量化的VRAM	图像能力
LLaVA 7B	~7 GB	通用图像问答，广泛兼容
Llama 3.2 Vision 11B	~10 GB	OCR，多步视觉推理
Qwen-VL 7B	~7 GB	图表、图形、文档分析
Gemma 3（视觉版）	~6 GB	多语言图像理解

关于Ollama视觉模型的快速解答

如何通过API向Ollama发送图片？▾

向/api/chat端点发送POST请求，将图片作为base64字符串放在images数组中。最简JSON请求体：{"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} 如需多模态能力加强大工具调用支持，参见在Ollama上运行Qwen 3。

视觉模型可以做OCR（从图片中读取文字）吗？▾

可以，但质量因模型而异。Llama 3.2 Vision 11B在Ollama支持的模型中OCR能力最强。LLaVA 7B能读取清晰印刷的文字，但对手写或小字体有困难。

哪个Ollama视觉模型最适合图表和图形？▾

Qwen-VL 7B。它在结构化视觉数据（包括图表、表格和图形）上进行了微调，在文档理解基准测试中超越了LLaVA和Gemma 3。

视觉模型支持在单个提示中处理多张图片吗？▾

支持情况因模型而异。LLaVA和Qwen-VL目前在Ollama中每轮处理一张图片。Llama 3.2 Vision根据Ollama版本和客户端实现支持多图片输入。

← 返回提示词速答

哪些Ollama模型支持视觉功能？

Ollama上的顶级视觉模型

视觉功能的VRAM需求

相关指南

关于Ollama视觉模型的快速解答