¿Qué modelos de Ollama son compatibles con visión?
Respuesta rápida
Ollama admite varios modelos de visión: LLaVA, Gemma 3 multimodal y Qwen-VL. Ejecuta ollama run llava para empezar fácilmente. Todos aceptan imágenes a través de la API de Ollama.
- ▸llava: modelo de visión original, mejor compatibilidad
- ▸gemma3: modelo multimodal de Google, buena calidad
- ▸qwen-vl: potente para la comprensión de documentos
Actualizado: 2026-05
Puntos clave
- ✓Cuatro modelos de visión de Ollama están listos para producción: LLaVA, Llama 3.2 Vision, Qwen-VL y Gemma 3
- ✓Los modelos de visión necesitan entre 1 y 3 GB más de VRAM que sus equivalentes solo de texto — el codificador de imagen se ejecuta junto al LLM
- ✓LLaVA 7B es el punto de partida más seguro (~7 GB de VRAM, amplia compatibilidad con clientes)
- ✓Usa Qwen-VL para análisis de gráficos y diagramas; usa Llama 3.2 Vision 11B para OCR y razonamiento visual de múltiples pasos
Los principales modelos de visión en Ollama
A mayo de 2026, Ollama admite cuatro modelos de visión listos para producción: LLaVA, Llama 3.2 Vision, Qwen-VL y Gemma 3. Cada uno tiene una fortaleza distinta y un perfil de VRAM propio.
LLaVA es el punto de partida más seguro — tiene la mayor compatibilidad con clientes y funciona con cualquier formato de imagen que acepte Ollama. Llama 3.2 Vision 11B es la mejor opción para OCR y razonamiento visual de múltiples pasos. Qwen-VL lidera en gráficos, diagramas y documentos estructurados. La variante de visión de Gemma 3 maneja más de 35 idiomas — útil cuando las imágenes contienen texto que no está en inglés, como señales, documentos en idiomas extranjeros o gráficos con etiquetas localizadas. LLaVA y Qwen-VL son más potentes con texto en inglés.
Todos los modelos de visión cargan un codificador de imagen junto a los pesos del LLM. Este codificador añade entre 1 y 3 GB de VRAM sobre lo que necesita el modelo base solo de texto — ten en cuenta este overhead al revisar tu presupuesto de VRAM.
Requisitos de VRAM para visión
Cada modelo de visión necesita más VRAM que su equivalente solo de texto. Un modelo de visión 7B normalmente requiere entre 7 y 9 GB de VRAM, no los ~6 GB que presupuestarías para un modelo de texto 7B.
Para análisis de gráficos y documentos, Qwen-VL 7B y Gemma 3 ofrecen las opciones más eficientes en VRAM con gran capacidad de comprensión de diagramas. Para OCR y razonamiento complejo sobre imágenes, Llama 3.2 Vision 11B justifica el VRAM adicional. Para la guía completa sobre modelos locales multimodales y la elección según el caso de uso, consulta la guía de LLM locales multimodales.
| Modelo | VRAM en Q4 | Capacidad de imagen |
|---|---|---|
| LLaVA 7B | ~7 GB | Preguntas y respuestas generales sobre imágenes, amplia compatibilidad |
| Llama 3.2 Vision 11B | ~10 GB | OCR, razonamiento visual de múltiples pasos |
| Qwen-VL 7B | ~7 GB | Gráficos, diagramas, análisis de documentos |
| Gemma 3 (visión) | ~6 GB | Comprensión multilingüe de imágenes |
Respuestas rápidas sobre los modelos de visión de Ollama
¿Cómo envío una imagen a Ollama a través de la API?▾
/api/chat con la imagen como cadena base64 en el array images. Cuerpo JSON mínimo funcional: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} Consulta Qwen 3 en Ollama para una opción multimodal con soporte potente de llamadas a herramientas.