Skip to main content
PromptQuorumPromptQuorum

¿Qué modelos de Ollama son compatibles con visión?

Respuesta rápida

Ollama admite varios modelos de visión: LLaVA, Gemma 3 multimodal y Qwen-VL. Ejecuta ollama run llava para empezar fácilmente. Todos aceptan imágenes a través de la API de Ollama.

  • llava: modelo de visión original, mejor compatibilidad
  • gemma3: modelo multimodal de Google, buena calidad
  • qwen-vl: potente para la comprensión de documentos

Actualizado: 2026-05

Ollama

Puntos clave

  • Cuatro modelos de visión de Ollama están listos para producción: LLaVA, Llama 3.2 Vision, Qwen-VL y Gemma 3
  • Los modelos de visión necesitan entre 1 y 3 GB más de VRAM que sus equivalentes solo de texto — el codificador de imagen se ejecuta junto al LLM
  • LLaVA 7B es el punto de partida más seguro (~7 GB de VRAM, amplia compatibilidad con clientes)
  • Usa Qwen-VL para análisis de gráficos y diagramas; usa Llama 3.2 Vision 11B para OCR y razonamiento visual de múltiples pasos

Los principales modelos de visión en Ollama

A mayo de 2026, Ollama admite cuatro modelos de visión listos para producción: LLaVA, Llama 3.2 Vision, Qwen-VL y Gemma 3. Cada uno tiene una fortaleza distinta y un perfil de VRAM propio.

LLaVA es el punto de partida más seguro — tiene la mayor compatibilidad con clientes y funciona con cualquier formato de imagen que acepte Ollama. Llama 3.2 Vision 11B es la mejor opción para OCR y razonamiento visual de múltiples pasos. Qwen-VL lidera en gráficos, diagramas y documentos estructurados. La variante de visión de Gemma 3 maneja más de 35 idiomas — útil cuando las imágenes contienen texto que no está en inglés, como señales, documentos en idiomas extranjeros o gráficos con etiquetas localizadas. LLaVA y Qwen-VL son más potentes con texto en inglés.

Todos los modelos de visión cargan un codificador de imagen junto a los pesos del LLM. Este codificador añade entre 1 y 3 GB de VRAM sobre lo que necesita el modelo base solo de texto — ten en cuenta este overhead al revisar tu presupuesto de VRAM.

Requisitos de VRAM para visión

Cada modelo de visión necesita más VRAM que su equivalente solo de texto. Un modelo de visión 7B normalmente requiere entre 7 y 9 GB de VRAM, no los ~6 GB que presupuestarías para un modelo de texto 7B.

Para análisis de gráficos y documentos, Qwen-VL 7B y Gemma 3 ofrecen las opciones más eficientes en VRAM con gran capacidad de comprensión de diagramas. Para OCR y razonamiento complejo sobre imágenes, Llama 3.2 Vision 11B justifica el VRAM adicional. Para la guía completa sobre modelos locales multimodales y la elección según el caso de uso, consulta la guía de LLM locales multimodales.

ModeloVRAM en Q4Capacidad de imagen
LLaVA 7B~7 GBPreguntas y respuestas generales sobre imágenes, amplia compatibilidad
Llama 3.2 Vision 11B~10 GBOCR, razonamiento visual de múltiples pasos
Qwen-VL 7B~7 GBGráficos, diagramas, análisis de documentos
Gemma 3 (visión)~6 GBComprensión multilingüe de imágenes

Respuestas rápidas sobre los modelos de visión de Ollama

¿Cómo envío una imagen a Ollama a través de la API?
Haz un POST al endpoint /api/chat con la imagen como cadena base64 en el array images. Cuerpo JSON mínimo funcional: {"model":"llava","messages":[{"role":"user","content":"What is in this image?","images":["<base64>"]}]} Consulta Qwen 3 en Ollama para una opción multimodal con soporte potente de llamadas a herramientas.
¿Pueden los modelos de visión hacer OCR (leer texto de imágenes)?
Sí, pero la calidad varía. Llama 3.2 Vision 11B es el más potente para OCR entre los modelos admitidos por Ollama. LLaVA 7B puede leer texto impreso con claridad, pero tiene dificultades con la escritura a mano o las fuentes pequeñas.
¿Qué modelo de visión de Ollama es el mejor para gráficos y diagramas?
Qwen-VL 7B. Fue ajustado con datos visuales estructurados, incluyendo gráficos, tablas y diagramas, y supera a LLaVA y Gemma 3 en los benchmarks de comprensión de documentos.
¿Los modelos de visión admiten múltiples imágenes en un solo prompt?
El soporte varía según el modelo. LLaVA y Qwen-VL procesan actualmente una imagen por turno en Ollama. Llama 3.2 Vision admite entradas de múltiples imágenes según la versión de Ollama y la implementación del cliente.