Key Takeaways
- Multimodal = texto + imágenes (+ audio). Procesa imágenes de forma nativa sin preprocesamiento OCR.
- Mejores modelos (2026): Llama 3.2 Vision 11B, Qwen2-VL 7B, Gemma 3 Vision 9B.
- Casos de uso: OCR de documentos, análisis de imágenes, preguntas y respuestas visuales, extracción de tablas.
- Velocidad: 2-5 segundos por imagen (modelo 11B). Más lento que solo texto, pero práctico.
- A partir de abril de 2026, lo multimodal es maduro para casos de uso específicos, pero no de propósito general todavía.
Modelos multimodales disponibles (abril de 2026)
| Modelo | Soporte de imagen | VRAM | Velocidad por imagen | Mejor para |
|---|---|---|---|---|
| Llama 3.2 Vision 11B | Sí | 8 GB | — | Visión general |
| Qwen2-VL 7B | Sí | 5 GB | — | Visión rápida |
| Gemma 3 Vision 9B | Sí | 6 GB | — | Equilibrado |
| Llama 3.2 Vision 90B | Sí | 55 GB | — | Alta calidad |
Capacidades de visión
Los modelos multimodales pueden:
- Descripción de imágenes: Explica qué hay en una imagen.
- OCR (Reconocimiento óptico de caracteres): Extrae texto de imágenes (tarjeta de visita, escaneo de documento).
- Preguntas y respuestas visuales: Responde preguntas sobre imágenes ("¿Cuál es la marca del auto?").
- Extracción de tablas: Analiza tablas de imágenes en datos estructurados.
- Análisis de gráficos: Interpreta visualizaciones de datos.
- Detección de objetos: Identifica y localiza objetos en imágenes.
Configuración y uso
Usando Llama 3.2 Vision con Ollama:
# Pull the model
ollama pull llama3.2-vision:11b
# Use it
from ollama import Client
client = Client()
with open("image.jpg", "rb") as f:
image_data = f.read()
response = client.generate(
model="llama3.2-vision:11b",
prompt="Describe this image",
images=[image_data] # Pass image data
)
print(response["response"])Casos de uso reales
- Procesamiento de documentos: Extrae texto de PDFs escaneados sin servicio OCR externo.
- Moderación de contenido: Marca imágenes inapropiadas sin enviarlas a la nube.
- Accesibilidad: Describe imágenes para usuarios con discapacidad visual.
- Análisis de productos: Analiza imágenes de productos en e-commerce (categoría, estado, defectos).
- Investigación: Analiza gráficos y diagramas científicos.
Rendimiento y limitaciones
Precisión: Buena para OCR de documentos y descripción, pero no perfecta para análisis detallado u objetos pequeños.
Velocidad: 2-5 segundos por imagen. Los modelos de nube (GPT-4 Vision) son 10-50× más rápidos.
Tamaño de imagen: Soporta hasta ~1000×1000 píxeles. Las imágenes más grandes se reducen por muestreo.
Limitaciones: No puede igualar la precisión de GPT-4 Vision en escenas complejas. Compromiso: privacidad frente a calidad.
Errores comunes
- Esperar la precisión de GPT-4 Vision. Los modelos locales son 20-30% menos precisos. Úsalos para dominios específicos, no para visión general.
- No preparar las imágenes. Recorta las imágenes al área de enfoque. Elimina el ruido. Mejor entrada = mejor salida.
- Usar modelos 7B para visión compleja. Los modelos pequeños tienen dificultades con detalles sutiles. Usa 11B+ para visión confiable.
Fuentes
- Llama 3.2 Vision Model Card -- huggingface.co/meta-llama/Llama-3.2-11B-Vision
- Qwen2-VL -- github.com/QwenLM/Qwen2-VL