Key Takeaways
- Qwen2-VL 7B se ejecuta en local con ~6 GB de VRAM (Q4) mediante Ollama — un único comando `ollama pull qwen2-vl:7b`, sin conversión de modelo.
- Mejor modelo local para OCR multilingüe: Qwen2-VL iguala a MiniCPM-V 2.6 y supera a LLaVA 1.6 y Llama 3.2 Vision 11B en texto chino, japonés y coreano.
- Resolución nativa de hasta 4096×4096 — lee escaneos de alta resolución sin reducción, a diferencia de LLaVA 1.6 (672×672) o Llama 3.2 Vision (1120×1120).
- Tres tamaños: 2B (~3 GB VRAM, rápido y básico), 7B (~6 GB, recomendado para la mayoría), 72B (~48 GB, lidera los benchmarks de código abierto).
- Acepta hasta 8 imágenes por solicitud — la mayor capacidad de múltiples imágenes entre los modelos de visión locales.
- Sin entrada directa de PDF: convierte las páginas PDF a PNG o JPEG primero y luego envía cada página como una imagen separada.
- 100% sin conexión una vez descargado: sin clave API, sin subida a la nube — cada documento permanece en tu máquina.
Por qué Qwen2-VL lidera los modelos de visión locales en OCR multilingüe
Qwen2-VL es el modelo de visión local más potente para OCR de documentos multilingüe — iguala o supera a cualquier otro modelo que se ejecuta en hardware de consumo al leer texto en chino, japonés, coreano e inglés. Alibaba lo entrenó con corpus de documentos multilingüe a gran escala, lo que explica que supere a LLaVA 1.6 y Llama 3.2 Vision 11B en extracción de texto no inglés.
Qwen2-VL admite una resolución de entrada dinámica de hasta 4096×4096 píxeles. LLaVA 1.6 tiene un límite de 672×672 y Llama 3.2 Vision de 1120×1120, por lo que ambos reducen los escaneos de alta resolución antes de leerlos. Qwen2-VL lee un escaneo A4 a 300 DPI en resolución nativa — la principal razón por la que su precisión de OCR es mayor en documentos densos y caracteres CJK pequeños.
Ejecutar Qwen2-VL en local cuesta 0 € por imagen después del hardware. Una API de visión en la nube cobra aproximadamente $0,01–0,03 por imagen; a 10 000 imágenes al mes eso son $100–300 ahorrados — y ningún documento sale jamás de tu máquina.
Usa Qwen2-VL si tus documentos contienen texto CJK, fuentes pequeñas o escaneos de alta resolución. Si tu trabajo es solo preguntas sobre fotos en inglés, Llama 3.2 Vision 11B es una opción igualmente buena.
Qwen2-VL es el modelo de visión local más preciso para OCR de documentos en chino, japonés y coreano, y se ejecuta con ~6 GB de VRAM mediante Ollama.
Un modelo de visión-lenguaje lee imágenes en lugar de generarlas. Le das a Qwen2-VL una foto o una página escaneada, y devuelve texto — una descripción, una respuesta o el contenido extraído.
Elegir el tamaño del modelo Qwen2-VL
Qwen2-VL viene en tres tamaños. Elige según tu VRAM y la precisión que necesitas. Todos los tamaños están en Hugging Face (Qwen) y en la biblioteca de modelos de Ollama con etiquetas explícitas.
| Modelo | VRAM (Q4) | Etiqueta Ollama | Ideal para |
|---|---|---|---|
| Qwen2-VL 2B Q4 | ~3 GB | qwen2-vl:2b | Descripciones rápidas, OCR simple, portátiles con poca VRAM |
| Qwen2-VL 7B Q4 | ~6 GB | qwen2-vl:7b | Recomendado — OCR de documentos, preguntas sobre imágenes, gráficos |
| Qwen2-VL 72B Q4 | ~48 GB | qwen2-vl:72b | Máxima calidad, Apple Silicon 64 GB+ o multi-GPU |
Q4_K_M es la cuantización recomendada — la mejor relación calidad-tamaño. La mayoría de los usuarios debería empezar con Qwen2-VL 7B: cabe en una GPU de 8 GB y cubre todos los casos de uso de esta guía. Cambia al modelo 2B solo cuando la VRAM sea inferior a 6 GB. Consulta cuantización de LLM explicada para saber cómo Q4 afecta la calidad.
Requisitos de hardware para Qwen2-VL
- Mínimo (Qwen2-VL 7B Q4): GPU con 8 GB de VRAM — NVIDIA RTX 4060, RTX 3060 12 GB o RTX 2080.
- Opción de poca VRAM (Qwen2-VL 2B Q4): 4 GB de VRAM — funciona en la mayoría de las GPU de portátiles y en Apple Silicon integrado.
- Máxima calidad (Qwen2-VL 72B Q4): ~48 GB — Apple Silicon con 64 GB+ de memoria unificada, o dos GPU de 24 GB.
- Apple Silicon: un chip M-series con 16 GB+ de memoria unificada ejecuta el modelo de 7B sin problemas; el de 72B necesita 64 GB+.
- RAM del sistema: 16 GB mínimo junto con la inferencia GPU; 32 GB recomendados con un entorno de desarrollo completo abierto.
- Almacenamiento: ~6 GB de espacio libre en disco para Qwen2-VL 7B Q4 (GGUF), ~30 GB para el 72B.
📌Note: Los modelos de visión se ejecutan aproximadamente un 30–60% más lentos que un modelo de solo texto con el mismo número de parámetros. El encoder de visión procesa la imagen completa en el primer token; luego el texto se genera a velocidad casi normal. Reserva VRAM tanto para el encoder como para el modelo de lenguaje.
Configurar Qwen2-VL con Ollama
Ollama es la forma más rápida de ejecutar Qwen2-VL en local. Descarga el modelo, gestiona la cuantización y expone una API en localhost:11434. Instálalo desde ollama.com — o, si eres nuevo en esto, empieza con cómo instalar Ollama.
- 1Instalar Ollama
Why it matters: Ollama gestiona la descarga del modelo, el formato GGUF y la API local. Está disponible para macOS, Linux y Windows. - 2Descargar Qwen2-VL con una etiqueta de tamaño explícita
Why it matters: Usa qwen2-vl:7b. La etiqueta qwen2-vl sin más puede resolver a un tamaño diferente — especifica siempre 2b, 7b o 72b para obtener el modelo al que se dirige esta guía. - 3Ejecutar el modelo y adjuntar una imagen
Why it matters: En modo interactivo, escribe la ruta del archivo de imagen dentro del prompt. Ollama detecta la ruta y carga la imagen en el encoder de visión. - 4Enviar imágenes mediante la API
Why it matters: El endpoint /api/generate acepta un array de images codificado en base64. Así es como las aplicaciones — y PromptQuorum — envían imágenes de forma programática. - 5Verificar el OCR multilingüe
Why it matters: Envía un escaneo de documento chino o japonés y confirma que el texto extraído coincide. Esto demuestra que el encoder de visión y el tokenizador manejan correctamente el texto CJK antes de construir sobre ello.
# Step 1 — Install Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — download from https://ollama.com/download
# Step 2 — Pull Qwen2-VL 7B (explicit size tag)
ollama pull qwen2-vl:7b
# Downloads Qwen2-VL 7B Q4_K_M (~6 GB)
# Step 3 — Run and attach an image (interactive)
ollama run qwen2-vl:7b
>>> Extract every line of text from ./invoice-jp.png
# Step 4 — Send an image through the API
# Encode the image first: base64 -i scan.png (macOS)
curl http://localhost:11434/api/generate -d '{
"model": "qwen2-vl:7b",
"prompt": "Extract every line of text from this document. Preserve line breaks.",
"images": ["<base64-encoded-image>"],
"stream": false
}'
# Step 5 — Verify multilingual OCR
ollama run qwen2-vl:7b
>>> Extract all text from this image: ./contract-zh.png⚠️Warning: Envía las imágenes de documentos a 150 DPI o más. Qwen2-VL lee nativamente hasta 4096×4096, por lo que los escaneos de alta resolución mejoran directamente la precisión. A diferencia de un prompt de texto, la calidad de la imagen es el factor más importante en los resultados de OCR — un escaneo borroso produce caracteres incorrectos sin importar lo bueno que sea el modelo.
Configurar Qwen2-VL con LM Studio
LM Studio ejecuta Qwen2-VL mediante una interfaz gráfica sin comandos de CLI. Es el método recomendado para usuarios de Windows y cualquiera que prefiera una GUI. Descárgalo desde lmstudio.ai, o consulta cómo instalar LM Studio.
- 1Descargar e instalar LM Studio
Why it matters: Una GUI gratuita y multiplataforma para inferencia de modelos locales. No requiere terminal. - 2Buscar Qwen2-VL en el navegador de modelos
Why it matters: Busca "Qwen2-VL 7B" y selecciona una variante GGUF Q4_K_M. LM Studio marca los modelos compatibles con visión con un icono de imagen. - 3Cargar el modelo y adjuntar una imagen
Why it matters: Haz clic en el icono de imagen en el campo de entrada para subir una foto o escaneo. LM Studio lo pasa al encoder de visión. - 4Iniciar el servidor local
Why it matters: El botón "Start Server" expone una API compatible con OpenAI en localhost:1234. Las solicitudes de visión usan el formato de contenido image_url estándar.
// LM Studio — OpenAI-compatible vision request (localhost:1234)
{
"model": "qwen2-vl-7b",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Extract all text from this document." },
{
"type": "image_url",
"image_url": { "url": "data:image/png;base64,<base64-encoded-image>" }
}
]
}
]
}OCR de documentos para archivos en chino, japonés y de idiomas mixtos
Qwen2-VL extrae texto de documentos en chino, japonés, coreano y de idiomas mixtos con más precisión que cualquier otro modelo de visión local. Sus datos de entrenamiento incluyeron grandes corpus de documentos multilingüe, y su resolución nativa de 4096×4096 lee caracteres CJK pequeños que LLaVA 1.6 y Llama 3.2 Vision reducen y pierden.
El patrón más fiable es un prompt de extracción específico. Pide estructura — "preserva el diseño de la tabla", "devuelve cada campo como key: value" — en lugar de un vago "lee esto". Qwen2-VL sigue las instrucciones de formato con precisión, lo que hace que la salida sea utilizable sin postprocesamiento.
Para extraer texto de un documento CJK con Qwen2-VL, envía la imagen a 150+ DPI con un prompt específico que solicite estructura, como "devuelve cada campo como key: value".
OCR significa convertir una imagen de texto en texto editable. Qwen2-VL mira una página escaneada y escribe lo que ve — y maneja los caracteres chinos y japoneses igual de bien que el inglés.
- Extracción de texto simple: "Extrae cada línea de texto de esta imagen. Preserva los saltos de línea y el orden de lectura."
- Campos estructurados: "Esta es una factura japonesa. Devuelve proveedor, fecha, subtotal, impuesto y total como pares key: value."
- Extracción de tablas: "Extrae esta tabla como CSV. Trata la primera fila como encabezado."
- Extraer y traducir en un solo paso: "Extrae el texto chino de esta imagen y luego tradúcelo al español. Muestra ambos."
# Japanese invoice -> structured fields
ollama run qwen2-vl:7b
>>> This is a Japanese invoice. Extract vendor name, invoice date,
subtotal, consumption tax, and total. Return as key: value pairs.
./invoice-jp.png
# Example output:
# vendor: Sample Trading Co., Ltd.
# date: 2026-04-30
# subtotal: 84,000 JPY
# tax: 8,400 JPY
# total: 92,400 JPY•Important: Verifica siempre los números extraídos contra el documento fuente. Los modelos de visión locales — incluido Qwen2-VL — pueden malinterpretar un dígito en un escaneo de baja calidad. Trata la salida de OCR como un borrador a confirmar, no como un valor definitivo, especialmente en facturas y documentos financieros.
Preguntas sobre imágenes, análisis de capturas de pantalla y lectura de gráficos
Más allá del OCR, Qwen2-VL maneja la comprensión general de imágenes — describir fotos, responder preguntas sobre capturas de pantalla y leer gráficos. Es preciso con entradas claras y más débil con escenas desordenadas o ambiguas.
- Preguntas sobre imágenes: haz preguntas abiertas sobre una foto — "¿Qué hay en esta imagen?", "¿Cuántas personas llevan ropa roja?". Qwen2-VL 7B es preciso con fotos claras y más débil con escenas desordenadas o ambiguas.
- Análisis de capturas de pantalla e interfaces: Qwen2-VL lee capturas de pantalla de interfaces, diálogos de error y estados de aplicaciones. Para capturas de código densas concretamente, InternVL 2.5 está entrenado con más énfasis en esos datos — úsalo si la interfaz y el código son tu carga de trabajo principal.
- Lectura de gráficos y diagramas: Qwen2-VL describe bien la estructura y las tendencias de los gráficos, pero los valores numéricos precisos extraídos de gráficos no son fiables en ningún modelo de visión local. Confirma las cifras exactas con los datos subyacentes.
- Fotogramas de vídeo: Qwen2-VL acepta múltiples fotogramas como secuencia — toma aproximadamente un fotograma por segundo y envía hasta 8 para resumir un clip corto.
- Comparación de múltiples imágenes: envía hasta 8 imágenes en una solicitud para comparar versiones, detectar diferencias o describir un conjunto en lote.
💡Tip: Usa Qwen2-VL para OCR, documentos multilingüe y preguntas generales sobre imágenes. Cambia a InternVL 2.5 cuando tu carga de trabajo principal sean capturas de código o de interfaz, o a Moondream 2 cuando tengas menos de 4 GB de VRAM.
Qwen2-VL vs LLaVA vs Llama 3.2 Vision
En OCR multilingüe, Qwen2-VL supera a LLaVA 1.6 e iguala o supera a Llama 3.2 Vision 11B con menos VRAM. Para preguntas sobre fotos solo en inglés, Llama 3.2 Vision 11B es una opción igualmente sólida. LLaVA 1.6 sigue siendo el modelo mejor documentado si necesitas recursos de resolución de problemas de la comunidad.
| Modelo | VRAM (Q4) | OCR / CJK | Resolución máx. | Ideal para |
|---|---|---|---|---|
| Qwen2-VL 7B | ~6 GB | Excelente | 4096×4096 | OCR multilingüe, escaneos de alta resolución |
| Llama 3.2 Vision 11B | ~8 GB | Bueno | 1120×1120 | Preguntas sobre fotos en inglés, documentos generales |
| LLaVA 1.6 7B | ~6 GB | Regular | 672×672 | Preguntas generales, soporte comunitario |
| MiniCPM-V 2.6 8B | ~6 GB | Excelente | 1792×1792 | OCR de documentos (orientado al inglés) |
| InternVL 2.5 8B | ~8 GB | Bueno | Alta | Capturas de código e interfaz |
Los cinco se ejecutan mediante Ollama (InternVL 2.5 a través de builds comunitarios). Para el análisis completo de modelos de visión locales — incluyendo Moondream 2 y un benchmark de extracción de facturas — consulta la comparación de modelos de visión locales. Si no estás seguro, empieza con Qwen2-VL 7B: cubre OCR, documentos y preguntas generales con 6 GB de VRAM.
Conectar Qwen2-VL local a PromptQuorum
PromptQuorum enruta los prompts entre múltiples modelos. Para usar Qwen2-VL local como destino de despacho de visión, apunta el endpoint LLM local de PromptQuorum a tu servidor Ollama. El procesamiento de imágenes se queda entonces en tu hardware, mientras que los modelos en la nube siguen disponibles para tareas de texto.
Este es el endpoint de Ollama (compatible con OpenAI), separado de la configuración de la API de Anthropic usada para Claude. Ambos pueden estar activos a la vez, con PromptQuorum enrutando por tipo de tarea y sensibilidad de datos.
Conecta PromptQuorum a Qwen2-VL local estableciendo OLLAMA_BASE_URL en http://localhost:11434/v1 y apuntando el modelo de visión local a qwen2-vl:7b.
# PromptQuorum dispatch config — local Qwen2-VL via Ollama
# Set in your .env or the PromptQuorum settings panel
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_VISION_MODEL=qwen2-vl:7b
# Example routing rules:
# - task_type: ocr / image -> qwen2-vl:7b (local Ollama, no cloud upload)
# - task_type: text -> claude-sonnet-4-6 (Anthropic API, separate config)Resolución de problemas de Qwen2-VL
- "unknown model" o la descarga falla: usa una etiqueta de tamaño explícita — `ollama pull qwen2-vl:7b`, no `qwen2-vl`. Ejecuta `ollama list` para confirmar el nombre instalado.
- La imagen se ignora y el modelo responde como si no se hubiera enviado ninguna imagen: confirma que la ruta del archivo es correcta y legible. En la API de Ollama, el array `images` debe contener base64 puro *sin* el prefijo `data:` — el prefijo `data:` es solo para el formato de LM Studio y OpenAI.
- Caracteres CJK ilegibles o ausentes: el escaneo tiene demasiada baja resolución. Vuelve a escanear a 150–300 DPI. Qwen2-VL lee hasta 4096×4096, por lo que una resolución de entrada más alta mejora directamente la precisión del chino y el japonés.
- CUDA sin memoria (out of memory): el modelo no cabe en tu VRAM. Cambia a Qwen2-VL 2B (~3 GB) o ejecútalo en Apple Silicon, que comparte memoria unificada entre CPU y GPU.
- Primera respuesta lenta, luego rápida: esto es normal. El encoder de visión procesa la imagen completa en el primer token; el texto se genera luego a velocidad casi normal.
- Números incorrectos extraídos de una factura o gráfico: los modelos de visión locales leen mal los dígitos en entradas ruidosas. Aumenta la calidad del escaneo y verifica siempre la salida numérica contra la fuente.
- Un PDF no carga: ningún modelo de visión local acepta PDF directamente. Convierte las páginas a PNG o JPEG primero (con pdf2image o pypdfium2), luego envía cada página como imagen separada.
- LM Studio muestra "failed to load model": o bien VRAM insuficiente, o descargaste un GGUF sin soporte de visión. Confirma que la ficha del modelo indica soporte de visión y elige la variante Q4_K_M.
💡Tip: Ejecuta `ollama ps` para ver qué modelos están cargados en la VRAM y cuánta memoria usa cada uno. Usa `ollama stop qwen2-vl:7b` para descargar el modelo antes de cambiar al de 72B.
FAQ
¿Cuál es el hardware mínimo para ejecutar Qwen2-VL en local?
Qwen2-VL 7B con cuantización Q4_K_M necesita 8 GB de VRAM (RTX 4060, RTX 3060 12 GB o RTX 2080). El Qwen2-VL 2B más pequeño funciona con 4 GB. El modelo de 72B necesita ~48 GB — Apple Silicon con 64 GB+ de memoria unificada o dos GPU de 24 GB. Apple Silicon con 16 GB+ de memoria unificada ejecuta el modelo de 7B sin problemas.
¿Qwen2-VL es mejor que LLaVA para OCR?
Sí, especialmente para texto que no sea inglés. Qwen2-VL iguala a MiniCPM-V 2.6 y supera a LLaVA 1.6 y Llama 3.2 Vision 11B en OCR de chino, japonés y coreano. Su resolución nativa de 4096×4096 lee escaneos de alta resolución sin reducción, mientras que LLaVA 1.6 tiene un límite de 672×672. LLaVA sigue teniendo la mayor comunidad y más tutoriales.
¿Puede Qwen2-VL leer PDFs directamente?
No. Ningún modelo de visión local acepta entrada de PDF directamente. Convierte cada página del PDF a una imagen PNG o JPEG primero (usando pdf2image o pypdfium2), luego envía cada página como una solicitud de imagen separada. Para un PDF de 10 páginas envías 10 consultas de imagen y combinas los resultados.
¿Cómo envío una imagen a Qwen2-VL mediante Ollama?
De dos formas. En modo interactivo (`ollama run qwen2-vl:7b`), escribe la ruta del archivo de imagen dentro del prompt — Ollama lo detecta y carga la imagen. A través de la API, haz un POST a /api/generate con un array `images` codificado en base64. La cadena base64 no debe incluir el prefijo `data:`.
¿Qwen2-VL funciona completamente sin conexión?
Sí. Tras la descarga única del modelo, Qwen2-VL se ejecuta completamente en tu máquina — sin clave API ni cuenta en la nube. Ninguna imagen se sube a ningún lugar, lo que mantiene el procesamiento de documentos dentro de tu infraestructura. Consulta la guía de configuración local de Qwen para el RGPD para las implicaciones de cumplimiento.
¿Cuántas imágenes puede procesar Qwen2-VL a la vez?
Hasta 8 imágenes por solicitud — la mayor capacidad de múltiples imágenes entre los modelos de visión locales. Esto lo hace ideal para comparar versiones de documentos, detectar diferencias o resumir un vídeo corto muestreado a un fotograma por segundo.
Qwen2-VL o Llama 3.2 Vision — ¿cuál debería elegir?
Elige Qwen2-VL para documentos en chino, japonés o coreano, escaneos de alta resolución o fuentes pequeñas — y porque el modelo de 7B cabe en 6 GB de VRAM frente a los 8 GB de Llama 3.2 Vision 11B. Elige Llama 3.2 Vision 11B para preguntas generales sobre fotos solo en inglés, donde los dos son comparables.
¿Por qué los caracteres en mi salida de OCR son ilegibles?
Casi siempre es un escaneo de baja resolución. Qwen2-VL lee nativamente hasta 4096×4096, por lo que volver a escanear el documento a 150–300 DPI generalmente soluciona los caracteres ilegibles o ausentes. La entrada de baja calidad es la mayor causa de errores de OCR en cualquier modelo de visión local.