¿Se puede ejecutar Qwen 3 en Ollama?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

Sí — Ollama admite todos los tamaños de modelos Qwen 3 desde 0.6B hasta 72B. Ejecuta cualquier tamaño con ollama run qwen3:8b. El modelo 8B necesita ~6 GB de VRAM en Q4.

▸ollama run qwen3:0.6b — cabe en 1 GB de VRAM
▸ollama run qwen3:8b — necesita ~6 GB de VRAM
▸ollama run qwen3:72b — necesita ~40 GB de VRAM

Actualizado: 31 de mayo de 2026

Ollama

Puntos clave

✓Ollama admite todos los tamaños de Qwen 3: 0.6B, 1.5B, 3B, 7B, 14B, 32B y 72B
✓Descarga cualquier tamaño con <code>ollama run qwen3:8b</code> — sustituye la etiqueta por tu tamaño objetivo
✓El modelo 7B necesita ~6 GB de VRAM en Q4 y funciona a ~20 tok/s en una GPU de gama media
✓Qwen 3 admite llamadas a herramientas de forma nativa a través de la API estándar de Ollama — no se requiere ningún Modelfile personalizado

Sí — esto es lo que está disponible

A mayo de 2026, Ollama admite todos los tamaños principales del modelo Qwen 3, desde 0.6B hasta 72B. Descarga cualquier tamaño con un solo comando: ollama run qwen3:8b. Sustituye 8b por 0.6b, 1.5b, 3b, 14b, 32b o 72b para otros tamaños.

Cada tamaño está disponible en múltiples cuantizaciones. Q4_K_M es el punto de partida predeterminado y recomendado — ofrece la mejor relación calidad-tamaño de archivo. Q8_0 está disponible para los modelos 7B y 14B si tienes margen de VRAM.

Las llamadas a herramientas están admitidas de forma nativa en todos los tamaños de Qwen 3 a través de la API estándar de Ollama. No se requiere ningún Modelfile personalizado ni plantilla de prompt especial.

ollama run qwen3:8b

Qué tamaño de Qwen 3 elegir

El tamaño correcto de Qwen 3 depende completamente de la VRAM disponible. Para la mayoría de los usuarios con una GPU de gama media (6–8 GB de VRAM), el modelo 7B en Q4_K_M es la opción práctica — necesita ~6 GB y funciona a ~20 tok/s.

El modelo 14B en Q4 es el nivel recomendado para código: supera al 7B en generación de código y cabe cómodamente en 10–12 GB de VRAM. Para una comparación completa del rendimiento de codificación de Qwen 3 frente a otros modelos locales, consulta la guía para ejecutar Qwen localmente en 2026.

VRAM	Tamaño de Qwen 3	Ideal para
< 4 GB	0.6B / 1.5B	Dispositivos edge, pruebas, solo CPU
4–6 GB	3B	GPU de bajo costo o CPU con poca RAM
6–12 GB	7B / 14B	Uso general y codificación
12–24 GB	14B / 32B	Codificación y razonamiento de alta calidad
40+ GB	72B	Calidad local cercana a la frontera

Respuestas rápidas sobre Qwen 3 en Ollama

¿Cómo instalo Qwen 3 en Ollama?▾

Ejecuta ollama run qwen3:8b en una terminal. Ollama descarga el modelo automáticamente en la primera ejecución. Sustituye 8b por tu tamaño objetivo: 0.6b, 1.5b, 3b, 14b, 32b o 72b.

¿Es Qwen 3 mejor que Llama 3 para código?▾

Para código: sí, Qwen 3 14B supera a Llama 3 8B en los benchmarks HumanEval. Para conversación general en el nivel 8B: Llama 3 8B sigue siendo competitivo. Para las mejores opciones actuales de Ollama en todas las tareas, consulta los mejores modelos de Ollama ahora mismo.

¿Qwen 3 admite llamadas a herramientas en Ollama?▾

Sí. Qwen 3 admite llamadas a funciones y herramientas de forma nativa a través de la API estándar de Ollama. No se requiere ningún Modelfile personalizado ni configuración especial — funciona con cualquier cliente que admita el formato de uso de herramientas de Ollama.

¿Puedo ejecutar Qwen 3 72B en hardware de consumo?▾

Técnicamente sí, pero requiere ~40 GB de VRAM en Q4 — lo que significa una configuración de doble GPU (dos RTX 3090) o un Mac Apple M-series con 64 GB o más de memoria unificada. La mayoría de las configuraciones de consumo tienen como límite práctico el nivel 32B.

← Volver a Prompts en breve