Skip to main content
PromptQuorumPromptQuorum

¿Se puede ejecutar Qwen 3 en Ollama?

Respuesta rápida

Sí — Ollama admite todos los tamaños de modelos Qwen 3 desde 0.6B hasta 72B. Ejecuta cualquier tamaño con ollama run qwen3:8b. El modelo 8B necesita ~6 GB de VRAM en Q4.

  • ollama run qwen3:0.6b — cabe en 1 GB de VRAM
  • ollama run qwen3:8b — necesita ~6 GB de VRAM
  • ollama run qwen3:72b — necesita ~40 GB de VRAM

Actualizado: 2026-05

Ollama

Puntos clave

  • Ollama admite todos los tamaños de Qwen 3: 0.6B, 1.5B, 3B, 7B, 14B, 32B y 72B
  • Descarga cualquier tamaño con <code>ollama run qwen3:8b</code> — sustituye la etiqueta por tu tamaño objetivo
  • El modelo 7B necesita ~6 GB de VRAM en Q4 y funciona a ~20 tok/s en una GPU de gama media
  • Qwen 3 admite llamadas a herramientas de forma nativa a través de la API estándar de Ollama — no se requiere ningún Modelfile personalizado

Sí — esto es lo que está disponible

A mayo de 2026, Ollama admite todos los tamaños principales del modelo Qwen 3, desde 0.6B hasta 72B. Descarga cualquier tamaño con un solo comando: ollama run qwen3:8b. Sustituye 8b por 0.6b, 1.5b, 3b, 14b, 32b o 72b para otros tamaños.

Cada tamaño está disponible en múltiples cuantizaciones. Q4_K_M es el punto de partida predeterminado y recomendado — ofrece la mejor relación calidad-tamaño de archivo. Q8_0 está disponible para los modelos 7B y 14B si tienes margen de VRAM.

Las llamadas a herramientas están admitidas de forma nativa en todos los tamaños de Qwen 3 a través de la API estándar de Ollama. No se requiere ningún Modelfile personalizado ni plantilla de prompt especial.

ollama run qwen3:8b

Qué tamaño de Qwen 3 elegir

El tamaño correcto de Qwen 3 depende completamente de la VRAM disponible. Para la mayoría de los usuarios con una GPU de gama media (6–8 GB de VRAM), el modelo 7B en Q4_K_M es la opción práctica — necesita ~6 GB y funciona a ~20 tok/s.

El modelo 14B en Q4 es el nivel recomendado para código: supera al 7B en generación de código y cabe cómodamente en 10–12 GB de VRAM. Para una comparación completa del rendimiento de codificación de Qwen 3 frente a otros modelos locales, consulta la guía para ejecutar Qwen localmente en 2026.

VRAMTamaño de Qwen 3Ideal para
< 4 GB0.6B / 1.5BDispositivos edge, pruebas, solo CPU
4–6 GB3BGPU de bajo costo o CPU con poca RAM
6–12 GB7B / 14BUso general y codificación
12–24 GB14B / 32BCodificación y razonamiento de alta calidad
40+ GB72BCalidad local cercana a la frontera

Respuestas rápidas sobre Qwen 3 en Ollama

¿Cómo instalo Qwen 3 en Ollama?
Ejecuta ollama run qwen3:8b en una terminal. Ollama descarga el modelo automáticamente en la primera ejecución. Sustituye 8b por tu tamaño objetivo: 0.6b, 1.5b, 3b, 14b, 32b o 72b.
¿Es Qwen 3 mejor que Llama 3 para código?
Para código: sí, Qwen 3 14B supera a Llama 3 8B en los benchmarks HumanEval. Para conversación general en el nivel 8B: Llama 3 8B sigue siendo competitivo. Para las mejores opciones actuales de Ollama en todas las tareas, consulta los mejores modelos de Ollama ahora mismo.
¿Qwen 3 admite llamadas a herramientas en Ollama?
Sí. Qwen 3 admite llamadas a funciones y herramientas de forma nativa a través de la API estándar de Ollama. No se requiere ningún Modelfile personalizado ni configuración especial — funciona con cualquier cliente que admita el formato de uso de herramientas de Ollama.
¿Puedo ejecutar Qwen 3 72B en hardware de consumo?
Técnicamente sí, pero requiere ~40 GB de VRAM en Q4 — lo que significa una configuración de doble GPU (dos RTX 3090) o un Mac Apple M-series con 64 GB o más de memoria unificada. La mayoría de las configuraciones de consumo tienen como límite práctico el nivel 32B.