Home/Local LLMs/Guía de despliegue local de Qwen 2026: Qwen 3.6 27B, Coder y VL en cada nivel de hardware

Qwen Models

Guía de despliegue local de Qwen 2026: Qwen 3.6 27B, Coder y VL en cada nivel de hardware

Last updated: 2 de julio de 2026·14 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

La nueva recomendación insignia es Qwen 3.6 27B — un modelo denso con licencia Apache 2.0 y ventana de contexto de 256K que funciona con ~17 GB de VRAM en Q4_K_M mediante `ollama run qwen3.6:27b`. Para una opción más ligera, Qwen3 8B se instala con Ollama y `ollama pull qwen2.5:7b` — 5,5 GB de VRAM, 57 tokens/seg en una RTX 3060. Para tareas de código usa Qwen2.5-Coder; para OCR de documentos en chino/japonés usa Qwen2-VL.

Qwen 3.6 27B es la nueva recomendación insignia para despliegue local — un modelo denso con licencia Apache 2.0 y ventana de contexto de 256K que funciona con ~17 GB de VRAM en Q4_K_M mediante `ollama run qwen3.6:27b`. Qwen3 8B funciona con solo 5,5 GB de VRAM mediante Ollama — un único comando, sin configuración. Qwen3-Coder 32B alcanza el 92,7 % en HumanEval. Qwen2-VL 7B es el modelo de visión local líder para OCR de documentos en chino y japonés. Esta guía cubre la familia completa de modelos Qwen: qué modelo ejecutar en cada nivel de hardware, configuración con Ollama y LM Studio, recomendaciones de cuantización, datos de benchmarks y cómo se compara Qwen con DeepSeek y Llama en hardware de consumo en 2026.

Slide Deck: Guía de despliegue local de Qwen 2026: Qwen 3.6 27B, Coder y VL en cada nivel de hardware

La presentación a continuación cubre: la nueva recomendación insignia Qwen 3.6 27B (contexto 256K, ~17 GB en Q4_K_M), la familia completa de modelos Qwen (Qwen3 0.6B–32B, Qwen2.5 7B–72B), los requisitos de VRAM por nivel de hardware, los datos de benchmark de Qwen3-Coder 32B y un cuadro de decisión Qwen vs DeepSeek vs Llama. Descárgala como tarjeta de referencia de despliegue de Qwen.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Qwen 3.6 27B es la nueva recomendación insignia: denso, Apache 2.0, contexto 256K, ~17 GB de VRAM en Q4_K_M mediante `ollama run qwen3.6:27b` (lanzado en abril de 2026).
Qwen3 8B funciona con 5,5 GB de VRAM — un solo comando `ollama pull qwen2.5:7b` y ya está en marcha a 57 tokens/seg en una RTX 3060.
Cuatro subfamilias prácticas: Qwen3 (general, modo de razonamiento), Qwen2.5 (general, la más probada), Qwen2.5-Coder (programación, 92,7 % en HumanEval en 32B), Qwen2-VL (visión, mejor OCR CJK local).
Arquitectura densa = compatible con hardware de consumo: a diferencia del modelo MoE de 236B de DeepSeek (~130 GB de RAM), Qwen2.5-72B cabe en 46 GB de VRAM en dos RTX 3090.
Multilingüe nativo: preentrenado en chino, japonés, coreano, árabe, alemán, francés y 23 idiomas más — Qwen3 supera sistemáticamente a Llama 3.3 en tareas CJK.
Q4_K_M es la cuantización correcta para la mayoría de usuarios: ~55 % de reducción de VRAM, menos del 1 % de pérdida de calidad en los benchmarks.
Decisión de hardware: 12 GB de VRAM → modelo 14B; 24 GB → 32B; 48 GB+ (dos GPUs o Apple Silicon 64 GB) → 72B.

Qwen3 cubre tres subfamilias de despliegue local — uso general (7B–72B), programación (Coder 7B–32B) y visión (VL 7B–72B) — todas ejecutables mediante Ollama o LM Studio.

Ejecutar un modelo en local significa que la IA corre en tu propio ordenador en lugar de en un servidor en la nube. Ningún dato sale de tu máquina y no hay coste por token después de adquirir el hardware.

Descripción general de la familia de modelos Qwen

La gama Qwen abarca ahora cinco opciones prácticas: la insignia Qwen 3.6 27B, la familia Qwen3 más reciente, Qwen2.5 de razonamiento general, Qwen2.5-Coder y Qwen2-VL para visión — cada una con múltiples opciones de tamaño. Todos son modelos de pesos abiertos publicados por el equipo Qwen de Alibaba en Hugging Face bajo la licencia Apache 2.0.

Elige primero la subfamilia y luego el tamaño que se ajuste a tu VRAM. Es habitual combinar subfamilias: Qwen2.5-Coder 14B para autocompletar código y Qwen3 8B o Qwen 3.6 27B para resumir documentos.

Subfamilia	Tamaños disponibles	Uso principal	Prefijo de etiqueta Ollama
Qwen3	0.6B, 1.7B, 4B, 8B, 14B, 32B	Razonamiento general, modo de razonamiento, multilingüe, tareas agénticas	qwen3:
Qwen2.5	7B, 14B, 32B, 72B	Razonamiento general, tareas en chino/multilingüe, RAG	qwen2.5:
Qwen2.5-Coder	7B, 14B, 32B	Generación de código, depuración, HumanEval, SWE-bench	qwen2.5-coder:
Qwen2-VL	2B, 7B, 72B	OCR de documentos, preguntas sobre imágenes, extracción de texto CJK	qwen2-vl:

Qwen 3.6 27B (lanzado en abril de 2026) es la nueva recomendación insignia — un modelo denso con ventana de contexto de 256K que funciona con ~17 GB de VRAM en Q4_K_M mediante `ollama run qwen3.6:27b`. Qwen2.5 sigue siendo la familia más probada, con la cobertura más amplia en Ollama y GGUF a mediados de 2026. Consulta los mejores LLM locales 2026 para una comparación más amplia.

Requisitos de hardware por tamaño de modelo

Elige primero tu nivel de VRAM y luego el modelo Qwen3 más grande que quepa. Q4_K_M es la cuantización estándar usada en todas las cifras a continuación — ofrece la mejor relación tamaño/calidad para Ollama y LM Studio.

Modelo	VRAM	GPU mínima	Apple Silicon	Velocidad (RTX 3060)
Qwen3 8B Q4_K_M	5,5 GB	RTX 3060 6 GB, RTX 4060	M1/M2 8 GB	~57 tok/s
Qwen3-Coder 7B Q4_K_M	5,5 GB	RTX 3060 6 GB, RTX 4060	M1/M2 8 GB	~55 tok/s
Qwen2-VL 7B Q4_K_M	6,2 GB	RTX 3060 8 GB, RTX 4060	M1/M2 16 GB	—
Qwen3 14B Q4_K_M	9,5 GB	RTX 4070 12 GB	M2 Pro 16 GB	—
Qwen3-Coder 14B Q4_K_M	9,5 GB	RTX 4070 12 GB	M2 Pro 16 GB	—
Qwen3 32B Q4_K_M	20,5 GB	RTX 3090 24 GB	M3 Max 48 GB	—
Qwen3-Coder 32B Q4_K_M	20,5 GB	RTX 3090 24 GB	M3 Max 48 GB	—
Qwen 3.6 27B Q4_K_M	~17 GB	RTX 4090 24 GB	M3 Max 36 GB	—
Qwen2.5-72B Q4_K_M	46 GB	2× RTX 3090 (48 GB)	M2 Ultra 64 GB	—

Las cifras de VRAM corresponden a archivos GGUF Q4_K_M de la biblioteca de Ollama. Añade 1–2 GB para la caché KV con un contexto de 4K. Si la GPU tiene menos VRAM de la que necesita el modelo, Ollama descarga capas automáticamente a la RAM del sistema — funciona, pero reduce la velocidad significativamente.

Requisitos de VRAM de Qwen3 por tamaño de modelo (Q4_K_M) — PromptQuorum 2026

Configuración con Ollama

Ollama es la forma más rápida de ejecutar cualquier modelo Qwen3 en local — gestiona la descarga del modelo, la cuantización GGUF y la API local en `localhost:11434` sin ninguna configuración. Instálalo desde ollama.com. Si no has usado Ollama antes, lee primero cómo instalar Ollama.

1
Instalar Ollama
Why it matters: Disponible para macOS, Linux (instalación en una línea) y Windows. No hay que configurar drivers de GPU — Ollama detecta CUDA, ROCm y Metal automáticamente.
2
Descargar el modelo con una etiqueta de tamaño explícita
Why it matters: Especifica siempre el tamaño: `qwen2.5:7b`, `qwen2.5:14b`, `qwen2.5:32b`. El `qwen2.5` sin etiquetar se resuelve al modelo 7B, pero puede cambiar entre versiones de Ollama.
3
Ejecutar el modelo
Why it matters: `ollama run qwen2.5:7b` abre un chat interactivo. Escribe tu prompt y pulsa Enter. Cierra con `/bye`.
4
Ajustar la ventana de contexto si es necesario
Why it matters: Qwen3 soporta por defecto un contexto de 32K en Ollama. Para usar un contexto de 128K en un modelo 7B, ejecuta `ollama run qwen2.5:7b --num-ctx 131072`. Esto requiere más VRAM.
5
Probar el endpoint de la API
Why it matters: Ollama expone una API compatible con OpenAI. Aplicaciones como PromptQuorum, Continue.dev y Open WebUI se conectan directamente a `http://localhost:11434/v1`.

bash

# Instalar Ollama (Linux)
curl -fsSL https://ollama.com/install.sh | sh

# macOS: descarga el .dmg desde ollama.com o:
brew install ollama

# Descargar modelos — usa etiquetas explícitas
ollama pull qwen3.6:27b          # insignia, contexto 256K (~17 GB)
ollama pull qwen3:8b             # Qwen3 uso general 8B (~5,5 GB)
ollama pull qwen2.5:7b           # Qwen2.5 uso general 7B (~5,5 GB)
ollama pull qwen2.5:14b          # Qwen2.5 uso general 14B (~9,5 GB)
ollama pull qwen2.5:32b          # Qwen2.5 uso general 32B (~20,5 GB)
ollama pull qwen2.5-coder:32b    # Qwen2.5-Coder 32B (~20,5 GB)
ollama pull qwen2-vl:7b          # visión 7B (~6,2 GB)

# Ejecutar en modo interactivo
ollama run qwen2.5:7b

# Probar la API compatible con OpenAI
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"Hola"}]}'

Configuración con LM Studio

LM Studio ofrece una interfaz gráfica para Qwen3 sin necesidad de comandos en terminal. Descárgalo desde lmstudio.ai o consulta cómo instalar LM Studio. Funciona en macOS, Windows y Linux.

1
Abrir el navegador de modelos
Why it matters: Busca "Qwen3" o "Qwen Coder" para explorar todos los builds GGUF disponibles. Filtra por Q4_K_M para la relación calidad/tamaño recomendada.
2
Descargar un build GGUF
Why it matters: Selecciona la variante Q4_K_M. LM Studio muestra el tamaño del archivo antes de la descarga — confirma que se ajusta a la VRAM disponible.
3
Cargar el modelo y empezar a chatear
Why it matters: Haz clic en el modelo en la barra lateral izquierda para cargarlo en memoria. La asignación de capas a la GPU es automática en función de la VRAM detectada.
4
Iniciar el servidor local
Why it matters: "Iniciar servidor" expone un endpoint compatible con OpenAI en `localhost:1234`. Tus aplicaciones y scripts se conectan a él como si fuera la API de OpenAI.

Cuantización: qué formato elegir

Q4_K_M es el valor por defecto correcto para Qwen3 en hardware de consumo. Reduce la VRAM entre un 55–60 % respecto a FP16 con menos del 1 % de degradación en MMLU y HumanEval. Otros formatos tienen casos de uso específicos:

Q4_K_M es la mejor cuantización de Qwen3 para la mayoría de usuarios: reduce la VRAM un 55 % con menos del 1 % de pérdida de calidad respecto a FP16.

La cuantización comprime los números del modelo de 16 bits a 4 bits, reduciendo aproximadamente a la mitad el tamaño del archivo y la VRAM necesaria. Es como pasar de TIFF a JPEG de alta calidad — archivo más pequeño, resultado casi idéntico para la mayoría de usos.

Q4_K_M (recomendado): ~5,5 GB para 7B. La mejor relación calidad por GB. Empieza por este.
Q8_0: ~8,5 GB para 7B. Calidad cercana a FP16; úsalo si tienes VRAM de sobra y quieres la máxima precisión.
Q5_K_M: ~6,5 GB para 7B. Mejora marginal sobre Q4_K_M — elígelo solo si la calidad de salida de Q4_K_M es visiblemente deficiente para tu tarea.
Q2_K: ~3 GB para 7B. El archivo más pequeño, pero la calidad de salida en chino se degrada notablemente — evítalo con Qwen3 si el chino es parte de tu caso de uso.
IQ4_XS: ~4,8 GB para 7B. Una cuantización imatrix más reciente que supera la calidad de Q4_K_M con un tamaño ligeramente menor — disponible en versiones recientes de llama.cpp y LM Studio 0.3+.

Rendimiento en benchmarks en hardware de consumo

Qwen3 32B Q4_K_M en una RTX 4090 entrega 28 tokens/seg — velocidad suficiente para asistencia de código en tiempo real. Las puntuaciones a continuación corresponden a builds GGUF Q4_K_M probados en Ollama. Las puntuaciones FP16 son un 1–2 % mayores.

Modelo (Q4_K_M)	MMLU	Math	HumanEval	Velocidad (RTX 3060 12 GB)
Qwen3 8B	74,2 %	58,8 %	57,3 %	57 tok/s
Qwen3 14B	79,9 %	69,8 %	64,6 %	—
Qwen3 32B	83,3 %	79,5 %	71,3 %	—
Qwen2.5-72B	86,1 %	83,1 %	73,2 %	—
Qwen3-Coder 7B	—	—	75,6 %	55 tok/s
Qwen3-Coder 14B	—	—	85,2 %	—
Qwen3-Coder 32B	—	—	92,7 %	—

Puntuaciones de benchmark de Qwen3 (Q4_K_M) — PromptQuorum 2026

Qwen vs DeepSeek vs Llama: qué ejecutar en local

Qwen3 gana en tareas en chino y eficiencia de VRAM; DeepSeek-V2.5 gana en razonamiento a gran escala pero es impráctico en hardware de consumo; Llama 3.3 70B es la mejor opción en una sola GPU si prefieres el modelo abierto de Meta. La tabla a continuación compara las opciones prácticas en cada nivel de VRAM.

Nivel de VRAM	Mejor Qwen	Mejor competidor	Veredicto
6 GB	Qwen3 8B	Llama 3.2 3B (cabe, pero solo 3B)	Qwen3 8B gana — misma VRAM, modelo mucho mayor
12 GB	Qwen3-Coder 14B	Llama 3.3 8B Instruct	Qwen3-Coder 14B para código; Llama 3.3 8B para chat general
24 GB	Qwen3-Coder 32B	Llama 3.3 70B (con descarga)	Qwen3-Coder 32B para código; Llama 3.3 70B si calidad > velocidad
48 GB+	Qwen2.5-72B	DeepSeek-V2.5 236B MoE	DeepSeek necesita ~130 GB de RAM; Qwen2.5-72B es la opción práctica para 48 GB

Usuarios hispanohablantes: soberanía de datos y despliegue local

Ejecutar Qwen3 en local significa que ningún dato sale de tu máquina — sin transferencia a servidores en la nube, sin exposición bajo el RGPD o leyes de protección de datos latinoamericanas. Las API de LLM en la nube exigen enviar prompts a servidores externos, lo que activa los requisitos de tratamiento de datos y posibles transferencias internacionales.

Qwen3 fue entrenado por el equipo Qwen de Alibaba sobre un corpus predominantemente chino y multilingüe. Es el modelo con despliegue local más potente para documentos en chino simplificado, chino tradicional y textos mixtos (chino/español/inglés).

Para despliegues en empresas hispanohablantes: una configuración de Qwen3 sin conexión a internet durante la inferencia es plenamente compatible con los marcos regulatorios de España (RGPD/AEPD), México (LFPDPPP), Argentina (Ley 25.326) y otros países hispanohablantes. El modelo corre íntegramente en hardware local — ningún tercero accede a los datos de entrada o salida. Consulta ejecutar IA completamente sin conexión para una guía completa de configuración aislada.

Qwen3 funciona completamente sin conexión después de la descarga — ningún dato sale de tu máquina, eliminando el riesgo de transferencia transfronteriza de datos bajo el RGPD y las leyes latinoamericanas.

Cuando ejecutas Qwen3 en local, tus prompts y documentos nunca abandonan tu ordenador. No hay llamadas a una API en la nube, no hay servidor externo y no hay datos a los que reguladores o terceros puedan acceder.

Recomendaciones de hardware por presupuesto

La RTX 3060 12 GB es el mejor punto de entrada para Qwen3 8B y Qwen3-Coder 7B por menos de 300 €. Para modelos 14B, la RTX 4070 12 GB añade un 35 % de velocidad a unos 450–500 € nueva.

Económico (Qwen3 8B): NVIDIA RTX 4060 8 GB o RTX 3060 12 GB. Ambas manejan modelos 7B a 50–57 tokens/seg. La RTX 3060 12 GB suele ser más barata de segunda mano y tiene más margen de VRAM.
Gama media (Qwen3 14B): RTX 4070 12 GB o RTX 4070 Super 12 GB. La 4070 Super ejecuta Qwen3-Coder 14B a 38–42 tokens/seg y deja 2–3 GB de VRAM libre para el contexto.
Gama alta (Qwen3 32B): RTX 4090 24 GB o RTX 3090 24 GB. La 4090 entrega 27–28 tok/s en Qwen3-Coder 32B — velocidad de asistencia de código en tiempo real. La 3090 es significativamente más barata de segunda mano y rinde dentro del 15 % de la 4090 en inferencia.
Apple Silicon (todos los tamaños): Mac mini M4 Pro 48 GB ofrece la mejor relación calidad/precio para ejecutar Qwen3 32B (~22 tok/s) con bajo ruido y consumo.
Mini PC para uso continuo: MINISFORUM UM890 Pro o PC AMD Ryzen AI similar. Ejecuta Qwen3 8B en CPU+iGPU a ~8–12 tok/s — lento pero capaz de funcionar 24/7 con menos de 35 W de consumo.

Errores frecuentes al ejecutar Qwen3 en local

Usar el comando `ollama pull qwen2.5` sin etiqueta de tamaño. Sin una etiqueta de tamaño explícita (`:7b`, `:14b`, etc.), Ollama puede resolver al tamaño predeterminado, que puede cambiar entre actualizaciones de la biblioteca. Usa siempre etiquetas explícitas: `ollama pull qwen2.5:14b`.
Ignorar el tamaño de la ventana de contexto. Qwen3 soporta un contexto de 128K, pero Ollama usa 2K por defecto para `num_ctx`. Si procesas documentos largos, añade `--num-ctx 8192` (o más) al comando de ejecución — de lo contrario el modelo trunca la entrada en silencio.
Elegir cuantización Q2_K para uso en chino. A 2 bits de precisión, la salida en chino de Qwen3 se degrada notablemente. Usa Q4_K_M como mínimo para cualquier trabajo en chino.
Ejecutar el modelo 32B con poca VRAM. Si la GPU tiene 16 GB y el modelo necesita 20,5 GB, Ollama descarga capas a la RAM del sistema. El modelo funciona pero a 3–5 tok/s — inutilizable para uso interactivo. Consulta la tabla de hardware y elige un modelo que quepa en tu VRAM.
Usar la subfamilia incorrecta para programación. Qwen3 8B (uso general) puntúa 57,3 % en HumanEval. Qwen3-Coder 7B puntúa 75,6 % en el mismo benchmark — una mejora relativa del 32 %. Si tu caso de uso es código, usa siempre la variante Coder del mismo tamaño.

Próximos pasos

Mejores LLM solo CPU — ¿Sin GPU? Descubre qué tamaños de Qwen3 funcionan en CPU →
Cuantización de LLM explicada — ¿Confundido con Q4_K_M vs Q8? Cuantización explicada →

Preguntas frecuentes

¿Cuánta VRAM necesito para ejecutar Qwen3 8B en local?

Qwen3 8B Q4_K_M requiere 5,5 GB de VRAM. Una RTX 3060 6 GB, RTX 4060 o chip Apple M con 8 GB de memoria unificada son suficientes.

¿Cuál es el mejor modelo Qwen para programación en local?

Qwen3-Coder 32B — 92,7 % en HumanEval, necesita GPU de 24 GB. Con 12 GB de VRAM o menos: Qwen3-Coder 14B (85,2 %, 9,5 GB de VRAM).

¿Cómo se compara Qwen con DeepSeek para el despliegue local?

Qwen3 usa arquitectura densa compatible con hardware de consumo. DeepSeek-V2.5 es un modelo MoE de 236B que necesita ~130 GB de RAM — inviable sin GPU de servidor.

¿Puedo ejecutar Qwen en un Mac?

Sí. M2 Pro 32 GB ejecuta Qwen3 14B a ~32 tok/s. M3 Max 64 GB maneja Qwen3 32B a ~22 tok/s.

¿Qué comando de Ollama uso para Qwen?

Para la insignia, `ollama run qwen3.6:27b` (~17 GB de VRAM). Para Qwen3, `ollama pull qwen3:8b`. Para Qwen2.5, `ollama pull qwen2.5:7b` para 7B, `:14b` para 14B, `:32b` para 32B, o `qwen2.5-coder:32b` para la variante de programación. Usa siempre etiquetas de tamaño explícitas.

¿Qwen es adecuado para tareas en chino?

Sí. Qwen3 fue preentrenado sobre un gran corpus chino y soporta de forma nativa chino simplificado, chino tradicional, japonés, coreano y 24 idiomas más.

¿Qué cuantización debo usar para Qwen3?

Q4_K_M por defecto — reduce la VRAM ~55 % respecto a FP16 con menos del 1 % de pérdida de calidad. Evita Q2_K para uso en chino.

¿Funciona Qwen2-VL para OCR de documentos en chino?

Sí — `ollama pull qwen2-vl:7b`, ~6 GB de VRAM, lee texto CJK a resoluciones de hasta 4096×4096 píxeles.

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Despacha entre Qwen3, DeepSeek y Llama desde una sola interfaz →

Prueba PromptQuorum gratis

← Back to Local LLMs