Inicio/LLM locales avanzados/Despliegue Local de Qwen3: Guía Completa de Producción (2026)

Overview & Reference

Despliegue Local de Qwen3: Guía Completa de Producción (2026)

Última actualización: 1 de julio de 2026·16 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

**Los tamaños densos de Qwen3 son 0,6B, 1,7B, 4B, 8B, 14B y 32B — no existe un modelo 7B. El más cercano es Qwen3-8B (haz pull de qwen3:8b); si buscabas "Qwen3 7B", lo que quieres es el 8B. El mayor modelo denso de Qwen3 es el 32B; para un modelo de clase 72B usa Qwen2.5-72B. Qwen3 8B y 14B funcionan de forma fiable en GPUs de consumo mediante Ollama o vLLM con un servidor API Docker Compose. Qwen 32B necesita una RTX 4090 de 24 GB. Qwen2.5-72B requiere GPUs duales, inferencia CPU con 128+ GB de RAM o una alternativa en la nube — el self-hosting cuesta entre $0,05 y $0,12 por día según la amortización del hardware, frente a $0,50–1,20/hr en RunPod.**

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Conclusiones clave

Qwen3 8B y 14B son objetivos para GPUs de consumo — 8 GB y 16 GB de VRAM respectivamente, ejecutándose mediante Ollama en Docker
Qwen3 32B necesita una RTX 4090 de 24 GB; es el despliegue en producción con una sola tarjeta más grande para la mayoría de los equipos
Qwen2.5-72B requiere dos RTX 4090, un build CPU con mucha RAM (128+ GB DDR5) o alquiler en la nube — el self-hosting cuesta ~$0,05–0,12/día amortizado
Un stack Docker Compose con Ollama + Open WebUI + Nginx expone una API compatible con OpenAI en menos de 10 minutos
Servidores Qwen siempre activos: Minisforum UM890 Pro ($429, Qwen3 8B en CPU) o AOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti 16 GB (~$800 en total)
Alternativa en la nube: RunPod A40 48 GB a $0,44/hr gestiona Qwen2.5-72B — más barato que comprar dos RTX 4090 para uso ocasional
Esta guía cubre el despliegue en producción; para la configuración básica con Ollama consulta la guía para principiantes de Qwen

📍 En una frase

Despliega modelos Qwen en producción usando un stack Docker Compose que ejecuta Ollama como backend de inferencia y expone un endpoint de API compatible con OpenAI.

💬 En términos simples

En lugar de ejecutar Qwen manualmente cada vez, Docker te permite configurar un servidor permanente que permanece activo y acepta solicitudes — igual que usar la API de ChatGPT, pero en tu propio hardware sin coste por token.

Rendimiento de modelos Qwen por hardware — Mayo 2026

Elige el hardware según el tamaño del modelo, no por la marca de GPU. La VRAM es la restricción principal: si el modelo no cabe, no se ejecutará a velocidad de GPU. La tabla muestra velocidades de inferencia medidas con cuantización Q4_K_M (la mejor relación calidad-tamaño para despliegues con Ollama).

Modelo	VRAM (Q4_K_M)	GPU mínima	Velocidad (tok/s)	Fallback CPU	¿Listo para producción?
Qwen3 8B	5,2 GB	RTX 3060 12 GB	22–28 tok/s	Sí (32 GB RAM, ~4 tok/s)	Sí — GPU única
Qwen3 14B	9,4 GB	RTX 4060 Ti 16 GB	15–20 tok/s	Sí (64 GB RAM, ~2,5 tok/s)	Sí — GPU única
Qwen3 32B	20,1 GB	RTX 4090 24 GB	10–14 tok/s	Marginal (128 GB RAM, ~1,2 tok/s)	Sí — GPU única
Qwen3-Coder 32B	19,8 GB	RTX 4090 24 GB	10–13 tok/s	Marginal (128 GB RAM)	Sí — GPU única
Qwen2.5-72B	43,5 GB	Dos RTX 4090 (48 GB en total)	5–8 tok/s	Lento (128 GB RAM, ~0,6 tok/s)	Solo multi-GPU o nube

Velocidades medidas en sistemas PCIe Gen 4. NVLink mejora el rendimiento en configuraciones dual-GPU ~15% en tarjetas compatibles. Qwen2.5-72B con Q4_K_M en un A100 80 GB único en RunPod: 18–22 tok/s.

Configuración del servidor API con Docker — Ollama + Open WebUI + Nginx

El stack Qwen de producción más rápido consta de tres contenedores: Ollama (inferencia), Open WebUI (UI) y Nginx (reverse proxy + autenticación). Esta configuración tarda menos de 10 minutos y expone una API permanente compatible con OpenAI en http://tu-servidor:11434/v1.

1
Instala Docker y Docker Compose
Why it matters: Los contenedores mantienen Qwen aislado de tu sistema operativo — sin conflictos de entornos Python, actualizaciones sencillas.
2
Crea docker-compose.yml con los servicios Ollama + Open WebUI
Why it matters: El archivo compose gestiona el passthrough de GPU, el mapeo de puertos y las políticas de reinicio en un solo lugar.
3
Establece OLLAMA_HOST=0.0.0.0 en el entorno del contenedor Ollama
Why it matters: Sin esto, Ollama solo escucha en localhost y no aceptará solicitudes de API de otros contenedores o hosts.
4
Descarga tu modelo Qwen: docker exec ollama ollama pull qwen3:8b
Why it matters: Los modelos se almacenan en un volumen Docker para que persistan entre reinicios del contenedor.
5
Añade Nginx como API gateway con autenticación básica para despliegues públicos
Why it matters: Exponer Ollama directamente a internet sin autenticación permite que cualquiera ejecute inferencia en tu GPU.
6
Establece la política de reinicio del contenedor en unless-stopped
Why it matters: Esto garantiza que tu servidor Qwen sobreviva a los reinicios del sistema — fundamental para despliegues en mini PC siempre activos.

yaml

version: "3.8"
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    environment:
      - OLLAMA_HOST=0.0.0.0
      - OLLAMA_KEEP_ALIVE=-1
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - open_webui_data:/app/backend/data
    depends_on:
      - ollama

volumes:
  ollama_data:
  open_webui_data:

Configuración multi-GPU para Qwen2.5-72B

Qwen2.5-72B con Q4_K_M requiere 43,5 GB de VRAM — una RTX 4090 (24 GB) no es suficiente. Necesitas dos RTX 4090 (48 GB combinados) o una tarjeta profesional (A100 80 GB, H100 80 GB). Ollama gestiona la distribución multi-GPU de forma nativa; no se requieren cambios de código.

Ollama divide el modelo automáticamente entre todas las GPUs disponibles — establece CUDA_VISIBLE_DEVICES=0,1 en el entorno del compose para apuntar a tarjetas específicas
Para dos RTX 4090, ambas deben estar en el mismo nivel de ancho de banda PCIe — una placa B650 o Z790 con dos ranuras PCIe Gen 4 x8 es el mínimo
NVLink entre dos RTX 4090 no cuenta con soporte oficial de NVIDIA en tarjetas de consumo, pero funciona en pares de RTX 4090 Founders Edition mediante bridges NVLink de terceros — añade ~15% de rendimiento
vLLM es un motor de inferencia alternativo que usa paralelismo tensorial para una utilización multi-GPU más eficiente — usa vLLM en lugar de Ollama para cargas sostenidas de inferencia 70B por encima de 100 solicitudes concurrentes
Para uso ocasional de Qwen2.5-72B, RunPod A40 48 GB a $0,44/hr es más barato que un build con dos RTX 4090 ($3.800+)

bash

# vLLM multi-GPU alternative (better for high-traffic 72B)
docker run --gpus all \
  -p 8000:8000 \
  -e VLLM_WORKER_MULTIPROC_METHOD=spawn \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-72B-Instruct \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --quantization awq

Configuración de la API en producción

La API de Ollama es compatible con OpenAI en /v1 — cualquier aplicación que llame a la API de ChatGPT funciona con tu despliegue local de Qwen cambiando solo una URL base. Variables de entorno clave que afectan al comportamiento en producción:

OLLAMA_KEEP_ALIVE=-1 — evita que el modelo se descargue tras inactividad (el valor por defecto es 5 minutos, fatal para despliegues de servidor)
OLLAMA_NUM_PARALLEL=4 — permite hasta 4 solicitudes de inferencia concurrentes; auméntalo si tienes margen de VRAM disponible
OLLAMA_MAX_LOADED_MODELS=1 — mantén solo un modelo en VRAM a la vez en builds de GPU pequeñas para evitar thrashing
OLLAMA_FLASH_ATTENTION=1 — habilita flash attention para una mejora de velocidad del 20–30% en GPUs NVIDIA Ampere/Ada (RTX 3060 y más nuevas)
OLLAMA_GPU_OVERHEAD=512 — reserva 512 MB de VRAM para la sobrecarga del SO y los drivers; reduce los cuelgues por OOM en tarjetas con exactamente 8 o 16 GB

⚠️Warning: OLLAMA_KEEP_ALIVE=0 o no establecerlo hace que el modelo se descargue tras cada solicitud. Tu primera solicitud después de una pausa tarda 10–30 segundos en recargar el modelo. Establece siempre OLLAMA_KEEP_ALIVE=-1 para despliegues de servidor API.

Comparación de costes: self-hosted vs Alibaba Cloud vs RunPod

El self-hosting supera a la nube para cargas de inferencia sostenidas superiores a 4 horas al día. Por debajo de 4 horas diarias, el alquiler de GPU en la nube es más barato tras la amortización del hardware. La tabla usa una amortización del hardware a 3 años para los builds self-hosted.

Opción	Coste Qwen3 8B/día	Coste Qwen2.5-72B/día	Coste inicial	Mejor para
Self-hosted: mini PC RTX 3060 12 GB	$0,03 (solo electricidad)	N/A (no cabe)	$600–900 build completo	Inferencia 7B siempre activa, servidor doméstico/oficina
Self-hosted: workstation RTX 4090	$0,05	N/A (GPU única)	$2.500–4.000 build completo	Inferencia hasta 32B, uso completo de workstation
Self-hosted: dos RTX 4090	$0,08	$0,12	$5.000–7.000 build completo	72B siempre activo con otro uso de workstation
RunPod A40 48 GB ($0,44/hr)	$0,44 (1 hr)	$0,44 (1 hr)	$0 inicial, pago por hora	Uso puntual de 72B, pruebas, sin inversión en hardware
Alibaba Cloud PAI (GPU A10)	$0,50–0,80/hr	$1,20–2,00/hr (A100)	$0 inicial + $50 de crédito para nuevas cuentas	Inferencia optimizada para Qwen, ecosistema Alibaba Cloud
Vast.ai RTX 4090 spot ($0,20–0,35/hr)	$0,20–0,35/hr	N/A	$0 inicial	Uso puntual económico, riesgo de cortes aceptable

Empieza en RunPod (créditos gratuitos para nuevas cuentas) →enlace de producto · divulgadoVer precios de GPU spot en Vast.ai →enlace de producto · divulgado

Recomendaciones de hardware para servidor Qwen siempre activo

Un mini PC ejecutando Qwen3 8B como servidor API 24/7 cuesta $0,50–1,50/mes en electricidad — mucho más barato que cualquier alternativa en la nube. Dos builds de mini PC cubren la mayoría de los casos de uso de Qwen siempre activo:

Económico (inferencia CPU con Qwen3 8B): Minisforum UM890 Pro — AMD Ryzen 9 8945HS, 32 GB DDR5, 512 GB NVMe. ~$429 nuevo. Qwen3 8B se ejecuta mediante el backend CPU de Ollama a 3–5 tok/s. Adecuado para asistentes personales y resumen de documentos. 12W en reposo, 45W en carga. Muy silencioso. Se envía desde almacenes en EE.UU./UE.
Recomendado (GPU Qwen3 14B): AOOSTAR GEM12 Pro OCuLink — admite GPU externa mediante puerto OCuLink. Combina con una RTX 4060 Ti 16 GB en enclosure eGPU (~$340 GPU + $100 enclosure). Total ~$800. Ejecuta Qwen3 14B a 16–18 tok/s. Significativamente mejor que el fallback CPU para uso interactivo.
Usuario avanzado (Qwen3 32B): PC de sobremesa compacto ATX con RTX 4090 — ejemplos: caja Fractal Node 804 ($90), RTX 4090 (~$1.900 precio actual), Ryzen 9 7950X (~$600), 64 GB DDR5 (~$180). Total ~$2.800. Ejecuta Qwen3 32B a 10–14 tok/s de forma indefinida.

Comprar Minisforum UM890 Pro (servidor CPU Qwen3 8B) →enlace de producto · divulgadoComprar AOOSTAR GEM12 Pro OCuLink (compatible con eGPU) →enlace de producto · divulgado

Veredicto: qué despliegue usar según el tamaño del modelo

Elige tu ruta de despliegue de Qwen según el tamaño del modelo y las horas de uso diario — no por lo impresionante que parezca el hardware.

Decisión de despliegue de Qwen

Use a local LLM if:

•Qwen3 8B o 14B y lo usas 4+ horas al día → compra un mini PC o GPU; la nube es más cara
•Necesitas latencia < 80 ms para flujos de trabajo interactivos de código o documentos
•Procesas datos privados que no deben salir de tu red
•Ya tienes una GPU de escritorio con 12+ GB de VRAM sin usar

Use a cloud model if:

•Qwen2.5-72B para uso ocasional (< 4 horas/día) — RunPod A40 48 GB a $0,44/hr es mucho más barato que un build con dos GPUs
•Necesitas probar Qwen2.5-72B antes de comprometerte con una compra de hardware
•Tu uso es irregular e impredecible — la nube escala a cero cuando no está en uso
•Estás fuera de EE.UU./UE y los costes de envío o aranceles de importación encarecen el hardware

Quick decision:

→Qwen3 8B a diario: Minisforum UM890 Pro ($429)
→Qwen3 14B a diario: AOOSTAR + RTX 4060 Ti (~$800)
→Qwen3 32B a diario: ATX compacto + RTX 4090 (~$2.800)
→Qwen2.5-72B ocasional: RunPod A40 48 GB ($0,44/hr)

Guías relacionadas

Configuración básica de Qwen con Ollama (principiantes): /es/power-local-llm/run-qwen-locally-guide-2026
Guía de compra de GPU para LLMs locales: /es/power-local-llm/best-gpu-buying-guide-local-llm-2026
Almacenamiento NAS para archivos de modelos: /es/power-local-llm/best-nas-storage-local-ai-models-2026
Comparación de GPU en la nube (proveedores occidentales): /es/power-local-llm/cloud-gpu-rental-guide-2026

Preguntas frecuentes

¿Existe un modelo Qwen3 7B?

No. La gama densa de Qwen3 es 0,6B, 1,7B, 4B, 8B, 14B y 32B — no hay 7B. Si buscabas "Qwen3 7B", el modelo más cercano es Qwen3-8B (ollama pull qwen3:8b), que ocupa ~5–6 GB de VRAM en Q4_K_M y alcanza unos 25 tok/s en una RTX 3060 12 GB. Para un modelo de clase 72B, usa Qwen2.5-72B.

¿Puedo ejecutar Qwen2.5-72B en una sola RTX 4090?

No. Qwen2.5-72B con cuantización Q4_K_M requiere 43,5 GB de VRAM. Una RTX 4090 tiene 24 GB. Necesitas dos RTX 4090 (48 GB combinados), una A100 80 GB o alquiler de GPU en la nube. Una sola RTX 4090 puede ejecutar Qwen3 32B con Q4_K_M (20,1 GB) con margen.

¿Cuál es la diferencia entre Ollama y vLLM para el despliegue de Qwen en producción?

Ollama es más fácil de configurar y gestiona automáticamente la distribución multi-GPU — la mejor opción para servidores personales y equipos con menos de 20 usuarios concurrentes. vLLM usa paralelismo tensorial y batching continuo, siendo 2–4 veces más eficiente bajo carga concurrente — la mejor opción para más de 100 solicitudes por hora o APIs de producción con muchos usuarios.

¿Ollama admite inferencia multi-GPU para Qwen de forma nativa?

Sí, desde Ollama 0.3.0 (2025). Establece CUDA_VISIBLE_DEVICES=0,1 para especificar qué GPUs usar. Ollama divide el modelo automáticamente. Para Qwen2.5-72B en dos RTX 4090, espera 5–8 tok/s — menos que en un A100 80 GB único porque el modelo debe dividirse a través de PCIe en lugar de NVLink en configuraciones de consumo.

¿Es Alibaba Cloud más barato que RunPod para la inferencia de Qwen?

Alibaba Cloud PAI cuesta $0,50–2,00/hr según el nivel de GPU y la región. RunPod A40 48 GB cuesta $0,44/hr. Para Qwen específicamente, Alibaba Cloud ofrece entornos de inferencia Qwen preconfigurados con runtimes optimizados que pueden ser un 20–30% más rápidos que Ollama genérico — vale la pena probar si ya estás en el ecosistema de Alibaba Cloud. Para puro coste, las instancias spot de RunPod son más baratas.

¿Cuánta electricidad consume un servidor Qwen siempre activo?

Un Minisforum UM890 Pro ejecutando Qwen3 8B en CPU consume 12 W en reposo y 45 W bajo carga. A las tarifas eléctricas medias de EE.UU. ($0,16/kWh), funcionar 24/7 cuesta ~$0,70–1,80/mes. Una RTX 4060 Ti 16 GB bajo carga consume 165 W — más el reposo del mini PC (~25 W) da ~190 W en total, o ~$7–8/mes a plena carga 24/7.

¿Puedo usar la API de Qwen self-hosted con aplicaciones compatibles con ChatGPT?

Sí. Ollama expone una API compatible con OpenAI en http://tu-servidor:11434/v1. Establece OPENAI_API_BASE=http://tu-servidor:11434/v1 y OPENAI_API_KEY=cualquier-valor en tu aplicación. Cualquier herramienta que llame a la API de Chat Completions de OpenAI — Continue.dev, Cursor (modo local), LangChain, AutoGen — funciona sin modificaciones.

Registro de actualizaciones

2026-05-26: Publicación inicial. Datos de benchmark de hardware de mayo de 2026. Precios verificados en Newegg, Amazon y rastreadores del mercado de GPU.
Próxima revisión programada: 2026-11-26

← Volver a LLM locales avanzados