Key Takeaways
- Dos caminos: Ollama (CLI, headless, listo para API) o LM Studio (GUI, sin CLI). Ambos ejecutan Qwen 3.6 27B localmente.
- Corrección crítica: Ollama usa `num_ctx 2048` por defecto. Esto trunca la mayoría de los prompts reales. Establece `num_ctx 32768` en tu Modelfile o mediante el parámetro `num_ctx` de la API.
- Hardware: mínimo 16 GB VRAM (RTX 4080). Apple Silicon M4 Pro (48 GB) o M5 Max (128 GB) son las opciones de inferencia recomendadas para equipos en la UE.
- RGPD: una vez en ejecución local, ningún dato sale de tu máquina. No se necesitan SCCs ni acuerdos de procesamiento de datos más allá de tu propia política de infraestructura.
- Integración con PromptQuorum: establece `OLLAMA_BASE_URL=http://localhost:11434/v1` y `LOCAL_LLM_MODEL=qwen3:27b` en la configuración de despacho local de PromptQuorum — separado de la configuración de la API de Anthropic.
Por qué ejecutar Qwen localmente en 2026
Ejecutar Qwen 3 localmente en 2026 significa pagar €0 por token para un modelo que alcanza el 92,1% en HumanEval — comparable o superior a Claude Sonnet 4.6 en tareas de programación. Una vez amortizado el hardware, cada prompt es gratuito. Para un equipo de desarrollo de cinco personas que genera 10 millones de tokens al día, la inferencia local ahorra ~$900/mes frente a los precios de la API de Claude Sonnet 4.6.
El cumplimiento del RGPD de la UE es el segundo factor. El artículo 44 del RGPD restringe las transferencias de datos a terceros países. Cuando ejecutas Qwen localmente en hardware de la UE, tus prompts, código y datos de clientes nunca salen de tu infraestructura. No se requieren acuerdos de procesamiento de datos con proveedores estadounidenses o chinos, ni evaluaciones de riesgo Schrems II, ni evaluaciones de impacto sobre la privacidad para la capa de IA.
La tercera razón es la latencia. La inferencia local en una RTX 4090 genera más de 35 tokens/segundo — comparable a los tiempos de respuesta de la API para prompts cortos, sin el tiempo de ida y vuelta de red para completaciones más largas.
Ejecutar Qwen 3.6 27B localmente cuesta €0 por token después del hardware, mantiene todos los datos en infraestructura de la UE y entrega más de 35 tokens/segundo en una RTX 4090.
LLM local significa que el modelo de IA corre en tu propio computador. Descargas el archivo del modelo (unos 17 GB para Qwen 3.6 27B) y cada prompt que escribes se procesa completamente en tu máquina — nada se envía a ningún servidor.
💡Tip: La línea de modelos de DeepSeek evoluciona con frecuencia. Verifica el nombre del modelo actual y los precios en platform.deepseek.com antes del despliegue. Las cifras reflejan datos disponibles públicamente a mayo de 2026.
Elige tu modelo Qwen
Qwen 3 está disponible en múltiples tamaños. Elige según tu VRAM y la calidad requerida. Todos los tamaños están disponibles en Hugging Face (Qwen) y a través de Ollama con etiquetas explícitas.
| Modelo | VRAM | Tokens/seg (RTX 4090) | Mejor para |
|---|---|---|---|
| Qwen 3.6 27B Q4_K_M | 16 GB | ~35 | Programación en producción, tareas complejas |
| Qwen 3.6 27B Q8_0 | 28 GB | ~20 | Máxima calidad, GPU dual |
| Qwen 3 14B Q4_K_M | 9 GB | ~60 | 8–12 GB VRAM, tareas generales |
| Qwen 3 7B Q4_K_M | 5 GB | ~80 | VRAM reducida, completaciones rápidas |
| Qwen 3 72B Q4_K_M | 42 GB | — | Máxima calidad, Apple Silicon 96 GB+ |
Q4_K_M es la cuantización recomendada para la mayoría de los usuarios — mejor relación calidad-tamaño. Q8_0 ofrece mayor calidad a mayor costo de VRAM. Usa siempre la etiqueta explícita (qwen3:27b, no qwen3) para asegurarte de descargar el modelo 27B.
Requisitos de hardware
- Mínimo (Qwen 3.6 27B): GPU con 16 GB VRAM — RTX 4080, RTX 4070 Ti Super o RTX 3090
- GPU recomendada: RTX 4090 (24 GB VRAM) — ejecuta Q4_K_M a 35 tokens/seg con 8 GB de margen
- Apple Silicon M3/M4 (actual): M3 Max o M4 Pro con 48 GB de memoria unificada — silencioso, eficiente en energía, 40+ tokens/seg vía MLX
- Mac Mini M4 Pro (48 GB): ~€1,599 en tienda, factor de forma compacto, mejor TCO para despliegue en oficinas de la UE
- Apple Silicon M5 Pro (64 GB): próxima generación, 307 GB/s de ancho de banda de memoria — ejecuta Qwen 3.6 27B a un estimado de 50+ tokens/seg. Apple afirma un procesamiento de prompts LLM 4× más rápido que M4.
- Apple Silicon M5 Max (128 GB): 460–614 GB/s de ancho de banda de memoria — ejecuta Qwen 3 72B Q4_K_M cómodamente con margen. Esperado a mediados de 2026 en Mac Studio; el Mac Mini actual viene con M4 Pro.
- RAM: mínimo 32 GB de RAM del sistema junto a la inferencia GPU; 64 GB recomendados junto a un entorno de desarrollo completo
- Almacenamiento: 20 GB de espacio libre en disco para Qwen 3.6 27B Q4_K_M (archivo GGUF ~17 GB)
📌Note: La memoria unificada de Apple Silicon se comparte entre CPU y GPU. Un Mac con 48 GB de memoria unificada puede ejecutar Qwen 3.6 27B Q4_K_M con margen para el SO y otras aplicaciones. Esto lo convierte en la opción de inferencia local más práctica en un único dispositivo compacto.
💡Tip: M5 Max (128 GB) es la primera configuración de Apple Silicon donde Qwen 3 72B funciona a velocidad de producción. Si manejas contextos muy largos o necesitas máxima calidad para cargas de trabajo reguladas en la UE, Mac Studio M5 Max es la recomendación de dispositivo único.
Configuración con Ollama
Ollama es la forma más rápida de ejecutar Qwen 3 localmente. Gestiona las descargas de modelos, proporciona una API compatible con OpenAI en localhost:11434 y maneja la cuantización automáticamente. Instálalo desde ollama.com.
- 1Instalar Ollama
Why it matters: Ollama gestiona las descargas de modelos, el formato GGUF y proporciona una API local compatible con OpenAI. - 2Descargar el modelo Qwen 3.6 27B con etiqueta explícita
Why it matters: Usa qwen3:27b de forma explícita. La etiqueta simple `qwen3` descarga por defecto el modelo 8B — no el modelo 27B al que apunta esta guía. - 3Crear un Modelfile con la longitud de contexto correcta
Why it matters: El num_ctx predeterminado de 2048 tokens es demasiado pequeño para tareas reales de programación. 32768 tokens maneja la mayoría de archivos y conversaciones. - 4Construir el modelo personalizado y ejecutarlo
Why it matters: Crea una instancia de Qwen 3.6 27B con la ventana de contexto extendida. Verifica con un prompt de prueba. - 5Probar el endpoint de la API
Why it matters: Ollama expone una API compatible con OpenAI en localhost:11434/v1. Usa este endpoint para conectar clientes LLM, IDEs y PromptQuorum.
# Step 1 — Install Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — download from https://ollama.com/download
# Step 2 — Pull Qwen 3.6 27B (explicit tag required)
ollama pull qwen3:27b
# Downloads Qwen 3.6 27B Q4_K_M (~17 GB)
# Note: 'ollama pull qwen3' without a tag downloads the 8B model
# Step 3 — Create Modelfile with correct num_ctx
cat > Modelfile <<'EOF'
FROM qwen3:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF
# Step 4 — Build and run
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k
# Expected output (Qwen working correctly):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
# return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.
# Step 5 — Test API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32k",
"messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
}'⚠️Warning: No omitas el paso 3. El num_ctx predeterminado de Ollama es 2048 tokens — aproximadamente 1500 palabras. La mayoría de las tareas de programación (leer un archivo, explicar una función, escribir pruebas) requieren 8000–32000 tokens de contexto. Sin esta corrección, Qwen trunca silenciosamente tus prompts y produce resultados degradados.
Configuración con LM Studio
LM Studio proporciona una GUI para ejecutar LLMs locales sin ningún comando CLI. Es el camino recomendado para usuarios no técnicos o configuraciones en Windows. Descárgalo desde lmstudio.ai.
- 1Descargar e instalar LM Studio
Why it matters: GUI gratuita y multiplataforma para inferencia LLM local. No se requiere CLI. - 2Buscar y descargar Qwen 3 27B
Why it matters: El navegador de modelos de LM Studio busca en Hugging Face. Busca "Qwen 3 27B" y selecciona la variante GGUF Q4_K_M para 16 GB VRAM. - 3Configurar la longitud de contexto en los ajustes de LM Studio
Why it matters: El mismo problema de num_ctx que en Ollama — cambia la longitud de contexto a 32768 en los parámetros del modelo antes de cargarlo. - 4Iniciar el servidor local
Why it matters: El botón "Iniciar servidor" de LM Studio crea una API compatible con OpenAI en localhost:1234. Usa esta URL en clientes y PromptQuorum. - 5Instalar Claude Code (opcional)
Why it matters: Claude Code es el CLI de Anthropic para ejecutar Claude localmente. Descárgalo desde https://claude.com/claude-code (todas las plataformas: macOS, Windows, Linux). - 6Instalar el proxy de Claude Code
Why it matters: El proxy gratuito de Claude Code (basado en OpenClaw) conecta Claude Code con LLMs locales. Ejecuta: `uv run python -m uvicorn server:app --host 0.0.0.0 --port 8082`. En Windows, inicia con: `uv run python -m uvicorn server:app --host 0.0.0.0 --port 8082`. - 7Configurar Claude Code para usar Qwen local
Why it matters: En los ajustes de Claude Code, establece el endpoint de API en http://localhost:8082. Claude Code enrutará las solicitudes a través del proxy a tu instancia de LM Studio (localhost:1234), permitiéndote usar Qwen 3.6 27B como asistente de programación.
// LM Studio local server config (exported JSON)
{
"model": "qwen3-27b-q4_k_m",
"server": {
"host": "localhost",
"port": 1234,
"cors": true
},
"inference": {
"context_length": 32768,
"temperature": 0.7,
"gpu_layers": -1
}
}Conexión a PromptQuorum
PromptQuorum enruta prompts a través de múltiples LLMs. Para usar tu instancia local de Qwen como destino de despacho, configura el endpoint LLM local de PromptQuorum para que apunte a tu servidor Ollama.
Este es el endpoint de Ollama (compatible con OpenAI) — distinto de la configuración de la API de Anthropic utilizada para Claude. Ambos pueden estar activos simultáneamente, con PromptQuorum enrutando según el tipo de tarea y la sensibilidad de los datos.
Conecta PromptQuorum a Qwen local estableciendo OLLAMA_BASE_URL en http://localhost:11434/v1 y LOCAL_LLM_MODEL en qwen3:27b en los ajustes de despacho local.
# PromptQuorum dispatch config — local Qwen via Ollama
# Set in your .env or PromptQuorum settings panel
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3:27b
# Example routing rules (PromptQuorum dispatch):
# - task_type: code → model: qwen3:27b (local Ollama, GDPR-safe)
# - task_type: analysis → model: claude-sonnet-4-6 (Anthropic API, separate config)
# - task_type: private → model: qwen3:27b (local Ollama, no cloud egress)Solución de problemas
- La respuesta del modelo se corta a mitad de frase: num_ctx es demasiado bajo. Reconstruye tu Modelfile con `PARAMETER num_ctx 32768` y vuelve a crear el modelo con `ollama create`.
- Error CUDA out of memory: el modelo no cabe en tu VRAM. Cambia a Qwen 3 14B Q4_K_M (~9 GB VRAM) o prueba una cuantización Q3_K_S del 27B.
- La API de Ollama devuelve 404: confirma que el nombre del modelo coincide exactamente. Ejecuta `ollama list` para ver los modelos disponibles. Usa el nombre exacto mostrado (por ejemplo, `qwen3-32k`).
- Generación lenta (< 5 tokens/seg): capas de GPU no completamente descargadas. Ejecuta `ollama run qwen3-32k` y verifica que `num_gpu_layers` esté maximizado. Asegúrate de que ningún otro proceso intensivo en GPU esté corriendo.
- LM Studio muestra "error al cargar el modelo": VRAM insuficiente. Reduce la longitud de contexto Q4_K_M a 16384 o cambia a Qwen 3 14B.
- PromptQuorum devuelve error de autenticación: establece `OLLAMA_BASE_URL=http://localhost:11434/v1` en los ajustes de LLM local de PromptQuorum. Si el formulario requiere una clave, introduce cualquier cadena no vacía — Ollama no requiere autenticación por clave de API.
- Ollama usa CPU en lugar de GPU: en NVIDIA: confirma que los drivers CUDA están instalados (`nvidia-smi` debe mostrar la GPU). En Mac: Ollama usa Metal automáticamente — no se necesita configuración. Si Metal no está activo, reinstala Ollama desde ollama.com.
- La descarga del modelo se detiene o falla: los modelos grandes (Qwen 3.6 27B ~17 GB) pueden agotar el tiempo de espera en conexiones lentas. Ejecuta `ollama pull qwen3:27b` de nuevo — Ollama reanuda desde donde se detuvo. Alternativamente, descarga el GGUF directamente desde Hugging Face y usa `ollama create` con una ruta local en la cláusula FROM del Modelfile.
💡Tip: Ejecuta `ollama ps` para ver qué modelos están actualmente cargados en VRAM y cuánta memoria consume cada uno. Usa `ollama stop qwen3-32k` para descargar un modelo antes de cambiar a uno más grande.
Consumo eléctrico y TCO
El costo del hardware es la inversión única. La electricidad es el costo continuo. La elección correcta de hardware depende de tu precio de electricidad, las horas de uso y si estás en la UE (donde la electricidad promedia ~€0,35/kWh en Alemania en 2026, comparado con ~$0,13/kWh en EE. UU.).
Un sistema RTX 4090 bajo carga de inferencia consume aproximadamente 450 W. Funcionando 8 horas/día al precio alemán de electricidad: 0,45 kW × 8 h × €0,35 × 250 días laborables = €315/año en electricidad. El hardware cuesta ~€2.000–2.500 para un sistema completo.
Apple Silicon M5 Max en un Mac Studio consume aproximadamente 40–50 W bajo carga de inferencia LLM. Mismo escenario: 0,05 kW × 8 h × €0,35 × 250 días = €35/año en electricidad. El hardware cuesta ~€3.000–4.000 para un Mac Studio M5 Max con 128 GB.
Comparado con la API de Claude Sonnet 4.6 a 10 millones de tokens/día para un solo desarrollador: 10 M tokens × $3/1 M × 250 días = $7.500/año.
| Opción | Hardware | Electricidad/año (UE) | Costo API/año (10 M tok/día) | Amortización |
|---|---|---|---|---|
| Claude Sonnet 4.6 API | — | — | $7.500 | — |
| Sistema RTX 4090 + Qwen local | €2.200 | €315 | $0 | ~4 meses vs Claude |
| Mac Mini M4 Pro (48 GB) | €1.599 | €25 | $0 | ~3 meses vs Claude |
| Mac Studio M5 Max (128 GB) | ~€3.500 | €35 | $0 | ~6 meses vs Claude |
•Important: Para equipos de la UE en jurisdicciones con electricidad cara, el Mac Mini M4 Pro (48 GB) ofrece el mejor TCO: menor costo combinado de hardware y electricidad, cumplimiento RGPD por diseño y funcionamiento silencioso en entorno de oficina. El Mac Studio M5 Max es la opción de actualización para equipos que necesitan la calidad de Qwen 3 72B.
Preguntas frecuentes
¿Cuál es el hardware mínimo para ejecutar Qwen 3 localmente?
Para Qwen 3.6 27B con cuantización Q4_K_M: 16 GB VRAM (RTX 4080 o RTX 3090). Para Apple Silicon: M3 Pro con 36 GB de memoria unificada o M3 Max con 48 GB. Para el Qwen 3 14B más pequeño: 9 GB VRAM (RTX 3080 o RTX 4070). Qwen 3 7B funciona con 5 GB VRAM (GTX 1080 o mejor).
¿Por qué Ollama trunca mis prompts?
Ollama usa por defecto num_ctx de 2048 tokens (~1500 palabras). Esto es demasiado pequeño para la mayoría de las tareas reales de programación. Debes establecer num_ctx en al menos 32768 en tu Modelfile. Crea un Modelfile con `PARAMETER num_ctx 32768`, luego ejecuta `ollama create qwen3-32k -f Modelfile` para construir una instancia del modelo con la ventana de contexto correcta.
¿Es conforme al RGPD ejecutar Qwen localmente?
Sí — la inferencia local es la arquitectura de IA más conforme al RGPD posible. Cuando Qwen corre en tu hardware, ningún dato se transfiere a terceros. Las restricciones del artículo 44 del RGPD sobre transferencias internacionales de datos no aplican porque no hay transferencia de datos. Tu acuerdo interno de procesamiento de datos aplica, pero no se necesitan SCCs ni decisiones de adecuación para la capa de IA.
¿Puede Qwen 3 ejecutarse solo en CPU?
Sí, mediante llama.cpp o Ollama en un sistema sin GPU. La inferencia en CPU es significativamente más lenta — típicamente 1–5 tokens/segundo en una CPU moderna para Qwen 3.6 27B. Para uso en producción, se requiere GPU o Apple Silicon. Para uso ocasional o pruebas en un portátil sin GPU dedicada, la inferencia en CPU funciona pero es impráctica para conversación en tiempo real.
¿Cómo actualizo Qwen a la última versión?
Ejecuta `ollama pull qwen3:27b` de nuevo. Ollama verifica si hay una versión más nueva disponible y descarga solo las capas modificadas. No necesitas recrear tu Modelfile — la etiqueta del modelo (qwen3:27b) siempre apunta a la última versión 27B. En LM Studio, comprueba la biblioteca de modelos en busca de actualizaciones y vuelve a descargar si hay una versión GGUF más nueva disponible.
¿Puedo usar Claude Code con Qwen local?
Sí. Claude Code es el CLI de Anthropic para programar con Claude. Para usarlo con Qwen 3.6 27B local, instala el proxy gratuito de Claude Code, apúntalo a tu instancia de LM Studio (localhost:1234) y luego configura Claude Code para enrutar solicitudes a través del proxy (localhost:8082). Tu código permanece completamente local — no se requiere clave de API de Anthropic.
¿Necesito una clave de API de Anthropic para ejecutar Claude Code con Qwen local?
No. Al usar Claude Code con un LLM local a través del proxy, la clave de API de Anthropic no se utiliza. El proxy intercepta las solicitudes de Claude Code y las enruta a tu servidor de LM Studio en su lugar. Solo necesitas la clave de API si decides usar también la API de Claude de Anthropic para otras tareas en paralelo.
¿Cuál es la diferencia entre el proxy de Claude Code y Ollama?
Ollama es un runtime de LLM local que gestiona descargas de modelos, cuantización, configuración de contexto y expone una API compatible con OpenAI (localhost:11434/v1). El proxy de Claude Code es un puente ligero que conecta Claude Code específicamente a cualquier LLM local (Ollama, LM Studio o llama.cpp). Ambos pueden ejecutarse simultáneamente: Ollama gestiona el modelo, el proxy gestiona la conexión del cliente de Claude Code. Alternativamente, usa LM Studio como runtime en lugar de Ollama — el proxy funciona con ambos.
¿Afecta el uso de Claude Code con Qwen local a la velocidad de inferencia?
No hay impacto significativo. El proxy añade latencia insignificante (< 50 ms) ya que corre en la misma máquina que tu instancia de LM Studio. La velocidad de inferencia está determinada por tu GPU y la cuantización del modelo (Q4_K_M es estándar), no por el proxy. El tiempo total de inferencia a respuesta para una tarea de generación de código es típicamente de 20–60 segundos en una RTX 4080, según la longitud de la salida.