Key Takeaways
- Qwen2.5 7B funciona con 5,5 GB de VRAM — un solo comando `ollama pull qwen2.5:7b` y ya está en marcha a 57 tokens/seg en una RTX 3060.
- Tres subfamilias diferenciadas: Qwen2.5 (uso general), Qwen2.5-Coder (programación, 92,7 % en HumanEval en 32B), Qwen2-VL (visión, mejor OCR CJK local).
- Arquitectura densa = compatible con hardware de consumo: a diferencia del modelo MoE de 236B de DeepSeek (~130 GB de RAM), Qwen2.5 72B cabe en 46 GB de VRAM en dos RTX 3090.
- Multilingüe nativo: preentrenado en chino, japonés, coreano, árabe, alemán, francés y 23 idiomas más — Qwen2.5 supera sistemáticamente a Llama 3.3 en tareas CJK.
- Q4_K_M es la cuantización correcta para la mayoría de usuarios: ~55 % de reducción de VRAM, menos del 1 % de pérdida de calidad en los benchmarks.
- Decisión de hardware: 12 GB de VRAM → modelo 14B; 24 GB → 32B; 48 GB+ (dos GPUs o Apple Silicon 64 GB) → 72B.
Qwen2.5 cubre tres subfamilias de despliegue local — uso general (7B–72B), programación (Coder 7B–32B) y visión (VL 7B–72B) — todas ejecutables mediante Ollama o LM Studio.
Ejecutar un modelo en local significa que la IA corre en tu propio ordenador en lugar de en un servidor en la nube. Ningún dato sale de tu máquina y no hay coste por token después de adquirir el hardware.
Descripción general de la familia de modelos Qwen2.5
La familia Qwen2.5 cubre tres tareas diferenciadas: razonamiento general, programación y visión — cada una con múltiples opciones de tamaño de 7B a 72B parámetros. Todos son modelos de pesos abiertos publicados por el equipo Qwen de Alibaba en Hugging Face bajo la licencia Apache 2.0.
Elige primero la subfamilia y luego el tamaño que se ajuste a tu VRAM. Es habitual combinar subfamilias: Qwen2.5-Coder 14B para autocompletar código y Qwen2.5 7B para resumir documentos.
| Subfamilia | Tamaños disponibles | Uso principal | Prefijo de etiqueta Ollama |
|---|---|---|---|
| Qwen2.5 | 7B, 14B, 32B, 72B | Razonamiento general, tareas en chino/multilingüe, RAG | qwen2.5: |
| Qwen2.5-Coder | 7B, 14B, 32B | Generación de código, depuración, HumanEval, SWE-bench | qwen2.5-coder: |
| Qwen2-VL | 2B, 7B, 72B | OCR de documentos, preguntas sobre imágenes, extracción de texto CJK | qwen2-vl: |
Qwen3 (lanzado en el Q1 de 2026) añade modelos con modo de razonamiento, pero a mayo de 2026 tiene menos builds GGUF y menor cobertura en Ollama que Qwen2.5. Esta guía se centra en Qwen2.5, que tiene el soporte de hardware más amplio y las cuantizaciones más probadas. Consulta los mejores LLM locales 2026 para una comparación más amplia.
Requisitos de hardware por tamaño de modelo
Elige primero tu nivel de VRAM y luego el modelo Qwen2.5 más grande que quepa. Q4_K_M es la cuantización estándar usada en todas las cifras a continuación — ofrece la mejor relación tamaño/calidad para Ollama y LM Studio.
| Modelo | VRAM | GPU mínima | Apple Silicon | Velocidad (RTX 3060) |
|---|---|---|---|---|
| Qwen2.5 7B Q4_K_M | 5,5 GB | RTX 3060 6 GB, RTX 4060 | M1/M2 8 GB | ~57 tok/s |
| Qwen2.5-Coder 7B Q4_K_M | 5,5 GB | RTX 3060 6 GB, RTX 4060 | M1/M2 8 GB | ~55 tok/s |
| Qwen2-VL 7B Q4_K_M | 6,2 GB | RTX 3060 8 GB, RTX 4060 | M1/M2 16 GB | — |
| Qwen2.5 14B Q4_K_M | 9,5 GB | RTX 4070 12 GB | M2 Pro 16 GB | — |
| Qwen2.5-Coder 14B Q4_K_M | 9,5 GB | RTX 4070 12 GB | M2 Pro 16 GB | — |
| Qwen2.5 32B Q4_K_M | 20,5 GB | RTX 3090 24 GB | M3 Max 48 GB | — |
| Qwen2.5-Coder 32B Q4_K_M | 20,5 GB | RTX 3090 24 GB | M3 Max 48 GB | — |
| Qwen2.5 72B Q4_K_M | 46 GB | 2× RTX 3090 (48 GB) | M2 Ultra 64 GB | — |
Las cifras de VRAM corresponden a archivos GGUF Q4_K_M de la biblioteca de Ollama. Añade 1–2 GB para la caché KV con un contexto de 4K. Si la GPU tiene menos VRAM de la que necesita el modelo, Ollama descarga capas automáticamente a la RAM del sistema — funciona, pero reduce la velocidad significativamente.
Configuración con Ollama
Ollama es la forma más rápida de ejecutar cualquier modelo Qwen2.5 en local — gestiona la descarga del modelo, la cuantización GGUF y la API local en `localhost:11434` sin ninguna configuración. Instálalo desde ollama.com. Si no has usado Ollama antes, lee primero cómo instalar Ollama.
- 1Instalar Ollama
Why it matters: Disponible para macOS, Linux (instalación en una línea) y Windows. No hay que configurar drivers de GPU — Ollama detecta CUDA, ROCm y Metal automáticamente. - 2Descargar el modelo con una etiqueta de tamaño explícita
Why it matters: Especifica siempre el tamaño: `qwen2.5:7b`, `qwen2.5:14b`, `qwen2.5:32b`. El `qwen2.5` sin etiquetar se resuelve al modelo 7B, pero puede cambiar entre versiones de Ollama. - 3Ejecutar el modelo
Why it matters: `ollama run qwen2.5:7b` abre un chat interactivo. Escribe tu prompt y pulsa Enter. Cierra con `/bye`. - 4Ajustar la ventana de contexto si es necesario
Why it matters: Qwen2.5 soporta por defecto un contexto de 32K en Ollama. Para usar un contexto de 128K en un modelo 7B, ejecuta `ollama run qwen2.5:7b --num-ctx 131072`. Esto requiere más VRAM. - 5Probar el endpoint de la API
Why it matters: Ollama expone una API compatible con OpenAI. Aplicaciones como PromptQuorum, Continue.dev y Open WebUI se conectan directamente a `http://localhost:11434/v1`.
# Instalar Ollama (Linux)
curl -fsSL https://ollama.com/install.sh | sh
# macOS: descarga el .dmg desde ollama.com o:
brew install ollama
# Descargar modelos — usa etiquetas explícitas
ollama pull qwen2.5:7b # uso general 7B (~5,5 GB)
ollama pull qwen2.5:14b # uso general 14B (~9,5 GB)
ollama pull qwen2.5:32b # uso general 32B (~20,5 GB)
ollama pull qwen2.5-coder:32b # programación 32B (~20,5 GB)
ollama pull qwen2-vl:7b # visión 7B (~6,2 GB)
# Ejecutar en modo interactivo
ollama run qwen2.5:7b
# Probar la API compatible con OpenAI
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"Hola"}]}'Configuración con LM Studio
LM Studio ofrece una interfaz gráfica para Qwen2.5 sin necesidad de comandos en terminal. Descárgalo desde lmstudio.ai o consulta cómo instalar LM Studio. Funciona en macOS, Windows y Linux.
- 1Abrir el navegador de modelos
Why it matters: Busca "Qwen2.5" o "Qwen Coder" para explorar todos los builds GGUF disponibles. Filtra por Q4_K_M para la relación calidad/tamaño recomendada. - 2Descargar un build GGUF
Why it matters: Selecciona la variante Q4_K_M. LM Studio muestra el tamaño del archivo antes de la descarga — confirma que se ajusta a la VRAM disponible. - 3Cargar el modelo y empezar a chatear
Why it matters: Haz clic en el modelo en la barra lateral izquierda para cargarlo en memoria. La asignación de capas a la GPU es automática en función de la VRAM detectada. - 4Iniciar el servidor local
Why it matters: "Iniciar servidor" expone un endpoint compatible con OpenAI en `localhost:1234`. Tus aplicaciones y scripts se conectan a él como si fuera la API de OpenAI.
Cuantización: qué formato elegir
Q4_K_M es el valor por defecto correcto para Qwen2.5 en hardware de consumo. Reduce la VRAM entre un 55–60 % respecto a FP16 con menos del 1 % de degradación en MMLU y HumanEval. Otros formatos tienen casos de uso específicos:
Q4_K_M es la mejor cuantización de Qwen2.5 para la mayoría de usuarios: reduce la VRAM un 55 % con menos del 1 % de pérdida de calidad respecto a FP16.
La cuantización comprime los números del modelo de 16 bits a 4 bits, reduciendo aproximadamente a la mitad el tamaño del archivo y la VRAM necesaria. Es como pasar de TIFF a JPEG de alta calidad — archivo más pequeño, resultado casi idéntico para la mayoría de usos.
- Q4_K_M (recomendado): ~5,5 GB para 7B. La mejor relación calidad por GB. Empieza por este.
- Q8_0: ~8,5 GB para 7B. Calidad cercana a FP16; úsalo si tienes VRAM de sobra y quieres la máxima precisión.
- Q5_K_M: ~6,5 GB para 7B. Mejora marginal sobre Q4_K_M — elígelo solo si la calidad de salida de Q4_K_M es visiblemente deficiente para tu tarea.
- Q2_K: ~3 GB para 7B. El archivo más pequeño, pero la calidad de salida en chino se degrada notablemente — evítalo con Qwen2.5 si el chino es parte de tu caso de uso.
- IQ4_XS: ~4,8 GB para 7B. Una cuantización imatrix más reciente que supera la calidad de Q4_K_M con un tamaño ligeramente menor — disponible en versiones recientes de llama.cpp y LM Studio 0.3+.
Rendimiento en benchmarks en hardware de consumo
Qwen2.5 32B Q4_K_M en una RTX 4090 entrega 28 tokens/seg — velocidad suficiente para asistencia de código en tiempo real. Las puntuaciones a continuación corresponden a builds GGUF Q4_K_M probados en Ollama. Las puntuaciones FP16 son un 1–2 % mayores.
| Modelo (Q4_K_M) | MMLU | Math | HumanEval | Velocidad (RTX 3060 12 GB) |
|---|---|---|---|---|
| Qwen2.5 7B | 74,2 % | 58,8 % | 57,3 % | 57 tok/s |
| Qwen2.5 14B | 79,9 % | 69,8 % | 64,6 % | — |
| Qwen2.5 32B | 83,3 % | 79,5 % | 71,3 % | — |
| Qwen2.5 72B | 86,1 % | 83,1 % | 73,2 % | — |
| Qwen2.5-Coder 7B | — | — | 75,6 % | 55 tok/s |
| Qwen2.5-Coder 14B | — | — | 85,2 % | — |
| Qwen2.5-Coder 32B | — | — | 92,7 % | — |
Qwen vs DeepSeek vs Llama: qué ejecutar en local
Qwen2.5 gana en tareas en chino y eficiencia de VRAM; DeepSeek-V2.5 gana en razonamiento a gran escala pero es impráctico en hardware de consumo; Llama 3.3 70B es la mejor opción en una sola GPU si prefieres el modelo abierto de Meta. La tabla a continuación compara las opciones prácticas en cada nivel de VRAM.
| Nivel de VRAM | Mejor Qwen | Mejor competidor | Veredicto |
|---|---|---|---|
| 6 GB | Qwen2.5 7B | Llama 3.2 3B (cabe, pero solo 3B) | Qwen2.5 7B gana — misma VRAM, modelo mucho mayor |
| 12 GB | Qwen2.5-Coder 14B | Llama 3.3 8B Instruct | Qwen2.5-Coder 14B para código; Llama 3.3 8B para chat general |
| 24 GB | Qwen2.5-Coder 32B | Llama 3.3 70B (con descarga) | Qwen2.5-Coder 32B para código; Llama 3.3 70B si calidad > velocidad |
| 48 GB+ | Qwen2.5 72B | DeepSeek-V2.5 236B MoE | DeepSeek necesita ~130 GB de RAM; Qwen2.5 72B es la opción práctica para 48 GB |
Usuarios hispanohablantes: soberanía de datos y despliegue local
Ejecutar Qwen2.5 en local significa que ningún dato sale de tu máquina — sin transferencia a servidores en la nube, sin exposición bajo el RGPD o leyes de protección de datos latinoamericanas. Las API de LLM en la nube exigen enviar prompts a servidores externos, lo que activa los requisitos de tratamiento de datos y posibles transferencias internacionales.
Qwen2.5 fue entrenado por el equipo Qwen de Alibaba sobre un corpus predominantemente chino y multilingüe. Es el modelo con despliegue local más potente para documentos en chino simplificado, chino tradicional y textos mixtos (chino/español/inglés).
Para despliegues en empresas hispanohablantes: una configuración de Qwen2.5 sin conexión a internet durante la inferencia es plenamente compatible con los marcos regulatorios de España (RGPD/AEPD), México (LFPDPPP), Argentina (Ley 25.326) y otros países hispanohablantes. El modelo corre íntegramente en hardware local — ningún tercero accede a los datos de entrada o salida. Consulta ejecutar IA completamente sin conexión para una guía completa de configuración aislada.
Qwen2.5 funciona completamente sin conexión después de la descarga — ningún dato sale de tu máquina, eliminando el riesgo de transferencia transfronteriza de datos bajo el RGPD y las leyes latinoamericanas.
Cuando ejecutas Qwen2.5 en local, tus prompts y documentos nunca abandonan tu ordenador. No hay llamadas a una API en la nube, no hay servidor externo y no hay datos a los que reguladores o terceros puedan acceder.
Recomendaciones de hardware por presupuesto
La RTX 3060 12 GB es el mejor punto de entrada para Qwen2.5 7B y Qwen2.5-Coder 7B por menos de 300 €. Para modelos 14B, la RTX 4070 12 GB añade un 35 % de velocidad a unos 450–500 € nueva.
- Económico (Qwen2.5 7B): NVIDIA RTX 4060 8 GB o RTX 3060 12 GB. Ambas manejan modelos 7B a 50–57 tokens/seg. La RTX 3060 12 GB suele ser más barata de segunda mano y tiene más margen de VRAM.
- Gama media (Qwen2.5 14B): RTX 4070 12 GB o RTX 4070 Super 12 GB. La 4070 Super ejecuta Qwen2.5-Coder 14B a 38–42 tokens/seg y deja 2–3 GB de VRAM libre para el contexto.
- Gama alta (Qwen2.5 32B): RTX 4090 24 GB o RTX 3090 24 GB. La 4090 entrega 27–28 tok/s en Qwen2.5-Coder 32B — velocidad de asistencia de código en tiempo real. La 3090 es significativamente más barata de segunda mano y rinde dentro del 15 % de la 4090 en inferencia.
- Apple Silicon (todos los tamaños): Mac mini M4 Pro 48 GB ofrece la mejor relación calidad/precio para ejecutar Qwen2.5 32B (~22 tok/s) con bajo ruido y consumo.
- Mini PC para uso continuo: MINISFORUM UM890 Pro o PC AMD Ryzen AI similar. Ejecuta Qwen2.5 7B en CPU+iGPU a ~8–12 tok/s — lento pero capaz de funcionar 24/7 con menos de 35 W de consumo.
Errores frecuentes al ejecutar Qwen2.5 en local
- Usar el comando `ollama pull qwen2.5` sin etiqueta de tamaño. Sin una etiqueta de tamaño explícita (`:7b`, `:14b`, etc.), Ollama puede resolver al tamaño predeterminado, que puede cambiar entre actualizaciones de la biblioteca. Usa siempre etiquetas explícitas: `ollama pull qwen2.5:14b`.
- Ignorar el tamaño de la ventana de contexto. Qwen2.5 soporta un contexto de 128K, pero Ollama usa 2K por defecto para `num_ctx`. Si procesas documentos largos, añade `--num-ctx 8192` (o más) al comando de ejecución — de lo contrario el modelo trunca la entrada en silencio.
- Elegir cuantización Q2_K para uso en chino. A 2 bits de precisión, la salida en chino de Qwen2.5 se degrada notablemente. Usa Q4_K_M como mínimo para cualquier trabajo en chino.
- Ejecutar el modelo 32B con poca VRAM. Si la GPU tiene 16 GB y el modelo necesita 20,5 GB, Ollama descarga capas a la RAM del sistema. El modelo funciona pero a 3–5 tok/s — inutilizable para uso interactivo. Consulta la tabla de hardware y elige un modelo que quepa en tu VRAM.
- Usar la subfamilia incorrecta para programación. Qwen2.5 7B (uso general) puntúa 57,3 % en HumanEval. Qwen2.5-Coder 7B puntúa 75,6 % en el mismo benchmark — una mejora relativa del 32 %. Si tu caso de uso es código, usa siempre la variante Coder del mismo tamaño.
Preguntas frecuentes
¿Cuánta VRAM necesito para ejecutar Qwen2.5 7B en local?
Qwen2.5 7B Q4_K_M requiere 5,5 GB de VRAM. Una RTX 3060 6 GB, RTX 4060 o chip Apple M con 8 GB de memoria unificada son suficientes.
¿Cuál es el mejor modelo Qwen para programación en local?
Qwen2.5-Coder 32B — 92,7 % en HumanEval, necesita GPU de 24 GB. Con 12 GB de VRAM o menos: Qwen2.5-Coder 14B (85,2 %, 9,5 GB de VRAM).
¿Cómo se compara Qwen con DeepSeek para el despliegue local?
Qwen2.5 usa arquitectura densa compatible con hardware de consumo. DeepSeek-V2.5 es un modelo MoE de 236B que necesita ~130 GB de RAM — inviable sin GPU de servidor.
¿Puedo ejecutar Qwen en un Mac?
Sí. M2 Pro 32 GB ejecuta Qwen2.5 14B a ~32 tok/s. M3 Max 64 GB maneja Qwen2.5 32B a ~22 tok/s.
¿Qué comando de Ollama uso para Qwen2.5?
`ollama pull qwen2.5:7b` para 7B, `:14b` para 14B, `:32b` para 32B, o `qwen2.5-coder:32b` para la variante de programación. Usa siempre etiquetas de tamaño explícitas.
¿Qwen es adecuado para tareas en chino?
Sí. Qwen2.5 fue preentrenado sobre un gran corpus chino y soporta de forma nativa chino simplificado, chino tradicional, japonés, coreano y 24 idiomas más.
¿Qué cuantización debo usar para Qwen2.5?
Q4_K_M por defecto — reduce la VRAM ~55 % respecto a FP16 con menos del 1 % de pérdida de calidad. Evita Q2_K para uso en chino.
¿Funciona Qwen2-VL para OCR de documentos en chino?
Sí — `ollama pull qwen2-vl:7b`, ~6 GB de VRAM, lee texto CJK a resoluciones de hasta 4096×4096 píxeles.