¿Cuál es el mejor modelo Qwen para programar?
Respuesta rápida
Qwen2.5-Coder 32B es el mejor con 24 GB VRAM (HumanEval 91.5%). A 8 GB VRAM el 7B alcanza 79.7%. El 14B es el punto óptimo a 12 GB VRAM.
- ▸Qwen2.5-Coder 7B Q4_K_M: 5.5 GB VRAM, HumanEval 79.7%
- ▸Qwen2.5-Coder 14B Q4_K_M: 9.5 GB VRAM, HumanEval 88.0% — punto óptimo
- ▸Qwen2.5-Coder 32B Q4_K_M: 20.5 GB VRAM, HumanEval 91.5% — máxima calidad
Actualizado: 2026-05
Puntos clave
- ✓Qwen2.5-Coder 32B Q4_K_M: HumanEval 91.5% — mejor modelo Qwen para código, necesita 24 GB VRAM
- ✓Qwen2.5-Coder 14B Q4_K_M: HumanEval 88.0% a 9.5 GB VRAM — punto óptimo para RTX 3080/4070
- ✓Qwen2.5-Coder 7B Q4_K_M: HumanEval 79.7% a 5.5 GB VRAM — funciona con RTX 3060 o 16 GB RAM
- ✓Instalación: `ollama pull qwen2.5-coder:7b` / `14b` / `32b`
Comparativa de tamaños de Qwen2.5-Coder
Elige el modelo más grande que quepa completamente en VRAM a Q4_K_M sin descargar capas a CPU.
Veredicto: qué tamaño ejecutar
**8 GB VRAM o menos (RTX 3060, M2 16 GB):** Qwen2.5-Coder 7B Q4_K_M. Cabe en 5.5 GB VRAM con margen para la caché KV. Para autocompletado y generación de funciones en un plugin de IDE, 79.7% HumanEval es suficiente.
**12–16 GB VRAM (RTX 3080, RTX 4070, M2 Pro):** Qwen2.5-Coder 14B Q4_K_M. El salto de 7B a 14B es el mayor en calidad por VRAM de la familia Qwen Coder.
**24 GB VRAM (RTX 4090, M3 Max 48 GB):** Qwen2.5-Coder 32B Q4_K_M. Supera a GPT-3.5-Turbo en benchmarks de generación de código y maneja mejor el contexto multi-archivo.
**Solo CPU (sin GPU dedicada):** 7B Q4_K_M con 16 GB RAM, ~8 tok/s. Aceptable para generación ocasional; demasiado lento para autocompletado en tiempo real.
Preguntas frecuentes
¿Quieres el desglose completo?
Leer la guía completa →Prompt Bites relacionados