Skip to main content
PromptQuorumPromptQuorum

¿Cuál es el mejor modelo Qwen para programar?

Respuesta rápida

Qwen2.5-Coder 32B es el mejor con 24 GB VRAM (HumanEval 91.5%). A 8 GB VRAM el 7B alcanza 79.7%. El 14B es el punto óptimo a 12 GB VRAM.

  • Qwen2.5-Coder 7B Q4_K_M: 5.5 GB VRAM, HumanEval 79.7%
  • Qwen2.5-Coder 14B Q4_K_M: 9.5 GB VRAM, HumanEval 88.0% — punto óptimo
  • Qwen2.5-Coder 32B Q4_K_M: 20.5 GB VRAM, HumanEval 91.5% — máxima calidad

Actualizado: 2026-05

Model ComparisonsIntermedio

Puntos clave

  • Qwen2.5-Coder 32B Q4_K_M: HumanEval 91.5% — mejor modelo Qwen para código, necesita 24 GB VRAM
  • Qwen2.5-Coder 14B Q4_K_M: HumanEval 88.0% a 9.5 GB VRAM — punto óptimo para RTX 3080/4070
  • Qwen2.5-Coder 7B Q4_K_M: HumanEval 79.7% a 5.5 GB VRAM — funciona con RTX 3060 o 16 GB RAM
  • Instalación: `ollama pull qwen2.5-coder:7b` / `14b` / `32b`

Comparativa de tamaños de Qwen2.5-Coder

Elige el modelo más grande que quepa completamente en VRAM a Q4_K_M sin descargar capas a CPU.

Veredicto: qué tamaño ejecutar

**8 GB VRAM o menos (RTX 3060, M2 16 GB):** Qwen2.5-Coder 7B Q4_K_M. Cabe en 5.5 GB VRAM con margen para la caché KV. Para autocompletado y generación de funciones en un plugin de IDE, 79.7% HumanEval es suficiente.

**12–16 GB VRAM (RTX 3080, RTX 4070, M2 Pro):** Qwen2.5-Coder 14B Q4_K_M. El salto de 7B a 14B es el mayor en calidad por VRAM de la familia Qwen Coder.

**24 GB VRAM (RTX 4090, M3 Max 48 GB):** Qwen2.5-Coder 32B Q4_K_M. Supera a GPT-3.5-Turbo en benchmarks de generación de código y maneja mejor el contexto multi-archivo.

**Solo CPU (sin GPU dedicada):** 7B Q4_K_M con 16 GB RAM, ~8 tok/s. Aceptable para generación ocasional; demasiado lento para autocompletado en tiempo real.

Preguntas frecuentes