Qual é o melhor modelo Qwen para programar?
Resposta rápida
Qwen3-Coder 32B é o melhor com 24 GB de VRAM (HumanEval 91,5%). Com 8 GB de VRAM o 7B alcança 79,7%. O 14B é o ponto ideal em 12 GB de VRAM.
- ▸Qwen3-Coder 7B Q4_K_M: 5,5 GB VRAM, HumanEval 79,7%
- ▸Qwen3-Coder 14B Q4_K_M: 9,5 GB VRAM, HumanEval 88,0% — ponto ideal
- ▸Qwen3-Coder 32B Q4_K_M: 20,5 GB VRAM, HumanEval 91,5% — máxima qualidade
Atualizado: 2026-05
Pontos principais
- ✓Qwen3-Coder 32B Q4_K_M: HumanEval 91,5% — melhor modelo Qwen para código, precisa de 24 GB de VRAM
- ✓Qwen3-Coder 14B Q4_K_M: HumanEval 88,0% com 9,5 GB de VRAM — ponto ideal para RTX 3080/4070
- ✓Qwen3-Coder 7B Q4_K_M: HumanEval 79,7% com 5,5 GB de VRAM — funciona com RTX 3060 ou 16 GB de RAM
- ✓Instalação: `ollama pull qwen2.5-coder:7b` / `14b` / `32b`
Comparativo de tamanhos do Qwen3-Coder
Escolha o maior modelo que caiba completamente na VRAM em Q4_K_M sem descarregar camadas para a CPU.
Veredicto: qual tamanho executar
**8 GB de VRAM ou menos (RTX 3060, M2 16 GB):** Qwen3-Coder 7B Q4_K_M. Cabe em 5,5 GB de VRAM com espaço para o cache KV. Para autocompletar e gerar funções em um plugin de IDE, 79,7% de HumanEval é suficiente.
**12–16 GB de VRAM (RTX 3080, RTX 4070, M2 Pro):** Qwen3-Coder 14B Q4_K_M. O salto de 7B para 14B é o maior ganho de qualidade por VRAM da família Qwen Coder.
**24 GB de VRAM (RTX 4090, M3 Max 48 GB):** Qwen3-Coder 32B Q4_K_M. Supera o GPT-4o mini em benchmarks de geração de código e lida melhor com contexto de múltiplos arquivos.
**Apenas CPU (sem GPU dedicada):** 7B Q4_K_M com 16 GB de RAM, ~8 tok/s. Aceitável para geração ocasional; lento demais para autocompletar em tempo real.
Perguntas frequentes
Quer a análise completa?
Ler o guia completo →Prompt Bites relacionados