Key Takeaways
- Qwen 3.6 27B é o melhor em geral em hardware de consumo: 77,2% SWE-bench (melhor modelo denso), cabe em 24 GB a Q4.
- Llama 4 Scout 17B (MoE): melhor para contexto longo (10M tokens) e multimodal — mas requer ~55 GB de VRAM a Q4, não cabe em uma GPU de consumo de 24 GB com quantizações normais.
- Mistral Small 3.1 24B: melhor qualidade por GB de RAM (14 GB), 79% MMLU — ideal para hardware com pouca memória.
- Para programação: Qwen 3.6 27B (denso) ou Devstral Small 24B (agentivo, multi-arquivo).
- Para autocompletar em IDE: Codestral 22B.
- Todos via Ollama: `ollama pull qwen3` / `ollama pull llama4` / `ollama pull mistral`.
Perguntas frequentes
Qwen ou Llama é melhor para meu caso de uso?
Melhor em geral em hardware de consumo: Qwen 3.6 27B (77,2% SWE-bench, cabe em 24 GB a Q4). Para programação e multilíngue: Qwen 3.6 27B ou Qwen3 8B. Para contexto longo (10M tokens) ou multimodal: Llama 4 Scout (requer ~55 GB de VRAM a Q4). Para máxima qualidade por GB de RAM: Mistral Small 3.1.
O que é o Llama 4 Scout e como ele difere do Llama 3.3?
O Llama 4 Scout usa uma arquitetura Mixture-of-Experts (MoE) de 16 especialistas — 17B parâmetros ativos por token de um total de 109B, e é multimodal. Todos os especialistas devem residir na memória, então a Q4 requer ~55 GB de VRAM (não os ~14 GB de um modelo denso de 17B). Sua atração é a janela de contexto de 10M tokens. O Llama 3.3 70B é denso (40 GB).
Devo usar Qwen3 ou Qwen3?
Use o Qwen3 para projetos novos. O Qwen3 8B melhora o Qwen3 7B em benchmarks de programação e raciocínio. O Qwen 3.6 27B (77,2% SWE-bench) é o melhor modelo de programação denso disponível. Use o Qwen3 apenas se você tiver um fine-tuning ou fluxo de trabalho que depende dele.
O Mistral é mais rápido em hardware de consumo?
O Mistral Small 3.1 (24B) executa 1,5–2× mais rápido que o Llama 3.3 8B. Para velocidade, o Mistral Small é o mais rápido com 40–60 tok/seg. O Codestral 22B é otimizado para FIM (fill-in-the-middle) em fluxos de trabalho de autocompletar em IDE.
Os três podem executar com 8 GB de VRAM?
Sim, todos podem executar modelos de 7B-8B a quantização Q4 com 8 GB. O Qwen3 8B usa ~5 GB, o Llama 3.3 8B usa ~5,5 GB, o Mistral Small usa ~4,5 GB a Q4_K_M. O Llama 4 Scout (MoE) NÃO cabe em 8 GB — requer ~55 GB de VRAM a Q4.
Qual é melhor para programação?
Qwen3 8B (~76% HumanEval) para o nível de 8 GB. Qwen 3.6 27B (77,2% SWE-bench) para a melhor programação densa. Devstral Small 24B para fluxos de trabalho agentivos em múltiplos arquivos. Codestral 22B para autocompletar em IDE (FIM).
Qual modelo devo usar com 16 GB de RAM?
Mistral Small 3.1 24B a Q4_K_M (14 GB) — melhor qualidade geral a 16 GB de RAM (79% MMLU). Alternativa: Qwen 3.6 27B a Q4_K_M (16 GB) para a melhor programação.
O Qwen é melhor que o Llama para raciocínio?
O Qwen3 72B obtém 84% no MATH vs 77% para o Llama 3.3 70B — uma vantagem de 7 pontos. Para MMLU: Qwen3 72B 85% vs Llama 3.3 70B 82% — bem próximos. O Qwen vence em raciocínio; o Llama 3.3 vence em seguimento de instruções em inglês.