Você pode executar Qwen 3 no Ollama?

Ler em:

Resposta rápida

Sim — Ollama suporta todos os tamanhos de modelos Qwen 3 de 0,6B a 72B. Execute qualquer tamanho com ollama run qwen3:8b. O modelo 8B precisa de ~6 GB de VRAM em Q4.

▸ollama run qwen3:0.6b — cabe em 1 GB de VRAM
▸ollama run qwen3:8b — precisa de ~6 GB de VRAM
▸ollama run qwen3:72b — precisa de ~40 GB de VRAM

Atualizado: 2026-05

Ollama

Pontos principais

✓Ollama suporta todos os tamanhos do Qwen 3: 0,6B, 1,5B, 3B, 7B, 14B, 32B e 72B
✓Baixe qualquer tamanho com <code>ollama run qwen3:8b</code> — substitua a tag pelo tamanho desejado
✓O modelo 7B precisa de ~6 GB de VRAM em Q4 e roda a ~20 tok/s em uma GPU de médio porte
✓Qwen 3 suporta chamadas de ferramentas nativamente via a API padrão do Ollama — não é necessário nenhum Modelfile personalizado

Sim — Aqui está o que está disponível

Em maio de 2026, o Ollama suporta todos os principais tamanhos do modelo Qwen 3, de 0,6B a 72B. Baixe qualquer tamanho com um único comando: ollama run qwen3:8b. Substitua 8b por 0.6b, 1.5b, 3b, 14b, 32b ou 72b para outros tamanhos.

Cada tamanho está disponível em múltiplas quantizações. Q4_K_M é o ponto de partida padrão e recomendado — oferece a melhor relação qualidade/tamanho de arquivo. Q8_0 está disponível para os modelos 7B e 14B se você tiver margem de VRAM.

Chamadas de ferramentas são suportadas nativamente em todos os tamanhos do Qwen 3 via a API padrão do Ollama. Não é necessário nenhum Modelfile personalizado nem template de prompt especial.

ollama run qwen3:8b

Qual tamanho do Qwen 3 escolher

O tamanho correto do Qwen 3 depende inteiramente da VRAM disponível. Para a maioria dos usuários com uma GPU de médio porte (6–8 GB de VRAM), o modelo 7B em Q4_K_M é a opção prática — precisa de ~6 GB e roda a ~20 tok/s.

O modelo 14B em Q4 é o nível recomendado para código: supera o 7B na geração de código e cabe confortavelmente em 10–12 GB de VRAM. Para uma comparação completa do desempenho de codificação do Qwen 3 frente a outros modelos locais, consulte o guia para executar Qwen localmente em 2026.

VRAM	Tamanho do Qwen 3	Ideal para
< 4 GB	0,6B / 1,5B	Dispositivos edge, testes, somente CPU
4–6 GB	3B	GPU de baixo custo ou CPU com pouca RAM
6–12 GB	7B / 14B	Uso geral e codificação
12–24 GB	14B / 32B	Codificação e raciocínio de alta qualidade
40+ GB	72B	Qualidade local próxima à fronteira

Respostas rápidas sobre Qwen 3 no Ollama

Como instalo Qwen 3 no Ollama?▾

Execute ollama run qwen3:8b em um terminal. O Ollama baixa o modelo automaticamente na primeira execução. Substitua 8b pelo tamanho desejado: 0.6b, 1.5b, 3b, 14b, 32b ou 72b.

Qwen 3 é melhor que Llama 3 para código?▾

Para código: sim, Qwen 3 14B supera Llama 3 8B nos benchmarks HumanEval. Para conversação geral no nível 8B: Llama 3 8B ainda é competitivo. Para as melhores opções atuais do Ollama em todas as tarefas, consulte os melhores modelos do Ollama agora.

Qwen 3 suporta chamadas de ferramentas no Ollama?▾

Sim. Qwen 3 suporta chamadas de funções e ferramentas nativamente via a API padrão do Ollama. Não é necessário nenhum Modelfile personalizado ou configuração especial — funciona com qualquer cliente que suporte o formato de uso de ferramentas do Ollama.

Posso executar Qwen 3 72B em hardware de consumidor?▾

Tecnicamente sim, mas requer ~40 GB de VRAM em Q4 — o que significa uma configuração de duas GPUs (dois RTX 3090) ou um Mac Apple M-series com 64 GB ou mais de memória unificada. A maioria das configurações de consumidor tem como limite prático o nível 32B.

← Voltar para Prompt Bites