Key Takeaways
- Dois caminhos: Ollama (CLI, headless, pronto para API) ou LM Studio (GUI, sem CLI). Ambos executam o Qwen 3.6 27B localmente.
- Correção crítica: O Ollama usa `num_ctx 2048` por padrão. Isso trunca a maioria dos prompts reais. Defina `num_ctx 32768` no seu Modelfile ou via parâmetro `num_ctx` da API.
- Hardware mínimo: 16 GB de VRAM (RTX 4080) ou Apple Silicon com 32 GB de memória unificada para o Qwen 3.6 27B.
- Conformidade com LGPD: Todos os dados ficam no seu hardware — nenhum prompt é enviado para servidores externos.
Perguntas frequentes
Como executo o Qwen 3 localmente em 2026?
Instale o Ollama, execute `ollama pull qwen3.6:27b`, depois `ollama run qwen3.6:27b`. Para GUI: baixe o LM Studio, pesquise "Qwen 3 27B", baixe o arquivo GGUF Q4_K_M. Crítico: defina num_ctx como 32768 no Ollama (o padrão 2048 é muito pequeno).
Qual hardware preciso para o Qwen 3.6 27B?
Mínimo: 16 GB de VRAM (RTX 4080) ou Apple Silicon com 32 GB de memória unificada. Recomendado: RTX 4090 (24 GB) ou M3 Max 48 GB para melhor desempenho.
Ollama ou LM Studio — qual devo usar?
Ollama se você quer um endpoint de API headless (para scripts, IDE plugins, PromptQuorum). LM Studio se você quer uma interface de chat visual sem precisar da linha de comando.
Por que o Ollama trunca meus prompts?
O Ollama usa `num_ctx 2048` por padrão, o que limita a janela de contexto a ~1.500 palavras. Para tarefas reais, defina `num_ctx 32768` no Modelfile ou passe `"num_ctx": 32768` na chamada da API.
O Qwen 3.6 27B é gratuito para uso comercial?
Sim. O Qwen 3.6 27B usa a licença Apache 2.0, que permite uso comercial sem royalties. Verifique sempre a licença na página do Hugging Face do modelo antes de implantar em produção.