Key Takeaways
- Escrita/criação de conteúdo: Ollama + OpenWebUI. Sem configuração, UI de chat excelente, janela de contexto ajustável.
- Código/revisão de código: vLLM + FastAPI + extensão VS Code. Processamento em lote, inferência paralela, streaming.
- RAG local: LlamaIndex + Ollama/vLLM + Qdrant vector DB. Chunking de documentos, embedding e recuperação integrados.
- Agentes IA: LangGraph + backend vLLM. Uso de ferramentas, memória, loop de planejamento. Curva de aprendizado mais íngreme.
- API multi-usuário: vLLM atrás de um load balancer (nginx). Gerencia 10+ requisições concorrentes. A opção mais escalável.
- Fine-tuning: HuggingFace Transformers + LoRA + Ollama para inferência. Treinamento separado do serving.
- Streaming em tempo real: Ollama (streaming nativo) ou vLLM + endpoint de streaming de tokens. Melhor UX para chatbots.
Decisão rápida: stack por nível de hardware (abril 2026)
Escolha o stack de acordo com sua GPU/VRAM. Cada combinação foi testada com benchmarks reais.
| Seu hardware | Escrita | Código | RAG | Agentes |
|---|---|---|---|---|
| 4-8 GB VRAM (GTX 1660, RTX 3050) | Ollama + Phi-4 Mini | Ollama + Qwen3-Coder-1.5B | LlamaIndex + Phi-4 Mini | Não recomendado |
| 12 GB VRAM (RTX 3060, RTX 4070) | Ollama + Llama 3.2 8B | vLLM + Qwen3-Coder-7B | LlamaIndex + Llama 3.2 8B | LangGraph + Ollama (mais lento) |
| 16 GB VRAM (RTX 4070 Ti, RTX 4080) | Ollama + Mistral Small 3.1 | vLLM + Qwen3-Coder-14B | LlamaIndex + Mistral 3.1 | LangGraph + vLLM |
| 24 GB VRAM (RTX 3090, RTX 4090) | Ollama + Llama 3.3 70B Q4 | vLLM + Qwen3-Coder-32B | LlamaIndex + Llama 3.3 70B | LangGraph + vLLM (o mais rápido) |
Melhor stack: Ollama + OpenWebUI + editor Markdown
Por que este stack: OpenWebUI tem a melhor UX de chat. Não requer código. A flexibilidade da janela de contexto (4K-32K) supera o LM Studio para escrita de texto longo. Mais econômico que APIs de nuvem para escritores.
- 1Para 24 GB VRAM: `ollama pull llama3.3:70b` -- qualidade máxima, comparável ao GPT-4 (2023) em benchmarks de escrita.
- 2Para 16 GB VRAM: `ollama pull mistral-small3.1` -- contexto de 128K, melhor qualidade abaixo de 24 GB.
- 3Para 8 GB VRAM: `ollama pull llama3.2:8b` -- boa qualidade de escrita, rápido em hardware de consumo.
- 4Instale OpenWebUI via Docker: `docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui:latest`.
Melhor stack: vLLM + Qwen3-Coder + extensão IDE
Por que este stack: Qwen3-Coder obtém 82% no HumanEval (melhor modelo de código open-source, abril 2026). vLLM é 3-5× mais rápido que Ollama para inferência em lote. Compatibilidade nativa com a API OpenAI encaixa com ferramentas IDE existentes.
- 1Instale vLLM: `pip install vllm`.
- 2Inicie o servidor vLLM com Qwen3-Coder-7B: `python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen3-Coder-7B-Instruct --port 8000`.
- 3Para 16+ GB VRAM, use o modelo 14B: `--model Qwen/Qwen3-Coder-14B-Instruct`.
Melhor stack: LlamaIndex + Ollama/vLLM + Qdrant
Por que este stack: LlamaIndex tem as melhores abstrações de RAG para Python. Qdrant é rápido, eficiente em memória e fácil de configurar localmente. Sem dependências de nuvem.
- 1Instale dependências: `pip install llama-index qdrant-client`.
- 2Inicie Qdrant via Docker: `docker run -p 6333:6333 qdrant/qdrant`.
- 3Use Ollama como backend de embedding e geração.
Perguntas frequentes
Qual stack de LLM local é melhor para desenvolvimento em Python?
vLLM + Qwen3-Coder-14B + Continue.dev é o melhor stack para desenvolvimento Python em 2026. Qwen3-Coder obtém 82% no HumanEval, vLLM fornece inferência rápida com API compatível com OpenAI.
Como implementar RAG em português com LLMs locais?
Use LlamaIndex + Ollama + Qdrant. Para documentos em português, use um modelo de embedding multilíngue (ex: multilingual-e5-large) e Llama 3.3 ou Qwen3 como modelo de geração. Ambos têm bom suporte para português.
O stack local precisa de conexão à internet?
Não. Todos os componentes desta lista (Ollama, vLLM, LlamaIndex, Qdrant, Open WebUI) funcionam totalmente offline. Ideal para ambientes com requisitos de conformidade com LGPD.