Key Takeaways
- Nível 1 (simples): `ollama run llama3.2` + OpenWebUI. Sem código necessário.
- Nível 2 (padrão): vLLM + wrapper FastAPI. Python 3.10+, pip install de 2 pacotes, configuração em 30 min.
- Nível 3 (produção): vLLM + balanceador de carga nginx + monitoramento (Prometheus). Multi-GPU, multiusuário, tolerante a falhas.
- Integração com IDE: VS Code Copilot ou Cursor com o endpoint da API OpenAI do vLLM.
- Processamento em batch: envie 10 prompts de uma vez, receba 10 respostas em paralelo.
- Custo: zero (open source) vs. $20/mês (Claude Pro) ou $200/mês (grande equipe na nuvem).