Key Takeaways
- Máquina única: 1 GPU, 10-50 usuários simultâneos, configuração simples.
- Escala empresarial: Kubernetes + vLLM, 5-50 GPUs, 50-500 usuários simultâneos.
- LGPD/ANPD: Implantações locais mantêm dados pessoais no hardware da organização, eliminando transferências internacionais e risco regulatório.
- Monitoramento: GPU utilization, request queue depth e tokens/seg são as métricas principais.
- Custo: Implantação local tem custo marginal próximo a zero após o hardware vs. $3-15/1M tokens de APIs na nuvem.
Arquitetura: de máquina única ao sistema distribuído
Uma única máquina com 1-2 GPUs serve 10-50 usuários simultâneos com latência aceitável para a maioria das cargas de trabalho empresariais. Para escalar além disso, a abordagem padrão em 2026 é Kubernetes com vLLM como servidor de inferência, balanceamento de carga via nginx ou Traefik, e auto-scaling baseado em comprimento da fila de requisições.
A decisão de escalar deve ser baseada em dados reais de utilização, não em estimativas antecipadas. Comece com uma única máquina e meça antes de adicionar GPUs.
Balanceamento de carga e roteamento
O vLLM com múltiplas réplicas atrás de um load balancer é o padrão para implantações de 5+ GPUs. Use round-robin para requisições de similar comprimento, ou roteamento baseado em comprimento de fila para cargas de trabalho heterogêneas.
Redundância e failover
Para 99,9% de disponibilidade, você precisa de pelo menos 2 instâncias de inferência com failover automático. Kubernetes gerencia a reinicialização de pods, mas você deve configurar health checks no endpoint `/health` do vLLM e definir `readinessProbe` adequado.
Monitoramento e observabilidade
As métricas críticas para monitorar são: GPU utilization (target: 70-85%), request queue depth (alerta se > 50), tokens/seg (baseline por modelo), e latência P95 (alerta se > 10 segundos).
Otimização de custos em escala
O custo marginal de tokens em implantação local é próximo a zero após o hardware. Para equipes de 50+ pessoas gerando 100M tokens/mês, a implantação local vs. Claude Sonnet 4.6 ($3/1M tokens = $300/mês) normalmente se paga em 6-12 meses.
Erros comuns ao escalar na empresa
- Super-provisionar GPUs antes de medir a carga real. Comece com uma máquina e escale baseado em dados. A maioria das equipes subestima quantos usuários uma única GPU consegue atender.
- Não configurar `num_ctx` adequado. O padrão de 2048 tokens do Ollama é insuficiente para a maioria dos casos de uso empresariais. Defina no mínimo 8192.
- Ignorar conformidade com LGPD/ANPD. Para empresas brasileiras processando dados pessoais de clientes, o DPO deve ser consultado antes de implantar qualquer LLM — local ou na nuvem.
- Não implementar logging de auditoria. Registre prompts, respostas e metadados de usuário para conformidade regulatória e debugging.
Fontes
- vLLM Documentation — Servidor de inferência de alto desempenho para LLMs.
- Kubernetes Documentation — Orquestração de contêineres para implantações em escala.