Key Takeaways
- Equipe pequena (5–10): servidor único (vLLM) + nginx + autenticação = R$15K em hardware, R$250/mês em eletricidade.
- Equipe média (10–50): cluster dual-GPU + load balancer + monitoramento Prometheus = R$30K em hardware, R$500/mês.
- Custo por usuário: R$50–500/mês conforme volume de inferência (frente a R$1.000–2.500/mês em APIs na nuvem).
- Autenticação API: OAuth 2.0 (SSO via AD/Okta) para enterprise. Autenticação simples por token para PMEs.
- LGPD e ANPD: servidor LLM local satisfaz requisitos de residência de dados — nenhum prompt sai da infraestrutura.
Conformidade LGPD e empresarial no Brasil
A LGPD (Lei nº 13.709/2018) e as diretrizes da ANPD exigem que dados pessoais sensíveis sejam processados com controles adequados. Um servidor LLM local compartilhado satisfaz os requisitos de residência de dados por padrão.
Para implantações empresariais no Brasil: (1) documente quais dados são processados pelos modelos de IA (registro de atividades de tratamento), (2) implemente controle de acesso baseado em papéis (RBAC), (3) registre todas as consultas com ID de usuário e timestamp para auditoria, (4) criptografe dados em repouso e em trânsito (TLS para a API interna).
Setores financeiros (Banco Central) e de saúde (ANS/ANVISA) no Brasil têm requisitos adicionais de localização de dados que a inferência local satisfaz nativamente.