Key Takeaways
- RAG corporativo = base de conhecimento interna. Carregue todos os documentos corporativos e permita que os funcionários façam perguntas.
- Casos de uso: Consulta de políticas, Q&A de contratos, descoberta de pesquisa, onboarding, treinamento de conformidade.
- Escala: 10.000–100.000 documentos, 100–500 usuários simultâneos, latência <2 segundos.
- Vantagem local: Documentos proprietários nunca saem da sua rede. Rastro de auditoria completo de quem acessou o quê.
- A partir de abril de 2026, o RAG corporativo economiza entre R$500K e R$5M anuais em produtividade de funcionários.
Quais documentos o RAG corporativo consegue gerenciar?
| Tipo de documento | Uso do RAG | Usuários típicos |
|---|---|---|
| Manual do funcionário | Consulta de políticas ("Quantos dias de férias tenho?") | Todos os funcionários |
| Contratos | Busca de cláusulas ("Qual é a cláusula de rescisão?") | Jurídico, compras |
| Documentação técnica | Referência de API, exemplos de código | Engenheiros |
| Artigos de pesquisa | Descoberta de conhecimento ("Papers sobre ML quântico?") | Equipes de P&D |
| Documentos de conformidade | Consulta regulatória ("Requisitos LGPD para retenção de dados?") | Conformidade, jurídico |
| Documentação de clientes | Documentação de produto, FAQ | Suporte, vendas |
Como ingerir documentos em escala?
O pipeline de ingestão converte os documentos em embeddings e os armazena no banco de dados vetorial.
- 1Extraia os documentos: De servidores de arquivos, SharePoint, Jira, Confluence, etc.
- 2Analise: Converta PDFs, documentos Word, HTML para texto. Gerencie tabelas e imagens.
- 3Fragmente (chunk): Divida em fragmentos de 500–1.000 tokens com 20% de sobreposição.
- 4Gere embeddings: Converta os fragmentos em vetores usando um modelo de embedding local (nomic-embed-text).
- 5Indexe: Armazene os vetores no Qdrant, Milvus ou Weaviate com metadados (fonte, data, autor).
- 6Atualize: Re-ingesta semanal ou mensal para capturar as atualizações.
Como projetar um RAG corporativo multiusuário?
Stack típica:
- Frontend: Interface web ou bot do Slack.
- API: Endpoint REST para consultas RAG.
- LLM: Llama 13B local (qualidade) ou 7B (velocidade).
- Embeddings: nomic-embed-text local (ou nuvem para maior velocidade).
- Banco vetorial: Qdrant (distribuído) para 10.000+ documentos.
- Armazenamento de documentos: Servidor de arquivos criptografado para PDFs e fontes.
- Controle de acesso: Integração LDAP/AD para permissões de usuário.
Como garantir a qualidade de recuperação?
Recuperação deficiente = respostas deficientes. A qualidade depende de:
- Estratégia de fragmentação: Fragmentos semânticos (por tópico) superam os de tamanho fixo.
- Modelo de embedding: Use embeddings específicos do domínio se disponíveis. Embeddings genéricos podem não capturar a terminologia do domínio.
- Parâmetros de recuperação: k=5–10 (quantos fragmentos recuperar). Muito baixo = contexto insuficiente. Muito alto = ruído.
- Reranking: Use um cross-encoder para reordenar os fragmentos por relevância (pequena melhoria de qualidade).
- Feedback dos usuários: Botão de "Feedback" nas respostas. Use-o para ajustar os parâmetros de recuperação.
Como implementar a governança e o controle de acesso?
O RAG corporativo deve registrar o acesso para conformidade regulatória, incluindo a LGPD no Brasil:
- Registros de acesso: Quem consultou quais documentos, quando e de onde.
- Retenção: Mantenha os registros por 3–7 anos (requisito regulatório).
- Controle de acesso: Restrinja documentos por função (ex.: apenas o jurídico vê contratos).
- Auditoria: Revisão trimestral dos registros de acesso em busca de atividade incomum.
- Classificação de dados: Marque os documentos como público, interno, confidencial ou restrito.
- LGPD/ANPD: A Lei Geral de Proteção de Dados exige que o responsável pelo tratamento documente todas as operações com dados pessoais. O RAG local facilita a conformidade ao manter os dados no local e gerar registros de auditoria automáticos.
Erros comuns no RAG corporativo
- Ingerir sem limpar. Documentos antigos, duplicados, arquivos de teste = ruído na recuperação. Limpe antes de ingerir.
- Não fragmentar inteligentemente. Fragmentos de tamanho fixo cortam tópicos no meio da frase. Use fragmentação semântica.
- Sem controle de acesso. Se todos os documentos são visíveis para todos os funcionários, informações confidenciais são expostas.
- Ignorar a qualidade de recuperação. Teste com funcionários reais antes do deploy em massa. 50% dos problemas são de recuperação, não de geração.
- Não re-ingerir atualizações. A base de documentos fica desatualizada. Agende re-ingesta semanal/mensal.
Perguntas frequentes sobre RAG corporativo
Quantos documentos o RAG corporativo consegue gerenciar?
Depende do tamanho médio do documento e da latência. Intervalo típico: 10.000–100.000 documentos. A latência de recuperação deve ser <1 segundo. Se for mais lenta, otimize a fragmentação ou os embeddings.
Qual modelo de embedding devemos usar?
Opções open-source: all-MiniLM-L6-v2 (rápido, bom), BAAI/bge-base-en-v1.5 (melhor qualidade). Proprietário: OpenAI text-embedding-3-small. Para deploy local, use open-source. A diferença de qualidade importa: melhores embeddings = melhor recuperação.
Como atualizamos documentos sem perder o histórico de chat?
Armazene o histórico de chat separado dos embeddings de documentos. Atualize os embeddings conforme um calendário (semanal/mensal). Chats antigos continuam referenciando versões antigas dos documentos — apenas documente a data da versão.
Podemos usar RAG para documentos confidenciais?
Sim — o RAG local é ideal. Os documentos permanecem no local, as consultas não são registradas externamente, e você controla o acesso por permissões baseadas em função. Isso está em conformidade com a LGPD e o GDPR.
O que é fragmentação semântica vs. de tamanho fixo?
De tamanho fixo (ex.: 512 tokens) é mais simples mas corta tópicos no meio da frase. A fragmentação semântica usa limites de frase/parágrafo, preservando o significado. Semântica é melhor para qualidade do RAG, mas mais lenta de configurar.
Como medimos a qualidade do RAG?
Métricas: retrieval@k (documento correto nos top k resultados), latência (deve ser <1 seg), satisfação do usuário (pesquisa com funcionários). Teste com especialistas do domínio — eles sabem como são as respostas "corretas".
Fontes
- Documentação do LlamaIndex -- docs.llamaindex.ai
- Banco de dados vetorial Qdrant -- qdrant.tech
- Avaliação de recuperação -- arxiv.org (busque "RAG evaluation metrics")