Key Takeaways
- RAG corporativo = base de conocimiento interna. Sube todos los documentos corporativos y deja que los empleados hagan preguntas.
- Casos de uso: Consulta de políticas, Q&A de contratos, descubrimiento de investigación, onboarding, formación en cumplimiento.
- Escala: 10.000-100.000 documentos, 100-500 usuarios concurrentes, <2 seg de latencia.
- Ventaja local: Los documentos propietarios nunca salen de tu red. Traza de auditoría completa de quién accedió a qué.
- A partir de abril de 2026, el RAG corporativo ahorra a las empresas entre $500k y $5M anuales en productividad de empleados.
¿Qué documentos puede gestionar el RAG corporativo?
| Tipo de documento | Uso de RAG | Usuarios típicos |
|---|---|---|
| Manual del empleado | Consulta de políticas ("¿Cuántos días de vacaciones tengo?") | Todos los empleados |
| Contratos | Búsqueda de cláusulas ("¿Cuál es la cláusula de rescisión?") | Legal, compras |
| Documentación técnica | Referencia de API, ejemplos de código | Ingenieros |
| Artículos de investigación | Descubrimiento de conocimiento ("¿Papers sobre ML cuántico?") | Equipos de I+D |
| Documentos de cumplimiento | Consulta regulatoria ("¿Requisitos GDPR para retención de datos?") | Cumplimiento, legal |
| Documentación de clientes | Documentación de producto, FAQ | Soporte, ventas |
¿Cómo ingestas documentos a escala?
El pipeline de ingesta convierte los documentos en embeddings y los almacena en la base de datos vectorial.
- 1Extrae los documentos: Desde servidores de archivos, SharePoint, Jira, Confluence, etc.
- 2Parsea: Convierte PDFs, documentos Word, HTML a texto. Gestiona tablas e imágenes.
- 3Fragmenta (chunk): Divide en fragmentos de 500-1.000 tokens con un 20% de solapamiento.
- 4Embebe: Convierte los fragmentos en vectores usando un modelo de embedding local (nomic-embed-text).
- 5Indexa: Almacena los vectores en Qdrant, Milvus o Weaviate con metadatos (fuente, fecha, autor).
- 6Actualiza: Re-ingesta semanal o mensual para capturar las actualizaciones.
¿Cómo diseñas un RAG corporativo multiusuario?
Stack típico:
- Frontend: Interfaz web o bot de Slack.
- API: Endpoint REST para consultas RAG.
- LLM: Llama 13B local (calidad) o 7B (velocidad).
- Embeddings: nomic-embed-text local (o cloud para mayor velocidad).
- Base vectorial: Qdrant (distribuido) para 10.000+ documentos.
- Almacenamiento de documentos: Servidor de archivos cifrado para PDFs y fuentes.
- Control de acceso: Integración LDAP/AD para permisos de usuario.
¿Cómo garantizas la calidad de recuperación?
Recuperación deficiente = respuestas deficientes. La calidad depende de:
- Estrategia de fragmentación: Los fragmentos semánticos (por tema) superan a los de tamaño fijo.
- Modelo de embedding: Usa embeddings específicos del dominio si están disponibles. Los embeddings genéricos pueden no capturar la terminología del dominio.
- Parámetros de recuperación: k=5-10 (cuántos fragmentos recuperar). Demasiado bajo = contexto insuficiente. Demasiado alto = ruido.
- Reranking: Usa un cross-encoder para reordenar los fragmentos por relevancia (pequeña mejora de calidad).
- Feedback de usuarios: Botón de "Feedback" en las respuestas. Úsalo para ajustar los parámetros de recuperación.
¿Cómo implementas la gobernanza y el control de acceso?
El RAG corporativo debe registrar el acceso para cumplir con la normativa:
- Registros de acceso: Quién consultó qué documentos, cuándo y desde dónde.
- Retención: Conserva los registros durante 3-7 años (requisito regulatorio).
- Control de acceso: Restringe los documentos por rol (p.ej., solo legal ve los contratos).
- Auditoría: Revisión trimestral de los registros de acceso en busca de actividad inusual.
- Clasificación de datos: Marca los documentos como público, interno, confidencial o restringido.
Errores comunes en el RAG corporativo
- Ingestar sin limpiar. Documentos antiguos, duplicados, archivos de prueba = ruido en la recuperación. Limpia antes de ingestar.
- No fragmentar inteligentemente. Los fragmentos de tamaño fijo cortan temas a mitad de frase. Usa fragmentación semántica.
- Sin control de acceso. Si todos los documentos son visibles para todos los empleados, la información confidencial se filtra.
- Ignorar la calidad de recuperación. Prueba con empleados reales antes del despliegue masivo. El 50% de los problemas son de recuperación, no de generación.
- No re-ingestar actualizaciones. La base de documentos queda obsoleta. Programa una re-ingesta semanal/mensual.
¿Cuáles son las preguntas frecuentes sobre el RAG corporativo?
¿Cuántos documentos puede gestionar el RAG corporativo?
Depende del tamaño medio del documento y la latencia. Rango típico: 10.000-100.000 documentos. La latencia de recuperación debe ser <1 segundo. Si es más lenta, optimiza la fragmentación o los embeddings. Prueba con tu conjunto de documentos real.
¿Qué modelo de embedding debemos usar?
Opciones open-source: all-MiniLM-L6-v2 (rápido, bueno), BAAI/bge-base-en-v1.5 (mejor calidad). Propietario: OpenAI text-embedding-3-small. Para despliegue local, usa open-source. La diferencia de calidad importa: mejores embeddings = mejor recuperación.
¿Cómo actualizamos documentos sin perder el historial de chat?
Almacena el historial de chat separado de los embeddings de documentos. Actualiza los embeddings según un calendario (semanal/mensual). Los chats antiguos siguen referenciando versiones antiguas de los documentos, lo cual está bien — solo documenta la fecha de versión.
¿Podemos usar RAG para documentos confidenciales?
Sí — el RAG local es ideal. Los documentos permanecen en las instalaciones, las consultas no se registran externamente, y tú controlas el acceso mediante permisos basados en roles. Esto cumple con HIPAA y GDPR.
¿Qué es la fragmentación semántica frente a la de tamaño fijo?
La de tamaño fijo (p.ej., 512 tokens) es más sencilla pero corta temas a mitad de frase. La fragmentación semántica usa límites de frase/párrafo, preservando el significado. La semántica es mejor para la calidad del RAG, pero más lenta de configurar.
¿Cómo medimos la calidad del RAG?
Métricas: retrieval@k (documento correcto en los top k resultados), latencia (debe ser <1 seg), satisfacción del usuario (encuesta a empleados). Prueba con expertos del dominio — ellos saben cómo son las respuestas "correctas".
Fuentes
- Documentación de LlamaIndex -- docs.llamaindex.ai
- Base de datos vectorial Qdrant -- qdrant.tech
- Evaluación de recuperación -- arxiv.org (busca "RAG evaluation metrics")