Points clés
- RAG d'entreprise = base de connaissances interne. Téléchargez tous les documents d'entreprise, laissez les employés poser des questions.
- Cas d'usage : Lookup de politique, Q&A sur contrats, découverte de recherche, intégration, formation conformité.
- Échelle : 10 000–100 000 documents, 100–500 utilisateurs simultanés, <2 sec latence.
- Avantage local : Les documents propriétaires ne quittent jamais votre réseau. Piste d'audit complète de qui a accédé à quoi.
- En avril 2026, la RAG d'entreprise économise aux entreprises 500T–5M EUR annuellement en productivité des employés.
Quels documents la RAG d'entreprise peut-elle traiter ?
| Type de document | Utilisation RAG | Utilisateurs typiques |
|---|---|---|
| Manuel des employés | Lookup de politique (« Combien de congés ai-je ? ») | Tous les employés |
| Contrats | Recherche de clause (« Quelle est la clause de résiliation ? ») | Juridique, approvisionnement |
| Documentation technique | Référence API, exemples de code | Ingénieurs |
| Articles de recherche | Découverte de connaissances (« Articles sur ML quantique ? ») | Équipes R&D |
| Documents de conformité | Lookup réglementaire (« Exigences RGPD pour la conservation des données ? ») | Conformité, juridique |
| Documentation client | Documentation produit, FAQ | Support, ventes |
Comment ingérer des documents à l'échelle ?
Pipeline d'ingestion convertit les documents en embeddings et les stocke dans une base de données vectorielle.
- 1Extraire les documents : Depuis serveurs de fichiers, SharePoint, Jira, Confluence, etc.
- 2Analyser : Convertir PDFs, documents Word, HTML en texte. Gérer les tableaux, images.
- 3Découper : Diviser en chunks 500–1 000 tokens avec 20% chevauchement.
- 4Incorporer : Convertir chunks en vecteurs avec modèle embedding local (nomic-embed-text).
- 5Indexer : Stocker vecteurs dans Qdrant, Milvus ou Weaviate avec métadonnées (source, date, auteur).
- 6Actualiser : Réingestion hebdomadaire ou mensuelle pour capturer les mises à jour.
Comment concevoir une RAG multi-utilisateurs d'entreprise ?
Pile typique :
- Frontend : Interface web ou bot Slack.
- API : Endpoint REST pour requêtes RAG.
- LLM : Llama 13B local (qualité) ou 7B (vitesse).
- Embeddings : nomic-embed-text local (ou cloud pour vitesse).
- Base vectorielle : Qdrant (distribuée) pour 10 000+ documents.
- Stockage documentaire : Serveur de fichiers chiffré pour PDFs et sources.
- Contrôle d'accès : Intégration LDAP/AD pour permissions utilisateurs.
Comment assurer la qualité de la récupération ?
Mauvaise récupération = mauvaises réponses. La qualité dépend de :
- Stratégie de découpage : Chunks sémantiques (par sujet) surpassent chunks de taille fixe.
- Modèle d'embedding : Utilisez embeddings spécifiques au domaine si disponibles. Les embeddings génériques peuvent manquer la terminologie domaine.
- Paramètres de récupération : k=5–10 (combien de chunks récupérer). Trop bas = contexte manquant. Trop haut = bruit.
- Reclassement : Utilisez cross-encoder pour reclasser chunks par pertinence (petit gain de qualité).
- Retours utilisateurs : Bouton « Feedback » sur réponses. Utilisez pour ajuster paramètres récupération.
Comment implémenter la gouvernance et le contrôle d'accès ?
La RAG d'entreprise doit tracker l'accès pour conformité. La CNIL recommande l'IA locale pour les données sensibles professionnelles (données financières, médicales, juridiques).
- Journaux d'accès : Qui a interrogé quels documents, quand, depuis où.
- Rétention : Conservez journaux 3–7 ans (obligation réglementaire).
- Contrôle d'accès : Restreindre documents par rôle (ex., seul juridique voit contrats).
- Audit : Examen trimestriel journaux d'accès pour activité inhabituelle.
- Classification données : Marquer documents comme public, interne, confidentiel, restreint.
Erreurs courantes en RAG d'entreprise
- Ingestion sans nettoyage. Anciens documents, doublons, fichiers test = bruit récupération. Nettoyer avant ingestion.
- Découpage non intelligent. Chunks taille fixe coupent sujets mi-phrase. Utiliser découpage sémantique.
- Pas de contrôle d'accès. Si tous documents visibles à tous employés, fuites info confidentielle.
- Ignorer qualité récupération. Tester avec vrais employés avant large déploiement. 50% problèmes = récupération, pas génération.
- Pas de réingestion mises à jour. Base documentaire devient obsolète. Planifier réingestion hebdomadaire/mensuelle.
Questions courantes sur la RAG d'entreprise ?
Combien de documents la RAG d'entreprise peut-elle traiter ?
Dépend taille document moyen et latence. Plage typique : 10 000–100 000 documents. Latence récupération doit être <1 seconde. Si plus lent, optimiser découpage ou embeddings. Tester avec vos documents réels.
Quel modèle d'embedding devrions-nous utiliser ?
Options open-source : all-MiniLM-L6-v2 (rapide, bon), BAAI/bge-base-en-v1.5 (meilleure qualité). Propriétaire : OpenAI text-embedding-3-small. Pour déploiement local, utiliser open-source. Différences qualité importent : meilleurs embeddings = meilleure récupération.
Comment mettre à jour documents sans perdre historique chat ?
Stocker historique chat séparé des embeddings documents. Mettre à jour embeddings selon horaire (hebdomadaire/mensuel). Anciens chats référencent encore anciennes versions documents, ce qui va bien -- documentez juste la date version.
Pouvons-nous utiliser RAG pour documents confidentiels ?
Oui -- RAG locale est idéale. Documents restent sur site, requêtes non enregistrées externement, contrôlez accès via permissions basées rôles. Cela satisfait HIPAA et RGPD.
Qu'est-ce que découpage sémantique vs. taille fixe ?
Taille fixe (ex., 512 tokens) plus simple mais coupe sujets mi-phrase. Découpage sémantique utilise limites phrase/paragraphe, préserve sens. Sémantique mieux pour qualité RAG mais plus lent à configurer.
Sources
- Documentation LlamaIndex -- docs.llamaindex.ai
- Base de données vectorielle Qdrant -- qdrant.tech
- Évaluation récupération -- arxiv.org (chercher « RAG evaluation metrics »)