PromptQuorumPromptQuorum
Accueil/Power Local LLM/Construire un RAG local sur vos PDFs en 30 minutes (Ollama + AnythingLLM)
RAG & Document Chat

Construire un RAG local sur vos PDFs en 30 minutes (Ollama + AnythingLLM)

·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Installez Ollama, téléchargez Llama 3.3 8B, installez AnythingLLM, connectez-le à Ollama, changez le modèle d'embedding en nomic-embed-text, glissez vos PDFs dans un espace de travail et posez des questions. Sur un portable 16 Go, le processus complet prend 30 minutes — la plupart étant le téléchargement du modèle.

Un guide complet pour le chemin le plus rapide vers un système RAG personnel fonctionnel sur un portable 16 Go. Stack: Ollama, Llama 3.3 8B, AnythingLLM, nomic-embed-text. Durée totale: 30 minutes de l'ordinateur vierge au chat avec vos propres PDFs.

Points clés

  • Stack: Ollama exécute le LLM, AnythingLLM gère l'interface + magasin vectoriel, Llama 3.3 8B Q4_K_M répond, nomic-embed-text-v1.5 récupère.
  • Temps: 30 minutes total. L'étape la plus longue est le téléchargement du modèle (~8 min à 50 Mbps).
  • Matériel: 16 Go RAM est le minimum pratique. 8 Go fonctionne uniquement avec Phi-4 Mini et petits ensembles de documents.
  • Confidentialité: Après installation, rien ne quitte votre machine. PDFs, embeddings, prompts et sorties restent locaux.
  • Pas de code: Zéro Python, zéro terminal sauf deux commandes Ollama. AnythingLLM est une app de bureau avec import par glisser-déposer.
  • L'embedder par défaut est mauvais: AnythingLLM inclut un minuscule embedder par défaut. Passez à nomic-embed-text-v1.5 à l'étape 4 — la qualité de récupération s'améliore sensiblement.
  • La taille de chunk par défaut aussi: 1000-token chunks avec 200-token chevauchement est mieux que le défaut 512/0. Réglé à l'étape 7.

Ce que vous construirez

Un système RAG autonome: une fenêtre de chat où vous glissez des PDFs et posez des questions. Quatre composants open source, tous gratuits, tous sur votre portable:

📍 En une phrase

Un système RAG local est quatre pièces — un runtime (Ollama), un modèle réponse (Llama 3.3 8B), une interface plus magasin vectoriel (AnythingLLM) et un modèle d'embedding (nomic-embed-text-v1.5) — connectés sur une machine sans appels cloud.

💬 En termes simples

Glissez un PDF, posez une question, obtenez une réponse fondée avec citations — entièrement hors ligne. Les quatre pièces se partagent le travail: Ollama exécute les modèles, Llama 3.3 8B écrit la réponse, AnythingLLM gère les chunks et vecteurs, nomic-embed-text-v1.5 transforme le texte en vecteurs qui rendent la récupération possible. Installation totale: ~30 minutes; coût total: 0 €.

  • Ollama — runtime LLM local. Gère les fichiers modèles, expose une API compatible OpenAI sur localhost:11434. Fournit le modèle réponse.
  • Llama 3.3 8B Instruct (Q4_K_M) — modèle chat 8B de Meta, quantisé pour tenir en ~5 Go RAM. Bonne qualité de réponse pour questions basées sur documents.
  • AnythingLLM Desktop — l'interface + magasin vectoriel + orchestration RAG. Inclut LanceDB intégré, analyse les PDFs/DOCX/TXT/MD nativement, communique avec Ollama.
  • nomic-embed-text-v1.5 — modèle d'embedding. Vecteurs 768-dim, s'exécute via Ollama à ~600 chunks/sec sur CPU moderne. Remplace l'embedder faible par défaut.

📌Note: AnythingLLM a aussi un LLM par défaut intégré et un embedder par défaut. Tous deux sont intentionnellement minuscules pour que l'app démarre rapidement sur matériel faible. Nous les remplaçons aux étapes 4 et 6 parce que la qualité de récupération est tout le jeu dans un système RAG.

Ce dont vous avez besoin avant de commencer

Un portable avec 16 Go RAM, 20 Go disque libre, connexion internet et 30 minutes. Le système d'exploitation peut être macOS 12+, Windows 10/11 ou Linux de bureau moderne.

  • RAM: 16 Go est le minimum pratique pour Llama 3.3 8B Q4 + AnythingLLM + vos apps habituelles. 8 Go fonctionne avec Phi-4 Mini Q4 — voir alternatives étape 2.
  • Disque: 20 Go libre. Llama 3.3 8B Q4_K_M est ~5 Go, embedder ~280 Mo, AnythingLLM ~600 Mo, plus espace pour embeddings (~10–30 Mo par 100 pages PDF).
  • Réseau: ~50 Mbps minimum pour téléchargement modèle. À 25 Mbps, l'étape prend ~16 min; reste du tutoriel inaffecté.
  • Permissions: Aucun admin/root requis pour AnythingLLM. Ollama installe à /usr/local/bin sur macOS/Linux (demande mot de passe une fois) ou %LOCALAPPDATA% sur Windows (sans admin).
  • Documents prêts: 5–20 PDFs pour commencer. Plus grand fonctionne, mais petit ensemble plus rapide pour tester la qualité.

Étape 1: Installer Ollama (3 min)

**Téléchargez l'installeur Ollama pour votre OS depuis ollama.com/download et exécutez-le. L'installeur ajoute la CLI ollama à PATH et démarre un service de fond.** Aucun choix de configuration.

  • macOS: téléchargez le .dmg, glissez Ollama dans Applications, lancez une fois pour installer le helper CLI. La barre de menu affiche l'icône lama quand le service tourne.
  • Windows: téléchargez l'.exe, exécutez-le, acceptez les défauts. Ollama s'exécute en service de fond après installation — aucun lancement séparé requis.
  • Linux: installation une ligne: curl -fsSL https://ollama.com/install.sh | sh. Le script enregistre une unité systemd; démarrez avec sudo systemctl start ollama.
  • Vérifier: ouvrez un terminal et exécutez ollama --version. Vous devriez voir une version. Si commande non trouvée, redémarrez terminal pour PATH mis à jour.
bash
ollama --version
# ollama version is 0.5.x  (any 0.5+ build works for this tutorial)

⚠️Warning: Si ollama --version fonctionne mais étapes ultérieures échouent avec "connexion refusée sur localhost:11434", le service de fond n'a pas démarré auto. macOS: lancez l'app depuis Applications. Linux: sudo systemctl start ollama. Windows: ouvrez l'icône plateau Ollama.

Étape 2: Télécharger Llama 3.3 8B (8 min)

**Exécutez ollama pull llama3.3:8b-instruct-q4_K_M dans un terminal. Cela télécharge la 4,9 Go quantisée GGUF et l'enregistre auprès d'Ollama.** La plupart du total 30 min est cette étape seule.

  • Taille téléchargement: ~4,9 Go (quantization Q4_K_M). À 50 Mbps vous attendrez ~8 min; à 100 Mbps ~4 min; à 25 Mbps ~16 min.
  • Regarder progression: Ollama affiche pourcentage et débit. Le téléchargement reprend s'il est interrompu — réexécutez la même commande.
  • Test rapide du modèle: après téléchargement, exécutez ollama run llama3.3:8b-instruct-q4_K_M et demandez "Qu'est-ce que 2+2?". Confirmez bonne réponse. Tapez /bye pour quitter.
  • Alternative moins RAM: si vous avez 8 Go au lieu de 16 Go, exécutez ollama pull phi3:mini (Phi-4 Mini, ~2,4 Go disque). Utilisez ce nom modèle à la place à l'étape 3.
bash
# Recommandé pour 16 GB RAM
ollama pull llama3.3:8b-instruct-q4_K_M

# Alternative pour 8 GB RAM
ollama pull phi3:mini

# Test rapide (tapez /bye pour quitter)
ollama run llama3.3:8b-instruct-q4_K_M

💡Tip: Vous avez déjà d'autres modèles Ollama? ollama list les affiche tous. Vous pouvez garder plusieurs modèles installés et basculer entre eux dans les paramètres espace de travail AnythingLLM.

Étape 3: Installer AnythingLLM Desktop (4 min)

Téléchargez AnythingLLM Desktop depuis useanything.com (ou anythingllm.com) et exécutez l'installeur. Lancez l'app et ignorez "créer compte cloud" — le mode local-seulement est proposé après. Installation sans surveillance.

  • macOS: téléchargez le .dmg, glissez AnythingLLM dans Applications, lancez. macOS peut vous demander de confirmer app d'éditeur connu; cliquez "Ouvrir" dans Paramètres système → Confidentialité si demandé.
  • Windows: téléchargez installeur .exe. Windows SmartScreen peut le signaler "non couramment téléchargé" — cliquez "Plus d'infos" → "Exécuter quand même". L'app installe à %LOCALAPPDATA%\anythingllm-desktop (pas admin).
  • Linux: téléchargez .AppImage, marquez exécutable (chmod +x AnythingLLMDesktop.AppImage), double-clic pour exécuter.
  • Première exécution: AnythingLLM propose espace de travail cloud hébergé OU configuration locale-seulement. Choisissez Configuration locale. C'est le choix qui garde le système hors ligne.
  • Création espace de travail: quand invité, nommez votre premier espace de travail de façon descriptive ("articles-recherche", "contrats", "notes-perso"). Chaque espace a sa propre collection et magasin d'embeddings.

⚠️Warning: Le LLM par défaut d'AnythingLLM est un minuscule modèle intégré prévu seulement pour la démo de bienvenue. Nous le pointons vers votre Ollama local à l'étape suivante. N'utilisez pas le défaut pour vraies requêtes — les réponses seront inutilisablement faibles.

Étape 4: Connecter AnythingLLM à Ollama et changer l'embedder (3 min)

**Ouvrez Paramètres AnythingLLM → Préférence LLM. Choisissez "Ollama" comme fournisseur, définissez URL à http://127.0.0.1:11434 et sélectionnez llama3.3:8b-instruct-q4_K_M du menu déroulant. Sauvegardez. Puis allez à Préférence embedding et passez du défaut à nomic-embed-text via Ollama.**

  • Panneau Préférence LLM: Fournisseur = Ollama, Point d'entrée = http://127.0.0.1:11434, Modèle = llama3.3:8b-instruct-q4_K_M. Cliquez "Sauvegarder modifications". Une coche verte confirme la connexion.
  • Panneau Préférence embedding: le défaut est "AnythingLLM Native Embedder" — un minuscule intégré. Changez Fournisseur à Ollama, exécutez ollama pull nomic-embed-text dans terminal d'abord (~280 Mo), puis actualisez liste modèle dans panneau et sélectionnez nomic-embed-text:latest. Sauvegardez.
  • Avertissement re-embedding: si vous avez déjà ajouté documents sous ancien embedder, AnythingLLM vous invitera à les re-embedder. Sur installation vierge, pas de documents donc pas d'invite.
  • BD vecteur: laissez au défaut (LanceDB). Elle est locale, fichier-sauvegardée, zéro config. Changez seulement si vous avez besoin spécifiquement PGVector ou Qdrant.
bash
# Exécutez ceci dans terminal avant ouvrir panneau Préférence embedding
ollama pull nomic-embed-text

💡Tip: Pourquoi nomic-embed-text-v1.5 spécifiquement? En mai 2026, il score dans top 5 du classement MTEB Retrieval pour tout modèle sous 500 Mo, tourne à 400–800 chunks/sec sur CPU moderne et 2000+ chunks/sec sur Apple Silicon, Apache 2.0 licencié. C'est l'upgrade première-standard pour presque tout stack RAG local — voir le comparaison modèles embedding pour alternatives.

Étape 5: Charger vos premiers PDFs (5 min)

Ouvrez votre espace de travail, cliquez "Charger documents" et glissez 5–20 PDFs. AnythingLLM extrait texte, le divise en chunks (défaut 512 tokens, 0 chevauchement), embedde chaque chunk via Ollama et stocke vecteurs dans LanceDB. Une barre de progression montre pages analysées et chunks embeddés.

  • Formats supportés: PDF (textuel), DOCX, TXT, MD, EPUB, plus scraping URL. PDFs image-scannée besoin OCR d'abord — voir section dépannage.
  • Vitesse: 400–800 chunks/sec sur CPU moderne et 2000+ chunks/sec sur Apple Silicon une fois Ollama chaud. Un ensemble 20-PDF avec ~50 pages chaque (~3000 chunks total) finit en 5–8 sec temps embedding sur CPU moderne, 1–2 sec sur Apple Silicon, plus temps parsing. Compter ~5 min total charger, analyser et embedder 20 PDFs.
  • RAM pendant embedding: Ollama charge le modèle embedding (~280 Mo) sur première requête et le cache. Embeddings suivants réutilisent le cache.
  • "Déplacer vers espace de travail": après upload, AnythingLLM place documents dans pool "limbe". Vous devez explicitement cliquer "Déplacer vers espace de travail" → "Sauvegarder et embedder" pour les rendre interrogeables. Ce flux deux-étapes est intentionnel — ça vous laisse prévisualiser avant coût embedding.

⚠️Warning: PDFs d'anciens scans OCR contiennent souvent texte garbled ou vides — le fichier semble bon pour yeux humains mais AnythingLLM extrait "[image]" ou strings vides. Ouvrez le PDF dans éditeur texte (ou exécutez pdftotext file.pdf - de poppler-utils) pour confirmer couche texte existe avant upload.

Étape 6: Tester les requêtes (5 min)

Tapez une question dans le chat d'espace de travail. AnythingLLM embedde la question, récupère top-N chunks de LanceDB, construit prompt avec chunks comme contexte, envoie à Ollama et affiche réponse. Latence sur portable 16 Go est ~3–10 sec par requête.

  • Commencez avec requête fact-recall: "Que signifie [terme spécifique d'un de vos PDFs]?" — teste fondement récupération. Réponse devrait citer le PDF et guillemeter la phrasing exacte.
  • Puis requête synthèse: "Résumez l'argument principal de [auteur/titre document]." — teste comment bien modèle intègre chunks multiples.
  • Puis requête comparaison (seulement si PDFs contiennent contenu comparable): "Comparez comment [doc A] et [doc B] traitent [sujet]." — teste récupération cross-document.
  • Inspecter citations: AnythingLLM affiche chunks source sous chaque réponse. Cliquez-les pour vérifier modèle fonde sur passages droits. Si citations hors-sujet, récupération est cassée — voir étape 7.

Étape 7: Ajuster la taille des chunks (2 min)

Ouvrez Paramètres espace de travail → Base de données vectorielle. Changez taille chunk de 512 à 1000 et chevauchement chunk de 0 à 200. Cliquez Sauvegarder, puis re-embedde vos documents (l'interface invite). C'est le seul plus grand levier qualité récupération dans AnythingLLM.

  • Pourquoi 1000/200 au lieu 512/0: Paragraphes PDF et sections s'ajustent rarement proprement en 512 tokens. Le chevauchement 200-token signifie phrase qui croise limite chunk apparaît quand-même entière dans au moins un voisin, donc récupération la saisit.
  • Coût re-embedding: l'ensemble 20-PDF / 3000-chunk re-embedde en ~5 sec. Ensembles plus grands prennent proportionnellement plus longtemps. Chunk store est surécrit, pas appendé.
  • Récupération top-K: le top-K défaut est 4 (les 4 chunks meilleures-correspondance deviennent contexte). Augmentez à 6–8 si vos réponses semblent peu fondées; baissez à 2–3 si modèle se distrait par chunks bruyants.
  • Template de prompt: AnythingLLM expose le systemprompt sous Espace de travail → Paramètres chat → Prompt. Le défaut va bien; ajustez seulement si vous avez mode défaut spécifique.

💡Tip: Réglage empirique bat théorie: posez mêmes 5 requêtes test avant et après changement taille chunk, comparez. Si récupération à 1000/200 pire, vous avez probablement documents très courts (memos une-page, docstrings code) — essayez 256/64 à la place.

À quoi les réponses devraient ressembler?

Un système RAG local correctement réglé répond requêtes fact-recall mot-pour-mot de la source, synthétise quand invité et cite les chunks qu'il utilise. Trois exemples sur espace de travail articles-recherche avec quoi un système sain retourne:

📍 En une phrase

Une réponse RAG local saine cite le chunk source mot-pour-mot pour fait-recall, synthétise cross-chunk pour questions résumé et cite les IDs chunk spécifiques qu'il utilise — réponses génériques sans guillemets signalent problème récupération, pas problème modèle.

💬 En termes simples

Si réponse lit comme "typiquement chercheurs utilisent 100-500 participants" au lieu "Smith et al. utilisaient 287 participants (Méthodes, p.4)", la récupération est cassée et modèle invente à partir données entraînement. Réparez récupération d'abord (taille chunk, embedder, seuil similarité) avant de changer le modèle réponse.

Type requêteExemplePattern réponse sainePattern défaillance
Fait-recallQuelle taille d'échantillon Smith et al. 2024 ont utilisé?Citation directe section méthodes + citation au chunkRéponse générique ("typiquement chercheurs utilisent 100–500 participants") sans citation
SynthèseRésumez la contribution principale de cet article.3–5 phrases tirant des chunks abstract + conclusionReprend le titre ou cite une phrase de l'abstract
Cross-documentComment Smith et Jones se désaccordent sur chevauchement chunk?Citations des deux articles avec attribution expliciteCite seulement un article, ou invente désaccord pas dans chunks

💡Tip: Utilisez ces trois patterns requête comme votre test-set après chaque changement config récupération. Si fact-recall encore rate mais synthèse marche, chunks trop grossiers. Si synthèse rate mais fact-recall marche, top-k trop bas. Le pattern échoue dit quel bouton tourner.

Quand quelque chose casse: Six modes défaillance courants et fixes

La plupart défaillances tombent dans une de six catégories. Associez symptôme à la ligne, appliquez le fix.

SymptômeCause probableFix
AnythingLLM affiche "Ne peut pas se connecter à Ollama"Service Ollama pas en cours, ou endpoint incorrectExécutez ollama serve (ou redémarrez l'app/service). Confirmez endpoint est http://127.0.0.1:11434 pas localhost:11434 sur Windows où alias échoue parfois.
Téléchargement modèle bloque à 0% ou 99%Problème CDN edge ou disque pleinAnnulez avec Ctrl+C, exécutez df -h pour confirmer espace disque, puis réexécutez même ollama pull — Ollama reprend depuis dernier octet.
Étape embedding semble faire suspendreOllama charge modèle embedding pour première foisAttendez 30–60 secondes. Chargement première-fois modèle prend 10–40 secondes selon vitesse disque. Embeddings suivants sont rapides.
Récupération retourne chunks non-relatifs à requêteChunking 512/0 par défaut + embedder faible par défautConfirmez étape 4 (nomic-embed-text) et étape 7 (chunking 1000/200) furent appliquées. Re-embedde l'espace de travail.
Réponses sont courtes, génériques, ou refusent engager sourceMauvais LLM toujours sélectionné (minuscule défaut) ou contexte trop petitConfirmez préférence LLM affiche llama3.3:8b-instruct-q4_K_M. Augmentez top-K de 4 à 6.
PDFs image-scannée upload mais produisent chunks videsPas de couche texte dans PDF — pure image rasterOCR le PDF d'abord. macOS: ocrmypdf input.pdf output.pdf. Linux/Windows: installez Tesseract + ocrmypdf. Puis re-uploadez output OCR'd.

Considérations pour les utilisateurs francophones

Un système RAG local comme celui-ci répond à exigences de confidentialité et sécurité clés pour la France, la Belgique et la Suisse. Contrairement solutions RAG cloud qui envoient données à fournisseurs externes, tout reste sur votre machine.

  • CNIL et données sensibles: La CNIL recommande l'IA locale pour données professionnelles sensibles (finance, santé, droit, RH). Un système RAG local qui jamais ne quitte votre serveur satisfait cette recommandation directement.
  • RGPD Article 32 (Sécurité du traitement): Infra locale avec composants open source (Ollama, AnythingLLM) satisfait exigences sécurité RGPD. Vous contrôlez où données coulent, quels modèles exécutent, comment stockage est chiffré.
  • Utilisation pour secteurs régulés: Organisations françaises, belges, suisses dans finance, services publics, éducation, santé gagnent de RAG local — zéro dépendance API cloud, zéro flux données transatlantique. Installation immédiate productive: déployez sur serveur local ou portable, connectez vos documents.

FAQ

Que faire si Ollama ne s'installe pas?

Sur macOS, l'erreur la plus commune est Gatekeeper bloquant un helper non-signé — ouvrez Paramètres système → Confidentialité & Sécurité et cliquez "Ouvrir quand même". Sur Windows, Defender SmartScreen peut mettre en quarantaine l'installeur; clic-droit → Propriétés → Débloquer. Sur Linux, le script d'install a besoin sudo pour écrire l'unité systemd; si sudo indisponible, téléchargez la binaire statique depuis github.com/ollama/ollama/releases et placez-la sur PATH manuellement.

Pourquoi l'étape embedding est lente?

Le premier embed d'une session est lent parce que Ollama lazy-charge le modèle embedding dans RAM (10–40 secondes selon vitesse disque). Après, embedding tourne à 400–800 chunks par seconde sur CPU moderne et 2000+ chunks par seconde sur Apple Silicon. Si débit soutenu est sous 100 chunks par seconde, le modèle tourne probablement sur swap-disque — fermez autres apps pour libérer RAM et réessayez.

Combien de PDFs puis-je charger à la fois?

AnythingLLM accepte centaines de fichiers en un seul glissez-déposez. La limite pratique est RAM pendant étape parse: ~1 Go peak pour 100 PDFs taille-moyenne (50 pages chaque). Une fois embeddés, le magasin vectoriel on-disk est petit (~10–30 Mo par 100 pages PDF). Pour 1000+ PDFs, voir guide dédié Discuter avec 1000 PDFs localement.

Puis-je utiliser ceci pour PDFs protégés par mot de passe?

AnythingLLM ne peut pas déchiffrer directement PDFs protégés. Déchiffrez d'abord avec qpdf --password=VOTREMOTDEPASSE --decrypt input.pdf output.pdf (qpdf gratuit, disponible tous trois OSes), puis chargez output non-protégé. Supprimez copie non-protégée après embedding si votre threat-model l'exige — les embeddings eux-mêmes ne sont pas lisibles-humain.

Que faire si ma récupération retourne mauvais chunks?

Trois boutons dans ordre d'impact: passez de embedder par défaut à nomic-embed-text (étape 4), changez chunking de 512/0 à 1000/200 et re-embedde (étape 7), et augmentez top-K de 4 à 6 dans paramètres espace de travail. Si récupération toujours mauvaise après tout trois, vos documents peuvent avoir besoin pré-traitement — enlevez en-têtes/pieds, normalisez whitespace ou divisez très longs PDFs en fichiers per-chapitre.

Devrais-je utiliser un modèle différent de Llama 3.3 8B?

Llama 3.3 8B Q4_K_M est le meilleur tradeoff qualité-par-RAM 2026 pour systèmes 16 Go. Sur 8 Go RAM, utilisez Phi-4 Mini Q4_K_M (~2,4 Go). Sur 24 Go+, essayez Qwen 2.5 14B Q4 pour synthèse notablement meilleure sur longs documents. Pour charges-travail multilingues, Mistral Nemo 12B traite mieux non-English que Llama 3.3.

Comment mets-à-jour le modèle après?

Exécutez ollama pull llama3.3:8b-instruct-q4_K_M à nouveau pour obtenir latest build, puis redémarrez AnythingLLM pour qu'il re-détecte la version modèle. Pour basculer à modèle différent entièrement, exécutez ollama pull <nouveau-modèle> puis changez menu-déroulant Préférence LLM dans paramètres AnythingLLM — aucun re-embedding requis parce que embeddings dépendent seulement d'embedder, pas du modèle réponse.

Puis-je déplacer ceci à un ordinateur différent?

Oui. Modèles Ollama vivent dans ~/.ollama/models (macOS/Linux) ou %USERPROFILE%\.ollama\models (Windows) — copiez le dossier. Espaces de travail AnythingLLM vivent dans ~/.anythingllm/storage — copiez aussi. Sur la nouvelle machine, installez Ollama et AnythingLLM Desktop, puis déposez les dossiers copiés à la place. Espaces de travail et embeddings remontent identiquement.

Cela fonctionne si mes PDFs sont images scannées?

Pas directement — AnythingLLM extrait texte mais ne peut pas OCR images. Pré-traitez PDFs scannées avec ocrmypdf input.pdf output.pdf (multiplateforme, MIT-licencié, utilise Tesseract sous le capot). Sur Apple Silicon, ocrmypdf -l eng+fra+deu traite 70+ langues. Après OCR, PDF output a images originales plus couche texte cherchable, et AnythingLLM extrait texte correctement.

Comment sauvegarde-je ma base de données documents?

AnythingLLM stocke tout sous ~/.anythingllm/storage (macOS/Linux) ou %LOCALAPPDATA%\anythingllm-desktop\storage (Windows). Tar/zip ce dossier et copiez-le sur lecteur sauvegarde. Le dossier inclut documents originaux, chunks parsés, index vectoriels et historique chat. Restauration est copie-de-retour-et-redémarrage — aucun flux d'import spécial requis.

← Retour à Power Local LLM

RAG local sur PDFs en 30 minutes 2026: Ollama + AnythingLLM