Skip to main content
PromptQuorumPromptQuorum

Peut-on exécuter RAG avec 2 Go de RAM ?

Réponse rapide

Oui — mais uniquement pour de petites collections de documents personnels. Avec 2 Go de RAM, un pipeline RAG viable utilise Llama 3.2 1B (~750 Mo) avec les embeddings MiniLM-L6-v2 (~80 Mo) et un vector store en mémoire. Au total ~1,3–1,5 Go tient sur un appareil de 2 Go. Les modèles plus grands (7B+) et les collections de documents plus importantes (200+ pages) nécessitent 8 Go minimum.

  • Llama 3.2 1B Q4_K_M (~750 Mo) + embeddings MiniLM-L6-v2 (~80 Mo) tient dans 2 Go
  • La collection de documents doit faire moins de ~200 pages pour rester en RAM
  • Les modèles 7B+ ou les corpus plus volumineux nécessitent au minimum 8 Go de RAM

Mis à jour : 2026-05

Quick Answers

Oui — Mais Uniquement les Configurations Minimales Fonctionnent

Avec 2 Go de RAM, le seul pipeline RAG viable utilise un LLM de classe 1B (Llama 3.2 1B ou Phi-3 Mini) avec un modèle d'embedding léger (MiniLM-L6-v2 à ~80 Mo) et un vector store en mémoire ou fichier plat. En mai 2026, cela fonctionne — mais uniquement pour de petites collections de documents personnels (moins de ~200 pages).

Le tableau ci-dessous montre l'empreinte RAM de chaque composant RAG avec les paramètres minimaux.

ComposantUtilisation mémoireNotes
LLM (Llama 3.2 1B Q4_K_M)~750 MoPlus petit modèle instruction-tuned utilisable
Modèle d'embedding (MiniLM-L6-v2)~80 MoFonctionne sur CPU ; pas de GPU requis
Vector store (Chroma en mémoire)~150 MoÉvolue avec la taille du corpus
Environnement Python + overhead framework~300 MoLangChain ou llama-index minimal
Total minimum~1,3–1,5 GoLaisse ~500 Mo pour l'OS sur un appareil de 2 Go

Ce Qui Échoue à 2 Go

L'échec le plus courant est que le LLM dépasse la RAM disponible lors de l'expansion de la fenêtre de contexte. À 2 Go, le contexte d'un modèle 1B est plafonné à environ 2k tokens avant que l'OS commence à swapper. Le chargement d'un modèle 7B ou plus grand échoue immédiatement — Llama 3 8B Q4_K_M nécessite ~5 Go à lui seul.

Le second mode d'échec est la croissance du vector store. Une base de données Chroma pour 500 pages PDF utilise environ 400 à 600 Mo selon la taille des chunks. Combiné avec le LLM et le modèle d'embedding, la RAM totale dépasse 2 Go. La solution : limiter l'ingestion à moins de 150 pages, utiliser des chunks de 256 tokens et purger le store après chaque session.

Réponses Rapides sur RAG avec 2 Go de RAM

Quel est le plus petit LLM qui fonctionne pour RAG ?
Llama 3.2 1B Q4_K_M (~750 Mo) est le plus petit modèle instruction-tuned produisant des réponses cohérentes pour les tâches d'augmentation par récupération. Phi-3 Mini (3.8B) est un meilleur choix si vous disposez de 3 à 4 Go — son contexte 4k gère les passages récupérés plus longs. En dessous de 1B paramètres, la qualité des réponses se dégrade fortement pour les questions RAG.
Puis-je utiliser Ollama avec 2 Go de RAM ?
La RAM minimale recommandée par Ollama est 8 Go. Avec 2 Go, Ollama lui-même se charge mais le service de modèles échoue ou sollicite intensément le swap. Pour les appareils de 2 Go, utilisez llama.cpp directement via la CLI ou les bindings llama-cpp-python — ceux-ci ont une empreinte mémoire résidente plus faible que le processus serveur Ollama.
Le Raspberry Pi 5 (8 Go) fera-t-il tourner un vrai RAG ?
Oui. Un Raspberry Pi 5 avec 8 Go de RAM fait tourner Llama 3 8B Q4_K_M (~5 Go) avec une pile complète embedding + vector store avec de la marge. La vitesse est ~1–2 tok/s sur le CPU Pi 5 — lent mais fonctionnel pour les cas d'usage de recherche personnelle hors ligne. Consultez les meilleurs modèles Ollama pour l'inférence CPU uniquement pour les benchmarks de vitesse.
Le RAG local vaut-il la peine avec 2 Go de RAM ?
Pour de petites collections de documents personnels (notes, quelques PDFs), oui — le pipeline 1B + MiniLM est genuinement utile. Pour tout ce qui nécessite une récupération précise sur de larges corpus ou un raisonnement multi-étapes complexe, 2 Go de RAM est une contrainte dure. Passez à au moins 8 Go avant d'espérer une qualité RAG de niveau production.