Peut-on exécuter RAG avec 2 Go de RAM ?
Réponse rapide
Oui — mais uniquement pour de petites collections de documents personnels. Avec 2 Go de RAM, un pipeline RAG viable utilise Llama 3.2 1B (~750 Mo) avec les embeddings MiniLM-L6-v2 (~80 Mo) et un vector store en mémoire. Au total ~1,3–1,5 Go tient sur un appareil de 2 Go. Les modèles plus grands (7B+) et les collections de documents plus importantes (200+ pages) nécessitent 8 Go minimum.
- ▸Llama 3.2 1B Q4_K_M (~750 Mo) + embeddings MiniLM-L6-v2 (~80 Mo) tient dans 2 Go
- ▸La collection de documents doit faire moins de ~200 pages pour rester en RAM
- ▸Les modèles 7B+ ou les corpus plus volumineux nécessitent au minimum 8 Go de RAM
Mis à jour : 2026-05
Oui — Mais Uniquement les Configurations Minimales Fonctionnent
Avec 2 Go de RAM, le seul pipeline RAG viable utilise un LLM de classe 1B (Llama 3.2 1B ou Phi-3 Mini) avec un modèle d'embedding léger (MiniLM-L6-v2 à ~80 Mo) et un vector store en mémoire ou fichier plat. En mai 2026, cela fonctionne — mais uniquement pour de petites collections de documents personnels (moins de ~200 pages).
Le tableau ci-dessous montre l'empreinte RAM de chaque composant RAG avec les paramètres minimaux.
| Composant | Utilisation mémoire | Notes |
|---|---|---|
| LLM (Llama 3.2 1B Q4_K_M) | ~750 Mo | Plus petit modèle instruction-tuned utilisable |
| Modèle d'embedding (MiniLM-L6-v2) | ~80 Mo | Fonctionne sur CPU ; pas de GPU requis |
| Vector store (Chroma en mémoire) | ~150 Mo | Évolue avec la taille du corpus |
| Environnement Python + overhead framework | ~300 Mo | LangChain ou llama-index minimal |
| Total minimum | ~1,3–1,5 Go | Laisse ~500 Mo pour l'OS sur un appareil de 2 Go |
Ce Qui Échoue à 2 Go
L'échec le plus courant est que le LLM dépasse la RAM disponible lors de l'expansion de la fenêtre de contexte. À 2 Go, le contexte d'un modèle 1B est plafonné à environ 2k tokens avant que l'OS commence à swapper. Le chargement d'un modèle 7B ou plus grand échoue immédiatement — Llama 3 8B Q4_K_M nécessite ~5 Go à lui seul.
Le second mode d'échec est la croissance du vector store. Une base de données Chroma pour 500 pages PDF utilise environ 400 à 600 Mo selon la taille des chunks. Combiné avec le LLM et le modèle d'embedding, la RAM totale dépasse 2 Go. La solution : limiter l'ingestion à moins de 150 pages, utiliser des chunks de 256 tokens et purger le store après chaque session.