PromptQuorumPromptQuorum

Peut-on exécuter RAG avec 2 Go de RAM ?

Réponse rapide

Un pipeline RAG complet nécessite au moins 8 Go de RAM. Avec seulement 2 Go, vous pouvez exécuter un petit LLM comme TinyLlama ou Phi-2 (tous deux nécessitent ~1,5 Go), mais le modèle d'embedding ajoute 0,5 à 1 Go supplémentaire, ne laissant presque aucune place pour le vector store ou le contexte. Les résultats seront limités.

  • 2 Go de RAM : seulement les petits modèles (TinyLlama, Phi-2) — qualité RAG médiocre
  • Minimum pour un RAG correct : 8 Go de RAM (LLM 7B + embeddings + vector store)
  • Alternative : exécuter les embeddings à distance, uniquement le LLM en local

Mis à jour : 2026-05

Quick Answers

Points clés

  • Un stack RAG complet (LLM + embeddings + vector store) nécessite au moins 8 Go de RAM ; 2 Go ne suffisent pas pour les trois composants
  • TinyLlama (1,1B, ~1,5 Go) et Phi-2 (2,7B, ~2,0 Go) sont les seuls LLMs tenant dans 2 Go, sans laisser de place pour un modèle d'embedding
  • Solution pratique : utiliser une API d'embeddings distante (ex. OpenAI ada-002) et stocker les vecteurs localement, économisant ~0,5 Go de RAM
  • Pour une bonne qualité RAG, 8 Go de RAM font tourner Llama 3 8B + embeddings all-MiniLM + ChromaDB confortablement

Ce qu'un pipeline RAG nécessite réellement en RAM

Un pipeline RAG complet a trois consommateurs de mémoire : le LLM (1,5 à 5 Go selon la taille du modèle), un modèle d'embedding (~0,5 Go pour all-MiniLM) et un vector store comme ChromaDB (0,1 à 0,5 Go selon la taille de l'index). Avec 2 Go de RAM au total, vous ne pouvez charger qu'un seul de ces composants à un niveau de qualité utile.

TinyLlama à 1,1B de paramètres utilise environ 1,5 Go en quantification Q4, et Phi-2 à 2,7B environ 2,0 Go. Les deux modèles ne laissent presque aucune mémoire pour un modèle d'embedding — et sans embeddings, vous ne pouvez pas effectuer de recherche par similarité sémantique, qui est le cœur de tout système RAG.

Tenter RAG sur 2 Go de RAM entraîne soit des plantages par manque de mémoire, soit une dégradation extrême des performances. Le système d'exploitation lui-même consomme 0,3 à 0,6 Go avant le démarrage de toute charge de travail ML.

RAM disponibleCe qui tientQualité RAG
2 GoTinyLlama uniquement, sans embeddingsMédiocre
8 GoLlama 3 8B + embeddings + ChromaDBBonne
16 GoLLM 13B + stack RAG completExcellente

La solution pratique pour les appareils avec peu de RAM

Si vous devez utiliser un appareil à faible mémoire, la solution la plus efficace est de déléguer l'étape d'embedding à une API distante. Des services comme ada-002 d'OpenAI génèrent des embeddings via un appel API — vous envoyez du texte, recevez un vecteur et le stockez localement dans un vector store léger. Cela élimine le coût des ~0,5 Go du modèle d'embedding local.

Avec des embeddings distants, un appareil de 2 Go peut exécuter TinyLlama localement pour la génération tout en utilisant des embeddings cloud pour la récupération. La qualité reste limitée par les capacités de raisonnement de TinyLlama, mais le pipeline devient techniquement fonctionnel. Notez que les embeddings distants entraînent des coûts d'API et nécessitent une connexion internet.

Pour un guide complet sur la configuration d'un système RAG local efficace, consultez le guide de configuration RAG local couvrant le matériel minimum et la sélection des modèles.

Réponses rapides sur RAG avec peu de RAM

Quelle est la RAM minimale pour un système RAG fonctionnel ?
Le minimum pratique est 8 Go de RAM. Cela permet de faire tourner Llama 3 8B en quantification Q4 (~5 Go), le modèle d'embedding all-MiniLM-L6-v2 (~0,5 Go) et ChromaDB avec un index de taille modérée (~0,2 à 0,5 Go).
Puis-je utiliser ChromaDB avec seulement 2 Go de RAM ?
ChromaDB lui-même est léger — 0,1 à 0,3 Go pour les petits index. Le problème n'est pas le vector store ; c'est que le LLM et le modèle d'embedding ensemble dépassent 2 Go, ne laissant aucune place à ChromaDB.
La quantification Q4 aide-t-elle à faire tenir un stack RAG dans 2 Go ?
La quantification Q4 réduit la mémoire du LLM d'environ 4× par rapport à la pleine précision. Malgré cela, un modèle 7B en Q4 nécessite encore ~5 Go. Seuls les modèles de 1 à 2B en Q4 tiennent sous 2 Go, et ils sont trop petits pour des réponses RAG de qualité.
Quel modèle d'embedding est le plus efficace en mémoire pour le RAG local ?
all-MiniLM-L6-v2 est le choix standard — il utilise environ 0,5 Go de RAM et offre une bonne qualité de recherche sémantique. Pour les budgets mémoire plus serrés, envisagez une API d'embeddings distante pour économiser de la RAM locale.