Réponse rapide
Un pipeline RAG complet nécessite au moins 8 Go de RAM. Avec seulement 2 Go, vous pouvez exécuter un petit LLM comme TinyLlama ou Phi-2 (tous deux nécessitent ~1,5 Go), mais le modèle d'embedding ajoute 0,5 à 1 Go supplémentaire, ne laissant presque aucune place pour le vector store ou le contexte. Les résultats seront limités.
Mis à jour : 2026-05
Points clés
Un pipeline RAG complet a trois consommateurs de mémoire : le LLM (1,5 à 5 Go selon la taille du modèle), un modèle d'embedding (~0,5 Go pour all-MiniLM) et un vector store comme ChromaDB (0,1 à 0,5 Go selon la taille de l'index). Avec 2 Go de RAM au total, vous ne pouvez charger qu'un seul de ces composants à un niveau de qualité utile.
TinyLlama à 1,1B de paramètres utilise environ 1,5 Go en quantification Q4, et Phi-2 à 2,7B environ 2,0 Go. Les deux modèles ne laissent presque aucune mémoire pour un modèle d'embedding — et sans embeddings, vous ne pouvez pas effectuer de recherche par similarité sémantique, qui est le cœur de tout système RAG.
Tenter RAG sur 2 Go de RAM entraîne soit des plantages par manque de mémoire, soit une dégradation extrême des performances. Le système d'exploitation lui-même consomme 0,3 à 0,6 Go avant le démarrage de toute charge de travail ML.
| RAM disponible | Ce qui tient | Qualité RAG |
|---|---|---|
| 2 Go | TinyLlama uniquement, sans embeddings | Médiocre |
| 8 Go | Llama 3 8B + embeddings + ChromaDB | Bonne |
| 16 Go | LLM 13B + stack RAG complet | Excellente |
Si vous devez utiliser un appareil à faible mémoire, la solution la plus efficace est de déléguer l'étape d'embedding à une API distante. Des services comme ada-002 d'OpenAI génèrent des embeddings via un appel API — vous envoyez du texte, recevez un vecteur et le stockez localement dans un vector store léger. Cela élimine le coût des ~0,5 Go du modèle d'embedding local.
Avec des embeddings distants, un appareil de 2 Go peut exécuter TinyLlama localement pour la génération tout en utilisant des embeddings cloud pour la récupération. La qualité reste limitée par les capacités de raisonnement de TinyLlama, mais le pipeline devient techniquement fonctionnel. Notez que les embeddings distants entraînent des coûts d'API et nécessitent une connexion internet.
Pour un guide complet sur la configuration d'un système RAG local efficace, consultez le guide de configuration RAG local couvrant le matériel minimum et la sélection des modèles.