Schnelle Antwort
Eine vollständige RAG-Pipeline benötigt mindestens 8 GB RAM. Mit nur 2 GB können Sie ein kleines LLM wie TinyLlama oder Phi-2 ausführen (beide benötigen ~1,5 GB), aber das Embedding-Modell benötigt weitere 0,5–1 GB und lässt kaum Platz für den Vektor-Speicher oder den Kontext. Die Ergebnisse werden begrenzt sein.
Aktualisiert: 2026-05
Wichtigste Punkte
Eine vollständige RAG-Pipeline hat drei Speicherverbraucher: das LLM (1,5–5 GB je nach Modellgröße), ein Embedding-Modell (~0,5 GB für all-MiniLM) und einen Vektor-Speicher wie ChromaDB (0,1–0,5 GB je nach Indexgröße). Bei 2 GB Gesamt-RAM können Sie nur eine dieser Komponenten auf einem nützlichen Qualitätsniveau laden.
TinyLlama mit 1,1B Parametern benötigt bei Q4-Quantisierung etwa 1,5 GB, und Phi-2 mit 2,7B etwa 2,0 GB. Beide Modelle lassen kaum Speicher für ein Embedding-Modell — und ohne Embeddings können Sie keine semantische Ähnlichkeitssuche durchführen, die das Kernelement jedes RAG-Systems ist.
Der Versuch, RAG auf 2 GB RAM auszuführen, führt entweder zu Speichermangel-Abstürzen oder extremer Leistungsverschlechterung. Das Betriebssystem selbst verbraucht 0,3–0,6 GB, bevor ein ML-Workload beginnt.
| Verfügbarer RAM | Was passt | RAG-Qualität |
|---|---|---|
| 2 GB | Nur TinyLlama, keine Embeddings | Schlecht |
| 8 GB | Llama 3 8B + Embeddings + ChromaDB | Gut |
| 16 GB | 13B LLM + vollständiger RAG-Stack | Ausgezeichnet |
Wenn Sie ein speicherarmes Gerät verwenden müssen, ist der effektivste Workaround, den Embedding-Schritt an eine Remote-API auszulagern. Dienste wie OpenAI's ada-002 generieren Embeddings per API-Aufruf — Sie senden Text, erhalten einen Vektor und speichern ihn lokal in einem leichtgewichtigen Vektor-Speicher. Dadurch entfallen die ~0,5 GB des lokalen Embedding-Modells.
Mit Remote-Embeddings kann ein 2-GB-Gerät TinyLlama lokal für die Generierung ausführen und gleichzeitig Cloud-Embeddings für das Retrieval verwenden. Die Qualität bleibt durch die Reasoning-Fähigkeiten von TinyLlama begrenzt, aber die Pipeline wird technisch funktionsfähig. Beachten Sie, dass Remote-Embeddings API-Kosten verursachen und eine Internetverbindung erfordern.
Einen vollständigen Leitfaden zur Einrichtung eines lokal funktionierenden RAG-Systems finden Sie im Leitfaden zur lokalen RAG-Einrichtung mit Informationen zu Mindesthardware und Modellauswahl.