Kann man RAG mit 2 GB RAM betreiben?
Schnelle Antwort
Ja — aber nur für kleine persönliche Dokumentensammlungen. Mit 2 GB RAM verwendet eine funktionsfähige RAG-Pipeline Llama 3.2 1B (~750 MB) mit MiniLM-L6-v2-Embeddings (~80 MB) und einem In-Memory-Vektorspeicher. Insgesamt ~1,3–1,5 GB passt auf ein 2-GB-Gerät. Größere Modelle (7B+) und größere Dokumentensammlungen (200+ Seiten) benötigen mindestens 8 GB.
- ▸Llama 3.2 1B Q4_K_M (~750 MB) + MiniLM-L6-v2-Embeddings (~80 MB) passt in 2 GB
- ▸Dokumentensammlung muss unter ~200 Seiten bleiben, um im RAM zu bleiben
- ▸7B+ Modelle oder größere Korpora benötigen mindestens 8 GB RAM
Aktualisiert: 2026-05
Ja — Aber Nur Minimale Setups Funktionieren
Mit 2 GB RAM verwendet die einzig funktionsfähige RAG-Pipeline ein 1B-LLM (Llama 3.2 1B oder Phi-3 Mini) mit einem leichtgewichtigen Embedding-Modell (MiniLM-L6-v2 mit ~80 MB) und einem Flat-File- oder In-Memory-Vektorspeicher. Stand Mai 2026 funktioniert dies — aber nur für kleine persönliche Dokumentensammlungen (unter ~200 Seiten).
Die Tabelle unten zeigt den RAM-Bedarf jeder RAG-Komponente bei minimalen Einstellungen.
| Komponente | Speicherbedarf | Hinweise |
|---|---|---|
| LLM (Llama 3.2 1B Q4_K_M) | ~750 MB | Kleinstes nutzbares instruction-tuned Modell |
| Embedding-Modell (MiniLM-L6-v2) | ~80 MB | Läuft auf CPU; keine GPU erforderlich |
| Vektorspeicher (Chroma in-memory) | ~150 MB | Skaliert mit Korpusgröße |
| Python-Laufzeit + Framework-Overhead | ~300 MB | LangChain oder bare llama-index |
| Gesamtminimum | ~1,3–1,5 GB | Lässt ~500 MB für das Betriebssystem auf einem 2-GB-Gerät |
Was bei 2 GB Scheitert
Das häufigste Versagen ist, dass das LLM den verfügbaren RAM bei der Kontextfenster-Erweiterung überschreitet. Bei 2 GB ist der Kontext eines 1B-Modells auf etwa 2k Tokens begrenzt, bevor das Betriebssystem anfängt zu swappen. Das Laden eines 7B- oder größeren Modells schlägt sofort fehl — Llama 3 8B Q4_K_M benötigt allein ~5 GB.
Das zweite Versagensmuster ist das Wachstum des Vektorspeichers. Eine Chroma-Datenbank für 500 PDF-Seiten verwendet je nach Chunk-Größe etwa 400–600 MB. In Kombination mit LLM und Embedding-Modell überschreitet der Gesamt-RAM 2 GB. Die Lösung: Eingabe auf unter 150 Seiten begrenzen, 256-Token-Chunks verwenden und den Speicher nach jeder Sitzung bereinigen.