Skip to main content
PromptQuorumPromptQuorum

Kann man RAG mit 2 GB RAM betreiben?

Schnelle Antwort

Ja — aber nur für kleine persönliche Dokumentensammlungen. Mit 2 GB RAM verwendet eine funktionsfähige RAG-Pipeline Llama 3.2 1B (~750 MB) mit MiniLM-L6-v2-Embeddings (~80 MB) und einem In-Memory-Vektorspeicher. Insgesamt ~1,3–1,5 GB passt auf ein 2-GB-Gerät. Größere Modelle (7B+) und größere Dokumentensammlungen (200+ Seiten) benötigen mindestens 8 GB.

  • Llama 3.2 1B Q4_K_M (~750 MB) + MiniLM-L6-v2-Embeddings (~80 MB) passt in 2 GB
  • Dokumentensammlung muss unter ~200 Seiten bleiben, um im RAM zu bleiben
  • 7B+ Modelle oder größere Korpora benötigen mindestens 8 GB RAM

Aktualisiert: 2026-05

Quick Answers

Ja — Aber Nur Minimale Setups Funktionieren

Mit 2 GB RAM verwendet die einzig funktionsfähige RAG-Pipeline ein 1B-LLM (Llama 3.2 1B oder Phi-3 Mini) mit einem leichtgewichtigen Embedding-Modell (MiniLM-L6-v2 mit ~80 MB) und einem Flat-File- oder In-Memory-Vektorspeicher. Stand Mai 2026 funktioniert dies — aber nur für kleine persönliche Dokumentensammlungen (unter ~200 Seiten).

Die Tabelle unten zeigt den RAM-Bedarf jeder RAG-Komponente bei minimalen Einstellungen.

KomponenteSpeicherbedarfHinweise
LLM (Llama 3.2 1B Q4_K_M)~750 MBKleinstes nutzbares instruction-tuned Modell
Embedding-Modell (MiniLM-L6-v2)~80 MBLäuft auf CPU; keine GPU erforderlich
Vektorspeicher (Chroma in-memory)~150 MBSkaliert mit Korpusgröße
Python-Laufzeit + Framework-Overhead~300 MBLangChain oder bare llama-index
Gesamtminimum~1,3–1,5 GBLässt ~500 MB für das Betriebssystem auf einem 2-GB-Gerät

Was bei 2 GB Scheitert

Das häufigste Versagen ist, dass das LLM den verfügbaren RAM bei der Kontextfenster-Erweiterung überschreitet. Bei 2 GB ist der Kontext eines 1B-Modells auf etwa 2k Tokens begrenzt, bevor das Betriebssystem anfängt zu swappen. Das Laden eines 7B- oder größeren Modells schlägt sofort fehl — Llama 3 8B Q4_K_M benötigt allein ~5 GB.

Das zweite Versagensmuster ist das Wachstum des Vektorspeichers. Eine Chroma-Datenbank für 500 PDF-Seiten verwendet je nach Chunk-Größe etwa 400–600 MB. In Kombination mit LLM und Embedding-Modell überschreitet der Gesamt-RAM 2 GB. Die Lösung: Eingabe auf unter 150 Seiten begrenzen, 256-Token-Chunks verwenden und den Speicher nach jeder Sitzung bereinigen.

Schnelle Antworten zu RAG mit 2 GB RAM

Was ist das kleinste LLM, das für RAG funktioniert?
Llama 3.2 1B Q4_K_M (~750 MB) ist das kleinste instruction-tuned Modell, das kohärente Antworten für retrieval-augmentierte Aufgaben erzeugt. Phi-3 Mini (3.8B) ist die bessere Wahl bei 3–4 GB verfügbarem RAM — sein 4k-Kontext verarbeitet längere abgerufene Passagen. Unter 1B Parametern sinkt die Ausgabequalität für RAG-Frage-Antwort-Aufgaben stark ab.
Kann ich Ollama mit 2 GB RAM verwenden?
Ollamas minimaler empfohlener RAM beträgt 8 GB. Auf 2 GB lädt Ollama selbst, aber das Ausführen von Modellen schlägt fehl oder beansprucht intensiv den Swap-Speicher. Für 2-GB-Geräte verwenden Sie llama.cpp direkt über die CLI oder die llama-cpp-python-Bindings — diese haben einen kleineren residenten Speicherbedarf als der Ollama-Serverprozess.
Wird Raspberry Pi 5 (8 GB) ordentliches RAG ausführen?
Ja. Ein Raspberry Pi 5 mit 8 GB RAM führt Llama 3 8B Q4_K_M (~5 GB) zusammen mit einem vollständigen Embedding- und Vektorspeicher-Stack mit Puffer aus. Die Geschwindigkeit beträgt ~1–2 tok/s auf der Pi 5 CPU — langsam, aber funktional für Offline-Anwendungsfälle der persönlichen Suche. Geschwindigkeits-Benchmarks finden Sie bei den besten Ollama-Modellen für CPU-only-Inferenz.
Lohnt sich lokales RAG mit 2 GB RAM?
Für kleine persönliche Dokumentensammlungen (Notizen, einige PDFs) — ja, die 1B + MiniLM-Pipeline ist genutzlich nützlich. Für alles, das präzises Abrufen über große Korpora oder komplexes mehrstufiges Reasoning erfordert, ist 2 GB RAM eine harte Grenze. Upgraden Sie auf mindestens 8 GB, bevor Sie produktionsreife RAG-Qualität erwarten.