¿Puedes Ejecutar RAG con 2 GB de RAM?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

Sí — pero solo para conjuntos pequeños de documentos personales con Llama 3.2 1B (~750 MB), embeddings MiniLM-L6-v2 (~80 MB) y un vector store en memoria que suman ~1.3–1.5 GB en un dispositivo de 2 GB. Los modelos más grandes (7B+) y conjuntos de documentos más grandes (200+ páginas) necesitan 8 GB como mínimo.

▸Llama 3.2 1B Q4_K_M (~750 MB) + embeddings MiniLM-L6-v2 (~80 MB) caben en 2 GB
▸El conjunto de documentos debe tener menos de ~200 páginas para caber en RAM
▸Los modelos 7B+ o corpus más grandes necesitan al menos 8 GB de RAM

Actualizado: 31 de mayo de 2026

Quick Answers

Sí — Pero Solo las Configuraciones Mínimas Funcionan

Con 2 GB de RAM, el único pipeline RAG viable usa un LLM de clase 1B (Llama 3.2 1B o Phi-3 Mini) con un modelo de embeddings ligero (MiniLM-L6-v2 a ~80 MB) y un vector store en memoria o archivo plano. A mayo de 2026, esto funciona — pero solo para conjuntos pequeños de documentos personales (menos de ~200 páginas).

La tabla siguiente muestra el uso de RAM de cada componente RAG con la configuración mínima viable.

Componente	Uso de memoria	Notas
LLM (Llama 3.2 1B Q4_K_M)	~750 MB	El modelo instruction-tuned más pequeño utilizable
Modelo de embeddings (MiniLM-L6-v2)	~80 MB	Corre en CPU; no requiere GPU
Vector store (Chroma en memoria)	~150 MB	Escala con el tamaño del corpus
Runtime de Python + overhead del framework	~300 MB	LangChain o llama-index mínimo
Total mínimo	~1.3–1.5 GB	Deja ~500 MB para el SO en un dispositivo de 2 GB

Qué Falla con 2 GB de RAM

El fallo más común es que el LLM supere la RAM disponible al expandir la ventana de contexto. Con 2 GB, el contexto de un modelo 1B está limitado a unos 2k tokens antes de que el SO empiece a usar swap. Cargar un modelo 7B o más grande falla de inmediato — Llama 3 8B Q4_K_M requiere ~5 GB solo.

El segundo modo de fallo es el crecimiento del vector store. Una base de datos Chroma para 500 páginas PDF usa aproximadamente 400–600 MB según el tamaño del chunk. Combinado con el LLM y el modelo de embeddings, la RAM total supera los 2 GB. La solución: limitar la ingesta a menos de 150 páginas, usar chunks de 256 tokens y limpiar el store después de cada sesión.

Respuestas Rápidas sobre RAG con 2 GB de RAM

¿Cuál es el LLM más pequeño que funciona para RAG?▾

Llama 3.2 1B Q4_K_M (~750 MB) es el modelo instruction-tuned más pequeño que produce respuestas coherentes para tareas de recuperación aumentada. Phi-3 Mini (3.8B) es mejor si tienes 3–4 GB disponibles — su contexto de 4k maneja pasajes recuperados más largos. Por debajo de 1B parámetros, la calidad de las respuestas cae drásticamente para preguntas estilo RAG.

¿Puedo usar Ollama con 2 GB de RAM?▾

La RAM mínima recomendada de Ollama es 8 GB. Con 2 GB, Ollama carga pero el servicio de modelos falla o usa el swap intensamente. Para dispositivos de 2 GB, usa llama.cpp directamente por CLI o los bindings llama-cpp-python — tienen una huella de memoria residente menor que el proceso del servidor de Ollama.

¿Una Raspberry Pi 5 (8 GB) puede ejecutar RAG de verdad?▾

Sí. Una Raspberry Pi 5 con 8 GB de RAM ejecuta Llama 3 8B Q4_K_M (~5 GB) junto con una pila completa de embeddings + vector store con margen. La velocidad es ~1–2 tok/s en el CPU del Pi 5 — lento pero funcional para búsqueda personal offline. Consulta los benchmarks en los mejores modelos de Ollama para inferencia solo en CPU.

¿Vale la pena el RAG local con 2 GB de RAM?▾

Para conjuntos pequeños de documentos personales (notas, algunos PDFs), sí — el pipeline 1B + MiniLM es genuinamente útil. Para todo lo que requiera recuperación precisa sobre corpus grandes o razonamiento complejo de múltiples pasos, 2 GB de RAM es un límite duro. Actualiza a al menos 8 GB antes de esperar calidad RAG de nivel producción.

← Volver a Prompts en breve