¿Puedes Ejecutar RAG con 2 GB de RAM?
Respuesta rápida
Sí — pero solo para conjuntos pequeños de documentos personales con Llama 3.2 1B (~750 MB), embeddings MiniLM-L6-v2 (~80 MB) y un vector store en memoria que suman ~1.3–1.5 GB en un dispositivo de 2 GB. Los modelos más grandes (7B+) y conjuntos de documentos más grandes (200+ páginas) necesitan 8 GB como mínimo.
- ▸Llama 3.2 1B Q4_K_M (~750 MB) + embeddings MiniLM-L6-v2 (~80 MB) caben en 2 GB
- ▸El conjunto de documentos debe tener menos de ~200 páginas para caber en RAM
- ▸Los modelos 7B+ o corpus más grandes necesitan al menos 8 GB de RAM
Actualizado: 2026-05
Sí — Pero Solo las Configuraciones Mínimas Funcionan
Con 2 GB de RAM, el único pipeline RAG viable usa un LLM de clase 1B (Llama 3.2 1B o Phi-3 Mini) con un modelo de embeddings ligero (MiniLM-L6-v2 a ~80 MB) y un vector store en memoria o archivo plano. A mayo de 2026, esto funciona — pero solo para conjuntos pequeños de documentos personales (menos de ~200 páginas).
La tabla siguiente muestra el uso de RAM de cada componente RAG con la configuración mínima viable.
| Componente | Uso de memoria | Notas |
|---|---|---|
| LLM (Llama 3.2 1B Q4_K_M) | ~750 MB | El modelo instruction-tuned más pequeño utilizable |
| Modelo de embeddings (MiniLM-L6-v2) | ~80 MB | Corre en CPU; no requiere GPU |
| Vector store (Chroma en memoria) | ~150 MB | Escala con el tamaño del corpus |
| Runtime de Python + overhead del framework | ~300 MB | LangChain o llama-index mínimo |
| Total mínimo | ~1.3–1.5 GB | Deja ~500 MB para el SO en un dispositivo de 2 GB |
Qué Falla con 2 GB de RAM
El fallo más común es que el LLM supere la RAM disponible al expandir la ventana de contexto. Con 2 GB, el contexto de un modelo 1B está limitado a unos 2k tokens antes de que el SO empiece a usar swap. Cargar un modelo 7B o más grande falla de inmediato — Llama 3 8B Q4_K_M requiere ~5 GB solo.
El segundo modo de fallo es el crecimiento del vector store. Una base de datos Chroma para 500 páginas PDF usa aproximadamente 400–600 MB según el tamaño del chunk. Combinado con el LLM y el modelo de embeddings, la RAM total supera los 2 GB. La solución: limitar la ingesta a menos de 150 páginas, usar chunks de 256 tokens y limpiar el store después de cada sesión.