2 GB RAM으로 RAG를 실행할 수 있습니까?
빠른 답변
예 — 단, Llama 3.2 1B(~750 MB)와 MiniLM-L6-v2 임베딩(~80 MB), 인메모리 벡터 스토어를 사용하는 소규모 개인 문서 세트에 한해 가능합니다. 총 ~1.3-1.5 GB로 2 GB 장치에 들어갑니다. 더 큰 모델(7B+) 및 대규모 문서 세트(200페이지 이상)는 최소 8 GB가 필요합니다.
- ▸Llama 3.2 1B Q4_K_M(~750 MB) + MiniLM-L6-v2 임베딩(~80 MB)이 2 GB에 들어갑니다
- ▸문서 세트는 RAM 내에 유지하려면 ~200페이지 미만이어야 합니다
- ▸7B+ 모델 또는 대형 코퍼스는 최소 8 GB RAM이 필요합니다
업데이트: 2026-05
예 — 최소 구성만 동작합니다
2 GB RAM에서 유일하게 실용적인 RAG 파이프라인은 1B급 LLM(Llama 3.2 1B 또는 Phi-3 Mini)과 경량 임베딩 모델(MiniLM-L6-v2, ~80 MB), 플랫 파일 또는 인메모리 벡터 스토어를 사용합니다. 2026년 5월 기준으로 이 구성은 동작하지만 소규모 개인 문서 세트(~200페이지 미만)에만 적합합니다.
아래 표는 최소 실행 가능 설정에서 각 RAG 구성 요소의 메모리 사용량을 보여줍니다.
| 구성 요소 | 메모리 사용량 | 비고 |
|---|---|---|
| LLM (Llama 3.2 1B Q4_K_M) | ~750 MB | 사용 가능한 가장 작은 instruction-tuned 모델 |
| 임베딩 모델 (MiniLM-L6-v2) | ~80 MB | CPU에서 실행 가능; GPU 불필요 |
| 벡터 스토어 (Chroma 인메모리) | ~150 MB | 코퍼스 크기에 따라 확장됨 |
| Python 런타임 + 프레임워크 오버헤드 | ~300 MB | LangChain 또는 최소 llama-index |
| 최소 합계 | ~1.3-1.5 GB | 2 GB 장치에서 OS에 ~500 MB 여유 |
2 GB에서 문제가 생기는 경우
가장 흔한 실패는 LLM이 컨텍스트 윈도우 확장 시 사용 가능한 RAM을 초과하는 것입니다. 2 GB에서 1B 모델 컨텍스트는 OS가 스왑을 시작하기 전 약 2k 토큰으로 제한됩니다. 7B 이상 모델 로딩은 즉시 실패합니다. Llama 3 8B Q4_K_M은 단독으로 ~5 GB가 필요합니다.
두 번째 실패 유형은 벡터 스토어 증가입니다. PDF 500페이지에 대한 Chroma 데이터베이스는 청크 크기에 따라 약 400-600 MB를 사용합니다. LLM과 임베딩 모델을 합치면 총 RAM이 2 GB를 초과합니다. 해결책: 수집을 150페이지 미만으로 제한하고, 256 토큰 청크를 사용하며, 각 세션 후 스토어를 정리하십시오.