2 GB RAMでRAGを実行できますか?
クイック回答
はい — ただし小規模な個人ドキュメントセット限定です。2 GB RAMでは、Llama 3.2 1B(~750 MB)にMiniLM-L6-v2 Embeddings(~80 MB)とインメモリベクターストアを組み合わせた実用的なRAGパイプラインが可能です。合計~1.3–1.5 GBは2 GBデバイスに収まります。大型モデル(7B+)や大きなドキュメントセット(200ページ以上)には最低8 GBが必要です。
- ▸Llama 3.2 1B Q4_K_M(~750 MB)+ MiniLM-L6-v2 Embeddings(~80 MB)が2 GBに収まる
- ▸ドキュメントセットはRAM内に収めるために~200ページ未満に制限する必要がある
- ▸7B+モデルや大きなコーパスには最低8 GB RAMが必要
更新: 2026-05
はい — ただし最小限のセットアップのみ機能します
2 GB RAMでは、唯一実用的なRAGパイプラインは1BクラスのLLM(Llama 3.2 1BまたはPhi-3 Mini)と軽量な埋め込みモデル(MiniLM-L6-v2、~80 MB)とフラットファイルまたはインメモリベクターストアを組み合わせたものです。2026年5月現在、これは機能します — ただし小規模な個人ドキュメントセット(~200ページ未満)限定です。
以下の表は最小限の設定における各RAGコンポーネントのRAM使用量を示しています。
| コンポーネント | メモリ使用量 | 備考 |
|---|---|---|
| LLM(Llama 3.2 1B Q4_K_M) | ~750 MB | 最小の実用的なinstruction-tunedモデル |
| 埋め込みモデル(MiniLM-L6-v2) | ~80 MB | CPU上で動作;GPU不要 |
| ベクターストア(Chroma in-memory) | ~150 MB | コーパスサイズに合わせてスケール |
| Pythonランタイム + フレームワークオーバーヘッド | ~300 MB | LangChainまたは最小限のllama-index |
| 合計最小値 | ~1.3–1.5 GB | 2 GBデバイスのOSに~500 MBを残す |
2 GBで失敗するもの
最も一般的な失敗は、コンテキストウィンドウ拡張時にLLMが利用可能なRAMを超えることです。 2 GBでは、1Bモデルのコンテキストはオペレーティングシステムがスワッピングを開始する前に約2kトークンに制限されます。7B以上のモデルのロードは即座に失敗します — Llama 3 8B Q4_K_Mだけで~5 GBが必要です。
2番目の失敗パターンはベクターストアの成長です。500ページのPDF用のChromaデータベースはチャンクサイズによって約400–600 MBを使用します。LLMと埋め込みモデルと合わせると、合計RAMが2 GBを超えます。解決策:インジェストを150ページ未満に制限し、256トークンチャンクを使用し、各セッション後にストアをプルーニングします。