クイック回答
完全なRAGパイプラインには最低8 GB RAMが必要です。2 GBのみでは、TinyLlamaやPhi-2のような小さなLLM(どちらも約1.5 GBが必要)を実行できますが、埋め込みモデルがさらに0.5〜1 GBを追加し、ベクターストアやコンテキストのための余裕がほとんどありません。結果は限定的になります。
更新: 2026-05
重要なポイント
完全なRAGパイプラインには3つのメモリ消費コンポーネントがあります:LLM(モデルサイズにより1.5〜5 GB)、埋め込みモデル(all-MiniLMで~0.5 GB)、ChromaDBなどのベクターストア(インデックスサイズにより0.1〜0.5 GB)。 合計2 GB RAMでは、これらのコンポーネントのうち1つしか有用な品質レベルでロードできません。
TinyLlamaは1.1Bパラメータで、Q4量子化では約1.5 GBを使用します。Phi-2は2.7Bで約2.0 GBを使用します。どちらのモデルも埋め込みモデルのためのメモリがほとんど残りません — そして埋め込みなしでは、RAGシステムの核心であるセマンティック類似性検索を実行できません。
2 GB RAMでRAGを試みると、メモリ不足のクラッシュか極端なパフォーマンス低下のどちらかが発生します。オペレーティングシステム自体がMLワークロード開始前に0.3〜0.6 GBを消費します。
| 利用可能なRAM | 収まるもの | RAG品質 |
|---|---|---|
| 2 GB | TinyLlamaのみ、Embeddingsなし | 低品質 |
| 8 GB | Llama 3 8B + Embeddings + ChromaDB | 良好 |
| 16 GB | 13B LLM + 完全RAGスタック | 優秀 |
メモリが少ないデバイスを使用する必要がある場合、最も効果的な回避策はEmbeddingステップをリモートAPIに委任することです。OpenAIのada-002などのサービスはAPIコールを通じてEmbeddingsを生成します — テキストを送信し、ベクターを受け取り、軽量なベクターストアにローカルに保存します。これにより、ローカル埋め込みモデルの~0.5 GBコストがなくなります。
リモートEmbeddingsを使用することで、2 GBデバイスでは生成にTinyLlamaをローカルで実行しながら、検索にはクラウドEmbeddingsを使用できます。 品質はTinyLlamaの推論能力によって制限されますが、パイプラインは技術的に機能するようになります。リモートEmbeddingsはAPIコストが発生し、インターネット接続が必要なことに注意してください。
実際に良好に動作するローカルRAGシステムの設定に関する完全なガイドについては、最低ハードウェアとモデル選択をカバーしたローカルRAGセットアップガイドをご覧ください。