ما هو RAG
📍 In One Sentence
يسترجع RAG المستندات ذات الصلة من قاعدة معرفتك ويُغذّيها إلى LLM جنباً إلى جنب مع السؤال، لكي يُجيب النموذج من بياناتك بدلاً من التخمين.
💬 In Plain Terms
بدون RAG = امتحان بكتاب مغلق (النموذج يُجيب من الذاكرة، قد يختلق تفاصيل). مع RAG = امتحان بكتاب مفتوح (النموذج يراجع ملاحظاتك أولاً). قد يُسيء فهم الملاحظات، لكنه على الأقل لا يخترع حقائق.
يجمع RAG بين مُسترجع يجد المعلومات ذات الصلة ومُولِّد يكتب الاستجابة النهائية باستخدام تلك المعلومات. يبحث المُسترجع في قاعدة معرفة (مثل ملفات PDF المُفهرسة أو صفحات الويب أو المستندات الداخلية) بناءً على استعلام المستخدم. ثم يقرأ المُولِّد المقاطع المُسترجعة وينتج استجابة تستشهد بذلك المحتوى أو تعكسه.
هذا مختلف عن استدعاء نموذج اللغة البسيط، حيث يُجيب النموذج فقط من معاملاته الداخلية. في RAG، "يقرأ" النموذج سياقاً جديداً في كل مرة تطرح سؤالاً. اعتباراً من أبريل 2026، يُعدّ RAG البنية المعمارية القياسية لأنظمة الذكاء الاصطناعي للمؤسسات التي تحتاج إلى الإجابة من المستندات الخاصة أو البيانات الحديثة أو قواعد المعرفة الخاصة.
لماذا يهم RAG
يهم RAG لأنه يُقلل الهلوسة ويُبقي الاستجابات محدَّثة. يمكن لنموذج اللغة النقي أن يخترع تفاصيل بثقة، خاصةً في الموضوعات المتخصصة أو الحديثة. مع RAG، تُرسى الاستجابات في المستندات المُسترجعة التي تتحكم فيها.
يهم RAG أيضاً للخصوصية والحوكمة. بدلاً من ضبط دقيق نموذج ببيانات حساسة، يمكنك الاحتفاظ بتلك البيانات في بنيتك التحتية الخاصة وإطعام فقط الشظايا ذات الصلة للنموذج في وقت الاستعلام. بهذه الطريقة، يستدل النموذج على محتواك دون استيعابه بشكل دائم.
عندما لا تستطيع المستندات التي تريد استرجاعها مغادرة بنيتك التحتية، يمكن تشغيل أنبوب RAG بأكمله على جهازك الخاص.
كيف يعمل نظام RAG خطوة بخطوة
يمر نظام RAG النموذجي بأربع مراحل رئيسية: الاستيعاب والفهرسة والاسترجاع والتوليد. يمكن ضبط كل مرحلة بشكل مستقل.
- 1الاستيعاب: تحمّل المستندات (مثل ملفات PDF ومقالات قاعدة المعرفة والتذاكر والكود) وتقسّمها إلى شظايا، غالباً من 200-1000 رمز لكل منها. يمكن إرفاق بيانات وصفية مثل العناوين والتواريخ والمؤلفين أو العلامات.
- 2الفهرسة: تُحوَّل كل شظية إلى تمثيل متجهي باستخدام نموذج تضمينات، ثم تُخزَّن في قاعدة بيانات متجهية أو فهرس بحث. يسمح ذلك للنظام بالعثور على المحتوى المشابه دلالياً للاستعلامات الجديدة.
- 3الاسترجاع: عندما يطرح المستخدم سؤالاً، يُضمِّن النظام الاستعلام ويسترجع الشظايا الأكثر صلة من الفهرس. يمكن تطبيق مرشحات في هذه المرحلة (مثل نطاق التاريخ أو نوع المستند أو أذونات المستخدم).
- 4التوليد: يبني النظام برومبتاً يتضمن سؤال المستخدم والشظايا المُسترجعة، ثم يُرسله إلى نموذج لغوي. يُولِّد النموذج استجابةً يجب أن تكون متوافقة مع السياق المقدم.
لأن الاسترجاع والتوليد مفصولان، يمكنك تحسين أحدهما دون تغيير الآخر — على سبيل المثال، التحول إلى مُسترجع أفضل مع الحفاظ على نفس النموذج.
RAG مقابل الضبط الدقيق: متى تستخدم كلاً منهما
يحل RAG والضبط الدقيق مشكلتين مختلفتين ويعملان بشكل أفضل عند دمجهما وليس عند معاملتهما كبديلين. استخدم RAG أولاً. أضف الضبط الدقيق فقط عندما تحتاج إلى تغييرات سلوكية ثابتة لا يستطيع RAG توفيرها من خلال البرومبت.
| العامل | RAG | الضبط الدقيق |
|---|---|---|
| مصدر المعرفة | مُسترجع في وقت الاستعلام من مستنداتك | مدمج في معاملات النموذج أثناء التدريب |
| حداثة البيانات | في الوقت الفعلي — حدّث المستندات وتتغير الاستجابات فوراً | ثابت — يتطلب إعادة التدريب للتحديث |
| البيانات الحساسة | تبقى في بنيتك التحتية — النموذج لا يستوعبها أبداً | تُمتَص في أوزان النموذج بشكل دائم |
| إمكانية التتبع | يمكن تتبع كل استجابة إلى المستندات المصدر | لا يوجد مصدر واضح للنص المُولَّد |
| تكلفة التحديث | منخفضة — إضافة أو حذف مستندات من الفهرس | مرتفعة — تتطلب جلسة تدريب جديدة |
| تغيير الأسلوب/السلوك | لا يستطيع تغيير سلوك النموذج | يستطيع تعليم الأسلوب والنبرة وسلوك المجال بشكل ثابت |
| الأفضل لـ | السياسات، وثائق المنتج، البيانات الحديثة، البيانات الخاصة | سلوك المجال الثابت، المهام الضيقة والمستقرة |
| الاستخدام النموذجي | سؤال وجواب المؤسسات، روبوتات الدعم، مساعدو البحث | معالجة الوثائق القانونية، الترميز الطبي |
مقارنة قواعد البيانات المتجهية
يعتمد اختيار قاعدة البيانات المتجهية المناسبة على مستوى التوسع ومتطلبات الإقامة للبيانات ونموذج التشغيل. يغطي الجدول التالي الخيارات الست الأكثر انتشاراً اعتباراً من 2026.
| قاعدة البيانات | النوع | الأفضل لـ | إقامة البيانات في الاتحاد الأوروبي | ذاتية الاستضافة | التكلفة التقريبية |
|---|---|---|---|---|---|
| Pinecone | سحابية مُدارة | بدء سريع، حجم إنتاجي بأدنى تشغيل | منطقة الاتحاد الأوروبي متاحة | لا | طبقة مجانية؛ ~70 دولار/شهر للبدء |
| Weaviate | مفتوحة المصدر / مُدارة | مخطط مرن، بحث هجين، امتثال الاتحاد الأوروبي | ذاتية الاستضافة أو سحابة الاتحاد الأوروبي | نعم | مجاني (ذاتية الاستضافة)؛ مُدارة من 25 دولار/شهر |
| Chroma | مفتوحة المصدر، محلية | التطوير المحلي، النماذج الأولية، مجموعات المستندات الصغيرة | على أجهزة محلية (تحكم كامل) | نعم | مجاني |
| Milvus | مفتوحة المصدر / مُدارة | أحمال العمل المؤسسية على نطاق المليارات | ذاتية الاستضافة أو سحابة الاتحاد الأوروبي (Zilliz) | نعم | مجاني (ذاتية الاستضافة)؛ مُدارة من 65 دولار/شهر |
| Qdrant | مفتوحة المصدر / مُدارة | بحث متجهي مُصفَّى عالي الأداء | منطقة الاتحاد الأوروبي متاحة؛ ذاتية الاستضافة | نعم | مجاني (ذاتية الاستضافة)؛ مُدارة من 25 دولار/شهر |
| pgvector | امتداد PostgreSQL | الفرق التي تستخدم PostgreSQL بالفعل وتتجنب بنية تحتية جديدة | حيثما يعمل PostgreSQL | نعم | مجاني (امتداد PostgreSQL) |
مثال: بدون RAG مقابل مع RAG
تتضح فائدة RAG عند المقارنة بين الإجابة من الذاكرة والإجابة باستخدام المستندات المُسترجعة. فيما يلي مثال مفاهيمي لسؤال حول السياسات الداخلية.
برومبت سيئ – بدون RAG
"ما هي سياسة تعويض النفقات السفرية لشركتنا؟"
سيُخمّن النموذج بناءً على أنماط عامة، والتي قد تكون خاطئة لمؤسستك.
برومبت جيد – مع RAG
"أنت مساعد يُجيب على أسئلة حول السياسات الداخلية لشركتنا. فيما يلي المقتطفات ذات الصلة من السياسة:
...أدرج شظايا نص السياسة المُسترجعة...
باستخدام المعلومات الواردة في هذه المقتطفات فقط، أجب على السؤال: 'ما هي سياسة تعويض النفقات السفرية لشركتنا؟' إذا لم تكن المعلومات مغطاة في المقتطفات، أوضح ذلك."
في الحالة الثانية، النموذج مُرسى في وثائق سياستك الفعلية، وواضح ما يجب فعله عندما تكون المعلومات غير موجودة.
RAG في سير العمل متعدد النماذج
يصبح RAG أكثر قوةً عند دمجه مع نماذج متعددة وبرومبت مهيكل. يمكنك:
- استخدام نموذج أو خدمة لتضمين واسترجاع المستندات، ونموذج آخر لتوليد الاستجابات.
- تطبيق برومبتات تركّز على الاستدلال (مثل chain-of-thought) على السياق المُسترجع.
- تشغيل نفس برومبت RAG على عدة نماذج لمقارنة كيفية استخدام كل منها لنفس المستندات.
هذه النمطية هي إحدى أكبر نقاط قوة RAG: يمكنك تحديث المكونات الفردية — المُسترجع، الفهرس، المُولِّد، البرومبتات — دون إعادة بناء النظام بأكمله.
RAG في البيئات المنظَّمة: الاتحاد الأوروبي، اليابان، والصين
RAG هو البنية المفضلة للمؤسسات التي تعمل في ظل لوائح حماية البيانات، لأن البيانات الحساسة لا تدخل معاملات النموذج أبداً.
الاتحاد الأوروبي / القانون العام لحماية البيانات: RAG هو البنية المفضلة للمؤسسات في الاتحاد الأوروبي التي تتعامل مع البيانات الشخصية. لأن المستندات تبقى في بنيتك التحتية الخاصة وتُمرَّر فقط الشظايا ذات الصلة إلى LLM في وقت الاستعلام، لا تُرسَل بيانات شخصية إلى موفر خارجي أثناء التوليد. يُلزم قانون الذكاء الاصطناعي للاتحاد الأوروبي المادة 11 أنظمةَ الذكاء الاصطناعي عالية المخاطر بتوثيق مصادر المعرفة — نظام RAG مع مخزن مستندات مُصدَّر يلبي هذا المتطلب مباشرةً.
اليابان (METI): تُلزم توجيهات حوكمة الذكاء الاصطناعي الصادرة عن METI المؤسساتِ بتوثيق مصادر البيانات المستخدمة في القرارات المساعَدة بالذكاء الاصطناعي. نظام RAG مع مخزن مستندات مُنسَّق ومُصدَّر ينتج بالضبط هذا السجل التدقيقي.
الصين (CAC): تُلزم تدابير خدمة الذكاء الاصطناعي التوليدي الصادرة عن CAC (2023) بتوثيق مصادر بيانات الاسترجاع ومراجعتها قبل استخدامها في أنظمة الذكاء الاصطناعي للإنتاج. بنى RAG مع المصادر المحلية المعتمدة هي البنية المعمارية المتوافقة القياسية لذكاء الأعمال الاصطناعي في الصين.
الأخطاء الشائعة
❌ شظايا طويلة جداً
Why it hurts: الشظايا التي تتجاوز 1000 كلمة تُقلل دقة الاسترجاع وتُضيّع رموز السياق بمحتوى غير ذي صلة.
Fix: استخدم شظايا من 200-500 كلمة مع تداخل 10-20٪. اختبر 3 أحجام للشظايا قبل اتخاذ قرار.
❌ بدون عتبة صلة
Why it hurts: تمرير جميع الشظايا المُسترجعة إلى LLM بصرف النظر عن درجة التشابه يُضيف ضوضاء إلى السياق ويُربك النموذج.
Fix: حدد حداً أدنى لتشابه جيب التمام يبلغ 0.7. أعد "لم يُوجد في قاعدة المعرفة" عندما لا تتجاوز أي شظية الحد.
❌ الثقة بالمحتوى المُسترجع كتعليمات
Why it hurts: إذا احتوت المستندات المُسترجعة على نص معادٍ، قد يُفسّر النموذج ذلك المحتوى كتعليمات نظام، مما يؤدي إلى حقن البرومبت.
Fix: استخدم محددات واضحة بين تعليمات النظام والمحتوى المُسترجع. لا تثق أبداً بالمحتوى المُسترجع كتعليمات قابلة للتنفيذ.
❌ عدم اختبار الاسترجاع بشكل مستقل
Why it hurts: معظم إخفاقات RAG هي إخفاقات استرجاع — تُعاد مستندات خاطئة. تحسين المُولِّد لا يُساعد إذا فشل الاسترجاع.
Fix: اختبر مُسترجعك بشكل مستقل على 20 استعلاماً تمثيلياً قبل تقييم الأنبوب الكامل.
كيفية تنفيذ RAG
- 1حدّد مصادر المعرفة: المستندات وملفات PDF وقواعد البيانات أو واجهات APIs التي تحتاج الذكاء الاصطناعي إلى الإجابة منها.
- 2حوّل المستندات إلى تضمينات قابلة للبحث باستخدام قاعدة بيانات متجهية (Pinecone، Weaviate، Chroma، Milvus) بشظايا من 200-500 كلمة.
- 3أعدّ أنبوب الاسترجاع في وقت الاستعلام: حوّل الاستعلام إلى متجه، واسترجع الشظايا الأكثر تشابهاً، ومرّر السياق والسؤال إلى LLM.
- 4نفّذ استراتيجية تقسيم بتداخل 10-20٪ للحفاظ على تماسك السياق بين الشظايا المتجاورة.
- 5أضف عتبة الصلة (>0.7 تشابه جيب التمام) ومعالجة احتياطية عندما لا يُوجد سياق ذو صلة.
المصادر
- Lewis, P., et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." NeurIPS 2020. — ورقة RAG الأصلية التي تُقدّم بنية الاسترجاع-ثم-التوليد.
- Gao, Y., et al. (2023). "Retrieval-Augmented Generation for Large Language Models: A Survey." arXiv:2312.10997. — مسح شامل لبنى RAG ومتغيراتها حتى 2023.
- Guu, K., et al. (2020). "REALM: Retrieval-Augmented Language Model Pre-Training." ICML 2020. — نهج ما قبل التدريب الذي يدمج الاسترجاع في تدريب نماذج اللغة.
- OpenAI. (2024). "Retrieval and Augmentation in Language Models." — توثيق المنصة.
الأسئلة الشائعة
ما هو RAG؟
يسترجع RAG (التوليد المُعزَّز بالاسترجاع) المستندات ذات الصلة قبل توليد الاستجابة، بدلاً من الاعتماد على معرفة تدريب النموذج. الاستجابة مُرساة في مستنداتك، وليست مخترعة.
كيف يُقلل RAG الهلوسة؟
يُرسي RAG الاستجابة في النص المُسترجع. يُخبر البرومبت النموذج بالإجابة فقط من المقتطفات المقدمة والإشارة إلى المعلومات المفقودة. هذا يُلغي دافع النموذج لاختراع تفاصيل معقولة.
ما الفرق بين RAG والضبط الدقيق؟
يسترجع RAG المعرفة في وقت الاستعلام ويُضيفها إلى البرومبت. يُعدّل الضبط الدقيق معاملات النموذج بشكل دائم. RAG أفضل للبيانات المتغيرة؛ الضبط الدقيق للسلوك الثابت.
هل يعمل RAG مع أي نموذج لغوي؟
نعم. RAG مستقل عن النموذج. أي LLM يقبل برومبتاً بسياق يمكنه استخدام المستندات المُسترجعة. ينطبق هذا على GPT-5.5 وClaude Opus وGemini والنماذج مفتوحة المصدر مثل Llama والنماذج المحلية عبر Ollama.
ما الحجم المثالي للشظايا في RAG؟
لمعظم الحالات: 200-500 كلمة لكل شظية مع تداخل 10-20٪ بين الشظايا المتجاورة. الشظايا الأصغر (50-100 كلمة) تُحسّن الدقة؛ الشظايا الأكبر (500+ كلمة) تُعطي سياقاً أكثر لكن تُخاطر بمقاطع غير ذات صلة.
ما هي عتبة الصلة في RAG؟
حد درجة التشابه. إذا كانت درجة التشابه لمستند مُسترجع أقل من الحد (مثل 0.7 تشابه جيب التمام)، لا يُمرَّر إلى LLM. هذا يمنع السياق منخفض الجودة من إرباك النموذج.
هل RAG أفضل من نافذة سياق كبيرة؟
لمجموعات المستندات الضخمة، نعم. يبحث RAG في ملايين المستندات في أجزاء من الثانية عبر التشابه الدلالي. نوافذ السياق الكبيرة أغلى وتتطلب معرفة المستندات المراد إدراجها مسبقاً.
هل يمكنني دمج RAG مع الضبط الدقيق؟
نعم. اضبط نموذجاً دقيقاً لتحسين الأسلوب والنبرة أو سلوك المجال. ثم استخدم RAG لتثبيته في الحقائق الحالية. هذا يخلق الأفضل من كليهما: سلوك ثابت + ترسية وقائعية.
كيف أتجنب هجمات حقن البرومبت في RAG؟
تحقق من المحتوى المُسترجع قبل إدراجه في البرومبت. استخدم محددات واضحة بين تعليمات النظام والنص المُسترجع. لا تعامل المحتوى المُسترجع أبداً كتعليمات قابلة للتنفيذ. راقب الأنماط المشبوهة.
هل يحتاج RAG إلى قاعدة بيانات متجهية؟
لا للمجموعات الصغيرة. بحث الكلمات المفتاحية BM25 يعمل لأقل من 10,000 مستند بدون متجهات. للتشابه الدلالي في المجموعات الأكبر، قاعدة البيانات المتجهية (Weaviate، Pinecone، Chroma، Milvus) ضرورية.