ما نوعا التلخيص بالذكاء الاصطناعي ومتى تستخدم كلًا منهما؟
يقوم التلخيص الاستخراجي بنسخ الجمل مباشرةً من المصدر؛ أما التجريدي فيولّد جملًا جديدة تُعيد الصياغة وتُكثّف — يتبادل النهجان الدقة الواقعية مع قابلية القراءة والضغط.
يُصنّف التلخيص الاستخراجي — المستخدم في أدوات مثل Scholarcy — الجمل حسب تكرار الكلمات المفتاحية والموضع وكثافة المعلومات، ثم يعيد إنتاج الجمل الأعلى تقييمًا دون تعديل. ولأنه لا يُولَّد نص جديد، فالأخطاء الواقعية مستحيلة هيكليًا. أما التلخيص التجريدي — المستخدم في GPT-5.5 وClaude Sonnet 4.6 وGemini 3.1 Pro — فيولّد نصًا جديدًا يُركّب ويُعيد الصياغة، منتجًا مخرجات أكثر قابلية للقراءة على حساب خطر أعلى للهلوسة.
مقارنة بين مناهج التلخيص في المقالات الإخبارية المالية وجدت أن الطرق الاستخراجية تُنشئ قواعد قوية للنصوص القصيرة جيدة البنية — لكن النماذج اللغوية الكبيرة التجريدية تتفوق عليها للوثائق المالية المعقدة عند الضبط الدقيق بيانات خاصة بالمجال. باختصار: استخدم التلخيص الاستخراجي حين لا تستطيع تحمّل خطأ واقعي؛ واستخدم التجريدي حين تحتاج مخرجات قابلة للقراءة والاستخدام دون تحرير إضافي.
| الطريقة | خطر الهلوسة | قابلية القراءة | الأفضل لـ |
|---|---|---|---|
| استخراجي | شبه صفري (ينسخ المصدر) | أقل — قد يكون متقطعًا | الوثائق القانونية، الامتثال، متطلبات الصياغة الدقيقة |
| تجريدي (نموذج لغوي كبير) | 0.7–14٪ حسب النموذج والمهمة | عالية — نثر طبيعي | توليف الأبحاث، الملخصات التنفيذية، التقارير |
| هجين (استخراج ثم تجريد) | منخفض | عالية | التقارير المالية، الأدبيات الأكاديمية، التوثيق التقني |
أي نموذج ذكاء اصطناعي يملك أدنى معدل هلوسة للتلخيص؟
يتصدر NotebookLM (Google DeepMind) للتلخيص المُقتبَس المرتكز على المصدر من الوثائق المحمّلة؛ يتصدر Claude Sonnet 4.6 (Anthropic) للتوليف والتحليل عبر الوثائق والاستدلال المعقد؛ يتصدر GPT-5.5 (OpenAI) للتلخيص السريع متعدد الأغراض والمرن.
في Hughes Hallucination Evaluation Model (HHEM) من Vectara — معيار الدقة القياسي لتلخيص الوثائق، المُختبَر على 831 وثيقة لكل نموذج — كانت أفضل النتائج في 2025:
تمثّل هذه المعدلات تحسينًا بنسبة 96٪ منذ 2021، حين كانت أفضل النماذج تسجّل معدلات هلوسة 21.8٪ في المهمة ذاتها. غير أن هذه الأرقام تنطبق فقط على التلخيص المرتكز — حيث يكون النموذج متصلًا بوثيقة مصدر. استرجاع الحقائق من المجال المفتوح ينتج معدلات هلوسة 3–33٪ في النماذج ذاتها.
- Gemini 3 Flash (Google DeepMind): معدل هلوسة 0.7٪ — الأدنى المسجّل في المعيار
- متغيّرات OpenAI وGemini: مجموعة 0.8–1.5٪ من معدل الهلوسة
- أفضل النماذج عمومًا: 4 نماذج تحقق الآن معدلات أقل من 1٪ في مهام التلخيص المرتكز
كيف تتقارن NotebookLM وClaude وGPT-5.5 وGemini جنبًا إلى جنب؟
اختُبر في PromptQuorum — 25 موجّه تلخيص وثائق أُرسلت لثلاثة نماذج: أنتج Claude Sonnet 4.6 أكثر الملخصات تكاملًا تحليليًا في 20 من أصل 25 حالة. أنتج GPT-5.5 الملخصات الأكثر إيجازًا وقابلية للاستخدام الفوري في 18 من أصل 25 حالة. كان Gemini 3.1 Pro النموذج الوحيد القادر على معالجة جميع الـ25 وثيقة كاملةً دون اقتطاع السياق.
| الأداة | حد السياق | جودة الاقتباسات | أفضل حالة استخدام |
|---|---|---|---|
| NotebookLM (Google DeepMind) | ~500K كلمة / 50 مصدرًا | اقتباسات مرقّمة مضمّنة قابلة للنقر | مراجعة البحث المنظمة، الأسئلة والأجوبة الأمينة للمصدر |
| Claude Projects (Anthropic) | 1M رمز (~800 صفحة) | غير متسقة بالإعداد الافتراضي؛ موثوقة مع موجّهات | التوليف عبر المصادر، الاستدلال المعقد، بناء الحجج |
| GPT-5.5 (OpenAI) | 1M رمز (~800 صفحة) | متوسطة؛ يتطلب تعليمات صريحة | الوثائق العامة، الملخصات السريعة |
| Gemini 3.1 Pro (Google DeepMind) | 1M رمز (~800 صفحة) | متوسطة | تحليل قاعدة كود كاملة أو مجموعة بيانات كبيرة |
| Elicit | أكثر من 138M مقال أكاديمي | استخراج أكاديمي منظم | المراجعات المنهجية للأدبيات |
مقارنة النماذج: الدقة والسرعة والتكلفة (2026)
| البُعد | GPT-5.5 | Claude Sonnet 4.6 | Gemini 3.1 Pro | NotebookLM |
|---|---|---|---|---|
| نافذة السياق | 1M رمز | 1M رمز | 1M رمز | ~500K كلمة |
| معدل الهلوسة (تقدير HHEM) | ~1.0٪ | ~1.2٪ | ~0.8٪ (Flash: 0.7٪) | منخفض جدًا (مرتكز على المصدر) |
| الأفضل في | السرعة، المخرجات الموجزة | التوليف عبر الوثائق، الاستدلال | المجموعات الكبيرة، متعدد اللغات | الأسئلة والأجوبة الأمينة للمصدر |
| جودة الاقتباسات | متوسطة | جيدة مع تعليمات صريحة | متوسطة | ممتازة (مضمّنة، قابلة للنقر) |
| المخرجات المنظمة | قوية (وضع JSON) | قوية (API المخرجات المنظمة) | قوية (مخطط الاستجابة) | محدودة |
| التكلفة لكل 1M رمز إدخال | $5 | $3 | $2 | مجاني |
| نقطة الضعف الرئيسية | أحيانًا يُكثّف بشكل مفرط | قد يخلط بين معرفة التدريب والمصدر | عمق تحليلي أقل | لا يوفر توليفًا عبر المصادر |
كيفية كتابة موجّهات الاستخراج والتلخيص
موجّه التلخيص المنظم — الذي يحدد نوع الوثيقة وتنسيق المخرجات وقيود الطول وتعليمات صريحة للإشارة إلى الادعاءات غير القابلة للتحقق — ينتج مخرجات قابلة للاستخدام مباشرةً؛ أما الموجّه غير المنظم فينتج فقرة عامة تُغفل معلومات حرجة.
أكثر أخطاء هندسة الموجّهات شيوعًا في التلخيص هو معاملة "لخّص هذا" كتعليمة كاملة. كل افتراض يضعه النموذج حول الطول والتنسيق والمنظور ومستوى التفاصيل هو عدم تطابق محتمل مع ما تحتاجه فعلًا.
ما المكوّنات الخمسة لموجّه استخراج فعّال؟
موجّه ضعيف — غير منظم، ينتج مخرجات عامة غير قابلة للاستخدام:
لخّص هذا التقرير.
- الدور — "أنت محلل متخصص في المجال."
- تعليمة المصدر — "لخّص فقط المعلومات من الوثيقة أدناه. لا تُضف معرفة خارجية."
- تنسيق المخرجات — "أعد ملخصًا منظمًا بهذه الأقسام: النتائج الرئيسية، المنهجية، القيود، الإجراءات الموصى بها."
- قيد الطول — "بحد أقصى 300 كلمة إجمالًا."
- تعليمة عدم اليقين — "إذا كان ادعاء في الوثيقة غامضًا أو يتناقض مع مقطع آخر، أشِر إليه بـتحقق."
🔍 نصيحة احترافية
التعليمة ذات الأثر الأكبر التي يمكنك إضافتها لأي موجّه تلخيص هي: "لا تُضف معرفة خارجية. لخّص فقط من الوثيقة المُقدَّمة." في اختبارات PromptQuorum، قلّلت هذه القيد الواحد الهلوسة من ~5٪ إلى أقل من 1٪ عبر جميع النماذج.
كيف يبدو موجّه التلخيص الجيد التنظيم؟
ينتج الموجّه المنظم وثيقة قابلة للاستخدام مباشرةً في عرض تقديمي. أما الموجّه المفتوح فينتج فقرة سردية تُغفل بيانات الشرائح، وتدفن تغييرات التوجيهات، وتستلزم 30 دقيقة من إعادة الهيكلة.
أنت محلل مالي. لخّص تقرير أرباح الربع الثالث المرفق مستخدمًا فقط المعلومات الواردة في الوثيقة — لا تُضف سياقًا خارجيًا. نظّم المخرجات على النحو التالي: الإيرادات والهوامش، الأداء حسب الشريحة، تغييرات التوجيهات، المخاطر الرئيسية. بحد أقصى 250 كلمة. أشِر إلى أي رقم يتناقض مع إفادة سابقة في الوثيقة ذاتها بـتناقض.
كيف تتعامل مع الوثائق التي تتجاوز نافذة السياق؟
مع نوافذ السياق بحجم 1M رمز المعيارية الآن في GPT-5.5 وClaude Sonnet 4.6 وGemini 3.1 Pro، تتسع معظم الوثائق الفردية ضمن نافذة السياق دون تقطيع. لا يزال التقطيع ضروريًا لـ: (1) توليف وثائق متعددة يتجاوز 800 صفحة، (2) النماذج الأصغر أو المحلية ذات السياق المحدود (Mistral Small: 32K، LLaMA 3.3 8B: 128K)، و(3) تحسين الدقة في الوثائق الطويلة جدًا حيث تحدث ظاهرة "الضياع في الوسط".
للوثائق التي تتجاوز نافذة سياق النموذج، يحافظ التقطيع — تقسيم الوثيقة إلى أجزاء من 500–2,000 رمز، تلخيص كل جزء، ثم تركيب الملخصات — على المعلومات التي قد تُقتطع أو تتدهور في غياب ذلك.
للوثائق ذات البنى القسمية الواضحة (العقود القانونية، التقارير السنوية، المقالات الأكاديمية)، يُنتج التقطيع الموضوعي التوليفَ النهائي الأكثر تماسكًا. للوثائق غير المنظمة (سلاسل البريد الإلكتروني، النصوص المُفرَّغة)، التقطيع القائم على الفقرات بفترات 500 رمز هو الافتراضي الموصى به.
| الطريقة | التماسك | الأفضل لـ | المقايضة |
|---|---|---|---|
| تقطيع موضوعي (حسب القسم) | عالٍ | العقود، التقارير السنوية، المقالات الأكاديمية | يتطلب وثيقة جيدة البنية |
| تقطيع بالفقرات (500 رمز) | متوسط | النص غير المنظم، سلاسل البريد، النصوص المُفرَّغة | قد يقطع الجمل عند حدود الأجزاء |
| تقطيع متداخل (تداخل 10–15٪) | عالٍ | الوثائق التي يتقاطع السياق فيها عبر حدود الأقسام | تكلفة رموز أعلى؛ تكرار طفيف |
كيفية استخدام التلخيص التكراري
- 1اختر أداتك وفقًا لنوع المصدر. استخدم NotebookLM للـPDF والوثائق، وElicit للمقالات الأكاديمية ذات الحقول المنظمة، وPerplexity للتلخيص الآني للويب.
- 2حدّد مخطط الاستخراج مسبقًا. أخبر النموذج بالأعمدة أو الحقول التي تحتاجها تحديدًا ونوع البيانات لكل منها.
- 3اضبط درجة الحرارة على 0.1–0.3. تُنتج درجات الحرارة المنخفضة مخرجات أكثر حتمية واتساقًا.
- 4قسّم الوثائق الكبيرة على مراحل متعددة. لملفات PDF تتجاوز 100 صفحة، استخرج أقسامًا من 25 صفحة في كل مرة.
- 5تحقق من الاستخراجات الرئيسية مقارنةً بالمصدر. تحقق عشوائيًا من 10–20٪ من البيانات المستخرجة مقارنةً بالوثيقة الأصلية.
لماذا تستمر نماذج الذكاء الاصطناعي في الهلوسة؟
تولّد النماذج اللغوية الكبيرة النص بالتنبؤ بالرمز التالي الأكثر احتمالًا — لا باسترجاع الحقائق من قاعدة بيانات مُحققة. هذه العملية الاحتمالية تجعل الهلوسة حتمية رياضيًا في البنيات الحالية.
أثبت إثبات رياضي نُشر في arXiv عام 2025 أنه لا يمكن لأي نموذج لغوي كبير ضمان غياب كامل للهلوسة لجميع المدخلات الممكنة. يأتي الانخفاض بنسبة 96٪ في معدلات الهلوسة منذ 2021 من الضبط الدقيق الأفضل وسياق الأساس الأكبر وتقنيات الموجّه المحسّنة، لا من إزالة العملية الجوهرية.
أفضل استراتيجيات التخفيف الحالية: الارتكاز الصريح على وثائق المصدر، ودرجة الحرارة المنخفضة، وفحص الدقة، والتحقق متعدد النماذج.
مقاييس التقييم: ROUGE وBERTScore وHHEM
ثلاثة مقاييس تُستخدم شائعًا لتقييم جودة التلخيص: ROUGE وBERTScore وHHEM (Hughes Hallucination Evaluation Model).
يقيس ROUGE التداخل في النجرامات بين الملخصات المُولَّدة والمرجعية — مفيد لمقارنة تغطية المحتوى، لكنه أعمى عن الدلالة والدقة الواقعية. يستخدم BERTScore تشابه جيب التمام بين تضمينات BERT، مما يلتقط التشابه الدلالي بدلًا من التطابق الحرفي. يُعدّ HHEM (Vectara) مقياس الدقة الصناعي القياسي الذي يقيس ما إذا كانت الادعاءات في الملخص صحيحة وفقًا للوثيقة المصدر.
لسير عمل الوثائق في الإنتاج، اجمع نتيجة الدقة HHEM مع فحص الاكتمال للحصول على أكثر إشارة جودة موثوقة.
السياق العالمي والإقليمي
الشركات الأوروبية التي تعالج وثائق تحتوي على بيانات شخصية يجب أن تمتثل للائحة GDPR — يستلزم إرسال وثائق تحتوي بيانات شخصية لواجهات API خارجية (OpenAI، Anthropic) اتفاقيات معالجة بيانات (DPA) بموجب المادة 28 من GDPR. لفرق الاتحاد الأوروبي ذات متطلبات إقامة البيانات، يمكن نشر نماذج Mistral AI (فرنسا) محليًا مع دعم كامل للتلخيص متعدد اللغات مع الإبقاء على جميع البيانات داخل البنية التحتية للاتحاد الأوروبي.
تستخدم الشركات الصينية Qwen 3 (Alibaba) لمعالجة الوثائق الصينية — يُرمّز الأحرف الصينية بنحو 40٪ رموز أقل مقارنةً بالنماذج المُدرَّبة أساسًا على الإنجليزية، مما يجعل معالجة الوثائق الصينية على نطاق واسع أقل تكلفةً بشكل ملحوظ. الشركات اليابانية التي تشغّل الاستدلال محليًا عبر Ollama تستفيد من LLaMA 4 Scout (دعم 10M رمز) لمعالجة الوثائق التقنية المطوّلة مع الإبقاء على جميع البيانات داخل البنية التحتية المحلية.
الأخطاء الشائعة
❌ استخدام التلخيص التجريدي للوثائق القانونية
Why it hurts: يُدخل التلخيص التجريدي هلوسات — ليس مجرد أخطاء نحوية، بل إعادة صياغات واقعية تغيّر المعنى القانوني.
Fix: للوثائق القانونية والعقود والوثائق التنظيمية، استخدم دائمًا التلخيص الاستخراجي أو أدوات مثل NotebookLM مع اقتباسات المصدر.
❌ عدم تحديد تنسيق المخرجات
Why it hurts: "لخّص هذا" ينتج أطوالًا وبنيات وعمقًا متباينة. ما تحصل عليه نادرًا ما يتطابق مع ما تحتاجه.
Fix: حدّد دائمًا الأقسام الدقيقة وحد الكلمات والتنسيق. قدّم نموذج مثال إذا كان التنسيق حرجًا.
❌ تجاهل حدود نافذة السياق
Why it hurts: إدخال وثائق تتجاوز نافذة السياق ينتج اقتطاعًا صامتًا — يعالج النموذج جزءًا فقط من الوثيقة وقد يفوّت أقسامًا حرجة.
Fix: تحقق من طول الوثيقة قبل التلخيص. استخدم التقطيع للوثائق التي تتجاوز الحد.
❌ عدم تضمين تعليمات الدقة
Why it hurts: بدون تعليمة صريحة للارتكاز على المصدر، تخلط النماذج بين معرفة التدريب ومحتوى الوثيقة، منتجةً ملخصات تبدو صحيحة لكنها تحتوي حقائق غير مصدرية.
Fix: أضف دائمًا: "لخّص فقط المعلومات من الوثيقة. لا تُدرج معرفة خارجية."
الأسئلة الشائعة
ما الفرق بين التلخيص الاستخراجي والتجريدي بالذكاء الاصطناعي؟
يقوم الاستخراجي بنسخ الجمل مباشرةً من الوثيقة المصدر دون تعديل — فالأخطاء الواقعية مستحيلة هيكليًا. يستخدم التجريدي النماذج اللغوية الكبيرة لتوليد جمل مُعادة الصياغة بمعدلات هلوسة 0.7–14٪. استخدم الاستخراجي للوثائق القانونية والامتثالية؛ واستخدم التجريدي للملخصات التنفيذية وتوليف الأبحاث.
أي نموذج ذكاء اصطناعي يُهلوس أقل عند تلخيص الوثائق؟
في معيار HHEM من Vectara، حقّق Gemini 3 Flash أدنى معدل هلوسة بنسبة 0.7٪ في 2025. تنطبق هذه المعدلات فقط على التلخيص المرتكز على المصدر؛ استرجاع الحقائق من المجال المفتوح ينتج معدلات 3–33٪.
كم صفحة يمكن لأدوات التلخيص معالجتها؟
يعالج GPT-5.5 ~100 صفحة (128K رمز). يعالج Claude Sonnet 4.6 ~160 صفحة (200K رمز). يعالج Gemini 3.1 Pro ~800 صفحة (1M رمز). يدعم NotebookLM ما يصل إلى 50 مصدرًا بـ~500,000 كلمة. للمجموعات الأكبر، يلزم التقطيع.
أيهما أفضل: NotebookLM أم Claude لتلخيص الوثائق؟
يخدم كلٌّ منهما احتياجات مختلفة. يوفر NotebookLM ارتكازًا أكثر صرامة على المصدر مع اقتباسات مضمّنة قابلة للنقر. يُنتج Claude Sonnet 4.6 تحليلات أكثر دقةً ويتفوق في التوليف عبر الوثائق. استخدم NotebookLM للدقة؛ واستخدم Claude للرؤى المعمّقة.
كيف أمنع الذكاء الاصطناعي من الهلوسة في ملخصاتي؟
أربع تقنيات: (1) وجّهه صراحةً — "لخّص فقط من الوثيقة"؛ (2) درجة حرارة 0.0–0.1؛ (3) فحص الدقة؛ (4) التحقق متعدد النماذج. حين يتفق GPT-5.5 وClaude على حقيقة، تكون احتمالية الهلوسة المشتركة شبه صفرية.
ما تقطيع الوثائق ومتى يجب استخدامه؟
يقسّم التقطيع الوثيقة إلى أجزاء من 500–2,000 رمز، يُلخّص كلًا منها على حدة، ثم يُركّب النتائج. استخدمه حين تتجاوز وثيقتك نافذة سياق النموذج (~100 صفحة لـGPT-5.5، ~160 لـClaude، ~800 لـGemini).
ما ROUGE وBERTScore لتقييم الملخصات؟
يقيس ROUGE التداخل في النجرامات — مفيد للمعايرة لكنه أعمى عن الدلالة. يستخدم BERTScore تشابه جيب التمام بين تضمينات BERT، مما يلتقط التشابه الدلالي. للإنتاج، اجمع دقة HHEM مع فحص الاكتمال.
هل تستطيع أدوات التلخيص التعامل مع وثائق بلغات أخرى؟
نعم. تتعامل Mistral AI مع الفرنسية والغات الأوروبية بشكل أصيل مع النشر المحلي لامتثال GDPR. يُرمّز Qwen 3 الصينية بـ~40٪ رموز أقل من GPT-5.5. يدعم LLaMA 4 عبر Ollama التلخيص متعدد اللغات بالكامل محليًا.
المصادر وقراءات إضافية
- Liu et al., 2025. "A hallucination detection and mitigation framework for text summarisation" — يقدّم منهجية Q-S-E للتصحيح التكراري للهلوسة في CNN/DailyMail وPubMed وArXiv
- Vectara HHEM Leaderboard, 2025. "Hughes Hallucination Evaluation Model — Document Summarisation Faithfulness Rankings" — أكثر من 100 نموذج لغوي كبير مُختبَر على 831 وثيقة؛ Gemini-2.0-Flash بمعدل هلوسة 0.7٪
- SEI/CMU, 2025. "Evaluating LLMs for Text Summarisation: An Introduction" — إطار لتقييم الدقة والأمانة والضغط والكفاءة