ما هو برومبت الاتساق الذاتي
يعني برومبت الاتساق الذاتي أخذ عينات من عدة استجابات مستقلة للبرومبت نفسه واختيار الاستنتاج الأكثر اتساقاً. بدلاً من سلسلة أفكار واحدة، تحصل على مسارات متعددة، قد تختلف.
الفكرة بسيطة: إذا استدل النموذج بطرق مختلفة متعددة وتقاطعت أغلب المسارات على الإجابة نفسها، فتلك الإجابة أكثر موثوقية من تشغيل واحد. إذا اختلفت المسارات، تعرف أن المشكلة غامضة أو صعبة وتحتاج مراجعة أدق.
قدّمت Wang et al. الاتساق الذاتي عام 2023 (ICLR) وأظهرت تحسينات دقة ملحوظة في الرياضيات والمنطق ومهام الاستدلال. تستفيد التقنية من مبدأ إحصائي أساسي: توافق تقديرات مستقلة عديدة أكثر موثوقية من تقدير واحد.
لماذا يهم برومبت الاتساق الذاتي
يهم برومبت الاتساق الذاتي لأن نماذج اللغة يمكن أن تكون غير مستقرة في مهام الاستدلال الصعبة — تغييرات طفيفة في أخذ العينات قد تُغيّر الإجابة. بالنظر إلى مجموعة محاولات بدلاً من محاولة واحدة، تُقلل أثر أي هلوسة أو خطأ مفرد.
- مسائل الرياضيات والمنطق.
- الأسئلة التحليلية متعددة الخطوات.
- القرارات ذات المقايضات الدقيقة حيث تُغيّر الانزلاقات الاستدلالية الصغيرة النتيجة.
- أي استدلال خاص بمجال حيث دقة التشغيل الواحد أقل من 90٪.
ما تُظهره الأرقام
أثبتت الورقة الأصلية لـ Wang et al. (2023) الاتساق الذاتي في الاستدلال الحسابي (معيار GSM8K)، وهو اختبار قياسي لقدرات الرياضيات لدى نماذج اللغة. تُظهر النتائج نمطاً واضحاً:
النمط: كل عينة إضافية تُحسّن الدقة، لكن بعوائد متناقصة. الانتقال من 1 إلى 5 عينات يُعطي أكبر مكسب (+10 نقاط مئوية). الانتقال من 20 إلى 40 يُضيف فقط 2 نقطة مئوية. لأغراض عملية في معظمها، 5–10 عينات هي نقطة التوازن الأمثل بين الدقة والتكلفة.
| الطريقة | دقة GSM8K | العينات | مضاعف التكلفة |
|---|---|---|---|
| برومبت معياري (بدون سلسلة أفكار) | 18٪ | 1 | 1× |
| سلسلة الأفكار (تشغيل واحد) | 56٪ | 1 | 1.5× |
| اتساق ذاتي (5 عينات) | 66٪ | 5 | 7.5× |
| اتساق ذاتي (10 عينات) | 70٪ | 10 | 15× |
| اتساق ذاتي (20 عينة) | 72٪ | 20 | 30× |
| اتساق ذاتي (40 عينة) | 74٪ | 40 | 60× |
كيف يعمل برومبت الاتساق الذاتي في الممارسة
في الممارسة، يتّبع برومبت الاتساق الذاتي نمطاً من مرحلتين: توليد استجابات متنوعة ثم تجميعها. تُبقي برومبت المهمة ثابتاً لكنك تسمح بالعشوائية حتى يستكشف النموذج مسارات استدلالية مختلفة.
سير عمل نموذجي:
- 1استخدم برومبت بأسلوب الاستدلال (في أغلب الأحيان بتعليمات سلسلة الأفكار) واضبط درجة الحرارة على 0.7–1.0 حتى يُنتج النموذج شروحاً متنوعة. تتحكم درجة الحرارة في العشوائية: 0 = حتمي (نفس الإجابة دائماً)، 1.0 = أقصى تنويع.
- 2شغّل البرومبت نفسه مرات عديدة (مثلاً 5–20) واجمع جميع الإجابات النهائية. يجب أن يكون كل تشغيل مستقلاً — عينات درجة حرارة مختلفة، لا نتائج مخزنة مؤقتاً.
- 3الجمع: عدّ أي إجابة تظهر في أغلب الأحيان، أو جمّع الإجابات المتشابهة. استخدم إجابة التصويت الأغلبي كنتيجة نهائية.
- 4اختيارياً، اطلب من النموذج التوفيق بين الخلافات: "هذه 10 إجابات للسؤال نفسه. أيها يظهر أكثر؟ أسباب الخلاف؟" هذا يُضيف بيانات وصفية للثقة.
الاتساق الذاتي مقابل التوافق متعدد النماذج
الاتساق الذاتي يأخذ عينات من النموذج نفسه مرات عديدة. التوافق متعدد النماذج يأخذ عينات من نماذج مختلفة مرة واحدة لكل منها. كلاهما يُطبّق المبدأ نفسه — التصويت الأغلبي على مسارات استدلالية متنوعة — لكنهما يكشفان أنماط فشل مختلفة.
PromptQuorum يُتيح التوافق متعدد النماذج بشكل أصلي — يُرسل برومبتاً إلى نماذج متعددة ويقارن. للقرارات الحاسمة، ادمج الاثنين: شغّل الاتساق الذاتي ضمن نموذجك الرئيسي وتحقق من إجابة التوافق مع نموذج ثانٍ.
| النهج | كيف يعمل | ما يكشفه | النقاط العمياء |
|---|---|---|---|
| الاتساق الذاتي (نموذج واحد) | نفس البرومبت، نفس النموذج، 5–20 تشغيل بدرجة حرارة T=0.7+ | عدم استقرار أخذ العينات، الأخطاء العشوائية | الانحياز المنهجي للنموذج (نفس الانحياز في كل عينة) |
| التوافق متعدد النماذج | نفس البرومبت، نماذج مختلفة، تشغيل واحد لكل منها | الانحيازات الخاصة بالنموذج، النقاط العمياء المعمارية | قد تشترك جميع النماذج في الفجوة نفسها في بيانات التدريب |
| مدمج (الأقوى) | نماذج متعددة × عينات متعددة لكل منها | كل من الأخطاء العشوائية والانحيازات المنهجية | التكلفة: N نموذج × M عينة = N×M استدعاءات API |
متى تستخدم برومبت الاتساق الذاتي
يجب استخدام برومبت الاتساق الذاتي عندما تكون تكلفة الإجابة الخاطئة عالية والمهمة تنطوي على استدلال غير تافه. تُبادل الحساب والكمون بمزيد من المتانة.
المرشحون الجيدون يشملون:
- الأسئلة التحليلية التي تدفع قرارات تجارية أو تقنية.
- مهام الترميز المعقدة حيث الأخطاء المنطقية مُكلفة.
- الاستدلال التعليمي أو من نوع الامتحانات حيث تهم الخطوات الوسيطة.
- أي سير عمل لاحظت فيه بالفعل عدم استقرار عمليات التشغيل المفردة.
- مسائل الرياضيات والمسائل المنطقية وتركيب البحوث والتحليل المالي.
| التقنية | العينات | التكلفة | الأفضل لـ | مكسب الدقة |
|---|---|---|---|---|
| إجابة واحدة (خط الأساس) | 1 | 1× | المهام البسيطة، المخاطر المنخفضة | — |
| سلسلة الأفكار | 1 | ~1.5× | الرياضيات والمنطق وخطوة بخطوة | معتدل (+5–10 نقطة مئوية) |
| اتساق ذاتي | 5–20 | 7.5–30× | الاستدلال الصعب، المخاطر العالية | كبير (+18 نقطة مئوية في GSM8K) |
| توافق متعدد النماذج | 3–5 نماذج | 3–5× | كشف الانحيازات الخاصة بالنموذج | معتدل-كبير |
| كلاهما مدمجَين | 5 × 3 نماذج | 15× | أقصى موثوقية | الأعلى |
الأخطاء الشائعة في برومبت الاتساق الذاتي
فيما يلي المزالق التي تُضعف الاتساق الذاتي وكيفية تجنّبها:
- استخدام درجة الحرارة 0 (الوضع الحتمي). لماذا يُضر: كل عينة متطابقة. التصويت على 10 إجابات متطابقة لا يُخبرك بشيء. الحل: اضبط درجة الحرارة على 0.7–1.0 لتوليد مسارات استدلالية متنوعة.
- استخدام الاتساق الذاتي للأسئلة الواقعية البسيطة. لماذا يُضر: "ما عاصمة فرنسا؟" تُنتج "باريس" في كل مرة. أنفقت 10× الرموز دون مكسب دقة. الحل: احتفظ بالاتساق الذاتي للمهام حيث دقة التشغيل الواحد أقل من 90٪ بشكل ملحوظ.
- توليد عدد قليل جداً من العينات (2–3). لماذا يُضر: مع 2 عينتين مختلفتين، لا يوجد مُرجَّح. مع 3، انقسام 2–1 يُعطي توافقاً ضعيفاً. الحل: استخدم 5 عينات على الأقل. مكسب الدقة من 1→5 هو الجزء الأكثر انحداراً من المنحنى.
- التصويت على نص الإجابة الكامل بدلاً من الإجابة النهائية. لماذا يُضر: قد تصل إجابتان إلى الإجابة نفسها عبر مسارات استدلالية مختلفة تماماً. مقارنة النص تقول إنهما مختلفتان؛ مقارنة الإجابة تقول إنهما متطابقتان. الحل: استخرج الإجابة النهائية فقط (يتطلب تنسيق "الإجابة: X") وصوّت عليها.
برومبت الاتساق الذاتي في PromptQuorum
PromptQuorum هي أداة إرسال ذكاء اصطناعي متعددة النماذج تُكمّل برومبت الاتساق الذاتي بشكل طبيعي بإتاحة توليد ومقارنة استجابات متعددة بسهولة. يمكنك التعامل مع "عمليات تشغيل متعددة لنموذج واحد" و"نماذج متعددة على برومبت واحد" كطبقتين من فحوصات الاتساق.
مع PromptQuorum، يمكنك:
- إعادة استخدام إطار مُركّز على الاستدلال (مثل TRACE أو APE) وتشغيله عدة مرات لكل نموذج لجمع سلاسل أفكار متنوعة.
- تشغيل برومبت الاستدلال نفسه على عدة نماذج في آنٍ واحد لمعرفة ما إذا كانت تتقاطع على الإجابة نفسها.
- حفظ سير عمل الاتساق الذاتي كقوالب، حتى يتمكن فريقك من تطبيق "أخذ عينات متعددة ثم التجميع" مراراً دون تصميم النمط من الصفر.
كيفية استخدام برومبت الاتساق الذاتي
- 1للمهام الاستدلالية المعقدة، ولّد مخرجات متعددة (5–10) من البرومبت نفسه ببذور عشوائية مختلفة. اطرح على النموذج السؤال نفسه 5 مرات. ستحصل على 5 إجابات مختلفة.
- 2حلّل المخرجات لإيجاد الأنماط المتسقة ("التوافق"). إذا اتفقت 4 من 5 إجابات على جواب، فذلك التطابق هو إشارة ثقتك. إذا اختلفت الـ5 جميعها، المهمة غامضة أو البرومبت يحتاج تحسيناً.
- 3استخدم الاتساق الذاتي لكشف الهلوسة في مهام البحث والمعرفة. إذا سألت "ما عاصمة فرنسا؟" و3 إجابات تقول "باريس" بينما 2 تقول "ليون"، التوافق (باريس) هو إجابتك.
- 4اضبط درجة الحرارة (T) على قيمة أعلى (0.7–1.0) لتشجيع المخرجات المتنوعة. درجات الحرارة المنخفضة (T = 0) تُنتج نفس المخرج الحتمي في كل مرة، مما يُلغي الغرض. الاتساق الذاتي يحتاج التباين لإيجاد التوافق.
- 5نفّذ الاتساق الذاتي في خطوط معالجة الإنتاج حيث تُتيح التكلفة ذلك. تشغيل 5–10× توليدات أكثر مُكلف، لكن للقرارات الحاسمة (الاستشارات الطبية والتوصيات المالية وتركيب البحوث)، إشارة التوافق تُبرر التكلفة.
قراءات ذات صلة
- برومبت سلسلة الأفكار — تقنية الاستدلال بمسار واحد التي يُوسّعها الاتساق الذاتي إلى مسارات متعددة
- شجرة الأفكار وReAct — نهج الاستدلال المتشعّب المرتبط بالاتساق الذاتي
- حقن البرومبت والأمان — اعتبارات الأمان عند تنفيذ خطوط معالجة متعددة العينات
- درجة الحرارة وTop-P — معاملات أخذ العينات التي تجعل الاتساق الذاتي يعمل
- سلسلة البرومبتات — سير عمل متعدد الخطوات حيث يمكن تطبيق الاتساق الذاتي في كل خطوة
- هلوسات الذكاء الاصطناعي: كيفية كشفها وإيقافها — الاتساق الذاتي كطريقة لكشف الهلوسة
المصادر
- Wang et al. (2023). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171 — الورقة الأساسية التي تُقدّم الاتساق الذاتي مع التصويت الأغلبي على مسارات الاستدلال
- Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903 — ورقة سلسلة الأفكار التي يقوم عليها الاتساق الذاتي
- Brown et al. (2020). "Language Models are Few-Shot Learners." NeurIPS 2020. arXiv:2005.14165 — العمل التأسيسي في التعلم السياقي الذي يُمكّن كلاً من CoT والاتساق الذاتي
- Anthropic. "دليل هندسة البرومبت." docs.anthropic.com — أفضل الممارسات لضبط درجة الحرارة وأخذ العينات في الإنتاج
الأسئلة الشائعة
ما هو برومبت الاتساق الذاتي؟
برومبت الاتساق الذاتي تقنية تُولّد فيها استجابات مستقلة متعددة للسؤال نفسه — لكل منها مسار استدلالي خاص — ثم تختار الإجابة التي تظهر في أغلب الأحيان. بدلاً من الاعتماد على إجابة ذكاء اصطناعي، تعتمد على توافق استجابات عديدة. قدّمتها Wang et al. (2023) وتُحسّن الدقة بشكل ملحوظ في الرياضيات والمنطق ومهام الاستدلال متعدد الخطوات.
كم عدد العينات الضرورية للاتساق الذاتي؟
لمعظم المهام، 5–10 عينات تُوفّر أفضل توازن دقة-تكلفة. أظهرت الورقة الأصلية تحسّن الدقة بسرعة من 1 إلى 5 عينات، ثم عوائد متناقصة ما وراء 20. الانتقال من 20 إلى 40 عينة أضاف فقط 2 نقطة مئوية في GSM8K. ابدأ بـ5؛ زد إلى 10–20 فقط للقرارات عالية المخاطر.
هل يعمل الاتساق الذاتي في المهام البسيطة؟
ليس بشكل ملحوظ. للبحث عن الحقائق والتصنيف البسيط والكتابة القصيرة، إجابة واحدة كافية دائماً وأقل تكلفة بكثير. الاتساق الذاتي يُضيف قيمة فقط في المهام حيث دقة التشغيل الواحد للنموذج أقل من ~90٪ — عادةً الرياضيات والمسائل المنطقية والتحليل متعدد الخطوات والاستدلال المعقد.
أي درجة حرارة يجب استخدامها للاتساق الذاتي؟
اضبط درجة الحرارة على 0.7–1.0. تتطلب التقنية مسارات استدلالية متنوعة — إذا كانت درجة الحرارة 0 (حتمية)، كل عينة تُنتج المخرج المتطابق والتصويت لا معنى له. درجة الحرارة الأعلى تُنشئ التباين الذي يجعل التصويت الأغلبي مفيداً.
كم يزيد الاتساق الذاتي في التكلفة؟
تقريباً 5–20× رموز أكثر لكل مهمة، لأنك تُولّد 5–20 استجابة كاملة بدلاً من واحدة. للقرارات الحاسمة مبرر، لكنه إهدار للمهام الروتينية.
هل الاتساق الذاتي مثل أخذ عينات "best-of-N"؟
مشابه لكن ليس متطابقاً. Best-of-N يُولّد N إجابة ويختار الأفضل (في أغلب الأحيان بمقيّم جودة). الاتساق الذاتي يُولّد N مسار استدلال ويختار الإجابة الأكثر شيوعاً — التصويت على الاستنتاج لا على الجودة. الاتساق الذاتي لا يحتاج مقيّم جودة؛ يستخدم الاتفاق كإشارة.
هل يمكن استخدام الاتساق الذاتي مع برومبت سلسلة الأفكار؟
نعم — هذا المزيج الأصلي والأكثر فعالية. كل عينة من N عيناتك تستخدم استدلال سلسلة الأفكار، مُنتِجةً مسار استدلال كامل بالإضافة إلى إجابة نهائية. ثم تصوّت على الإجابات النهائية من جميع مسارات N. قد تختلف مسارات الاستدلال، لكن إذا توصّل أغلبها إلى الاستنتاج نفسه، فذلك الاستنتاج متين.
كيف يرتبط PromptQuorum بالاتساق الذاتي؟
PromptQuorum يُطبّق مبدأ التوافق نفسه عبر نماذج مختلفة بدلاً من داخل نموذج واحد. بدلاً من سؤال النموذج نفسه 10 مرات، تسأل 5 نماذج مختلفة مرة واحدة لكل منها وتقارن إجاباتها. حيث تتوافق، الثقة عالية. حيث تختلف، الادعاء يحتاج تحقق. هذا يكشف الانحيازات الخاصة بالنموذج التي لا يستطيع الاتساق الذاتي لنموذج واحد اكتشافها.