ما هي جودة البرومبت؟
📍 In One Sentence
جودة البرومبت هي نسبة مدخلات الاختبار التي ينتج فيها النموذج مخرجات تستوفي جميع معايير النجاح المحددة.
جودة البرومبت هي مدى موثوقية البرومبت في إنتاج المخرجات المتوقعة عبر مدخلات ونماذج وظروف متنوعة. برومبت يعمل على عشرة أمثلة مختارة يدويًا قد يخفق في 20% من الوقت حين يتفاعل معه مستخدمون حقيقيون على نطاق واسع.
الجودة ليست رقمًا واحدًا. لها ثلاثة أبعاد مستقلة: الدقة، والاتساق، ومعدل اتباع التعليمات. يمكن أن يخفق برومبت في أي منها بينما يبدو ناجحًا على أمثلة منتقاة.
التقييم المنهجي يعني قياس الأبعاد الثلاثة مقابل مجموعة اختبار قابلة للاستنساخ — قبل النشر في الإنتاج. راجع مقاييس تقييم البرومبت للحصول على تحليل كامل لأساليب التسجيل.
🔍 نصيحة احترافية
حدّد معايير النجاح قبل بناء مجموعة الاختبار. تسجيل المخرجات دون Rubric محدد مسبقًا يُعيد إدخال الذاتية التي يهدف التقييم المنهجي إلى إزالتها.
ما هي المكونات الثلاثة لجودة البرومبت؟
المكونات الثلاثة هي الدقة والاتساق ومعدل اتباع التعليمات — وكل منها يتطلب استراتيجية اختبار منفصلة.
الدقة تقيس ما إذا كانت المخرجات تتطابق مع المعنى أو النتيجة المتوقعة. لبرومبتات التصنيف، الدقة هي نسبة المدخلات المصنفة بشكل صحيح.
الاتساق يقيس ما إذا كانت المدخلات ذاتها تنتج مخرجات ضمن النطاق المتوقع ذاته عبر تشغيلات متعددة. الحرارة العالية والبرومبتات غير المحددة كليهما يقللان الاتساق.
معدل اتباع التعليمات يقيس ما إذا كان النموذج يطيع جميع القيود: تنسيق المخرجات، وحد الطول، والحقول المطلوبة، والنبرة، والمحتوى المحظور. برومبت يقول "أجب بـJSON" يخفق في اتباع التعليمات في كل مرة يُعيد فيها نصًا عاديًا.
🔍 نقطة رئيسية
الدقة ومعدل اتباع التعليمات مقياسان مختلفان. قد يكون برومبت صحيحًا واقعيًا ومع ذلك يخفق في التنسيق أو الطول أو قيود النبرة — يجب قياس كليهما بشكل منفصل.
لماذا يفشل الفحص اليدوي العشوائي؟
الفحص اليدوي العشوائي ينتج نتائج غير قابلة للاستنساخ ويفوّت الحالات الحدية التي تسبب الفشل في الإنتاج. مهندسان يراجعان البرومبت ذاته مقابل أمثلة مختارة يدويًا مختلفة سيصلان إلى استنتاجات مختلفة.
المشاكل الهيكلية للمراجعة اليدوية:
- تحيز الاختيار: يختار المراجعون مدخلات يتوقعون نجاحها، لا مدخلات مصممة لكسر البرومبت
- غير قابل للاستنساخ: لا يمكن مقارنة تغيير برومبت بشكل عادل مع مراجعة يدوية سابقة
- غير قابل للتوسع: 10 أمثلة تفوّت 90% من أوضاع الفشل الظاهرة في مجموعة من 100 حالة
- بدون خط أساسي: بدون معدل نجاح مسجّل، لا يمكنك اكتشاف الانحدارات
| المعيار | الفحص اليدوي العشوائي | مجموعة الاختبار المنهجية |
|---|---|---|
| قابلية الاستنساخ | لا شيء - مختلف في كل مراجعة | كاملة - مجموعة الاختبار ذاتها في كل تشغيل |
| تغطية الحالات الحدية | تفوّت معظم الحالات الحدية | تشمل الحالات الحدية صراحةً |
| مقارنة الخط الأساسي | غير ممكن | مدمجة - مقارنة معدلات النجاح |
| التوسع | 5-10 أمثلة عمليًا | 20-200+ حالة |
⚠️ تحذير
الفحصوص اليدوية العشوائية ليست خطوطًا أساسية. إذا لم تتمكن من استنساخ تقييمك، لا يمكنك اكتشاف الانحدارات عند تغيير البرومبت أو النموذج.
كيف تبني مجموعة اختبار للبرومبت؟
ابنِ مجموعة اختبار بجمع مدخلات في ثلاث فئات ثم اكتب معايير نجاح صريحة لكل منها قبل تشغيل أي اختبار.
مدخلات المسار القياسي (40%): مدخلات نمطية صُمّم البرومبت للتعامل معها. يجب أن تنجح جميعها.
مدخلات الحالات الحدية (30%): مدخلات عند الحدود: مدخل فارغ، مدخل طويل جدًا، مدخل متعدد اللغات، تنسيق غير معتاد، حقول مطلوبة مفقودة.
مدخلات عدائية (30%): مدخلات مصممة لكسر البرومبت: تعليمات تتعارض مع برومبت النظام، طلبات لتجاهل القيود، أنماط شبيهة بحقن البرومبت.
اكتب معيار نجاح لكل مدخل قبل تشغيل الاختبار. مجموعة اختبار بدون مخرجات متوقعة ليست تقييمًا.
🔍 نصيحة احترافية
اكتب المخرجات المتوقعة لكل مدخل اختبار قبل تشغيل الاختبار. مجموعة اختبار بدون معايير محددة مسبقًا ليست تقييمًا — بل تُعيد إدخال الحكم اليدوي في لحظة التسجيل.
❌ نهج مبهم
اختبر البرومبت مع بعض الرسائل الإلكترونية وتحقق مما إذا كانت النتيجة جيدة.
✅ مجموعة اختبار منهجية
شغّل 20 مدخل اختبار: 10 رسائل إلكترونية من العملاء (مسار قياسي)، 6 حالات حدية (جسم فارغ، غير إنجليزي، بدون سطر موضوع)، 4 مدخلات عدائية (تعليمات مضمّنة في جسم الرسالة). معيار النجاح: مخرج JSON مع حقول [السبب، الأولوية، المشاعر] جميعها مملوءة، الأولوية في [منخفض، متوسط، عالٍ].
كيف تسجّل مخرجات البرومبت؟
💬 In Plain Terms
فكّر في Rubric التسجيل الخاص بك كقائمة تحقق يستخدمها معلم لتصحيح الأوراق — يجب وضع علامة على كل معيار قبل أن تُعدّ المخرجات صحيحة.
اختر أسلوب تسجيلك وفقًا لنوع المخرجات: التسجيل الثنائي pass/fail للمخرجات المنظمة، وRubric من 1-5 لمهام التوليد، وLLM-as-judge لتقييم النص الحر.
التسجيل الثنائي pass/fail هو الأكثر فائدة. استخدمه لمخرجات JSON، ونتائج التصنيف، والمخرجات ذات الإجابة الصحيحة الواضحة. معدل النجاح = المخرجات الصحيحة / إجمالي حالات الاختبار.
Rubric من 1-5 يعمل لمهام التوليد حيث يكون الائتمان الجزئي ذا معنى. حدّد كل مستوى تسجيل قبل الاختبار: 5 = صحيح تمامًا، 4 = مشكلة طفيفة، 3 = مقبول مع تحفظات، 2 = مشكلة جوهرية، 1 = خاطئ أو ضار.
LLM-as-judge يستخدم GPT-5.5 أو Claude Opus 4.8 لتسجيل المخرجات مقابل Rubric. في منتصف عام 2026، LLM-as-judge هو النهج السائد لتقييم مخرجات النص الحر على نطاق واسع.
| الأسلوب | الأفضل لـ | التوسع | الجهد البشري | الموثوقية |
|---|---|---|---|---|
| التسجيل الثنائي pass/fail | المخرجات المنظمة، التصنيف | أي حجم | صفر بعد الإعداد | عالية — موضوعية |
| Rubric من 1-5 | التوليد مع ائتمان جزئي | أقل من 100 حالة | متوسط — تسجيل يدوي | متوسطة — تباين بين المقيّمين |
| LLM-as-judge | النص الحر، مجموعات اختبار كبيرة | 1000+ حالة | منخفض — تصميم Rubric فقط | عالية — إذا كان Rubric دقيقًا |
// LLM-as-judge scoring prompt (pseudocode)
const judgePrompt = `
Score this customer support response 1-5:
5 = Correct, professional, addresses all concerns
4 = Correct, minor issue
3 = Partially correct
2 = Incorrect or missing key info
1 = Wrong, rude, or harmful
Question: {input}
Response: {output}
Score (1-5) + one-sentence justification:
`;🔍 نقطة رئيسية
LLM-as-judge يعمل بشكل أفضل عندما يحدد برومبت المحكّم Rubric بدقة. Rubric مبهم ينتج درجات غير متسقة — حدّد كل مستوى تسجيل بمثال ملموس قبل تشغيل المحكّم.
هل تختلف جودة البرومبت بين النماذج؟
نعم — يمكن أن يسجّل البرومبت ذاته بفارق 20+ نقطة بين GPT-5.5 وClaude Opus 4.8، أساسًا بسبب اختلافات في حساسية تنسيق التعليمات والتعامل مع برومبت النظام.
الفجوات في الجودة أكبر في:
- تنسيق مخرجات JSON: Claude Opus 4.8 يتبع المخططات المعقدة بدقة أكبر من GPT-5.5
- أولوية التعليمات: GPT-5.5 يُرجّح التعليمة الأخيرة؛ Claude Opus 4.8 يُرجّح برومبت النظام
- أنماط الرفض: نماذج OpenAI وAnthropic لها عتبات مختلفة للمحتوى الحدي
استخدم PromptQuorum لإرسال مجموعة الاختبار ذاتها إلى GPT-5.5 وClaude Opus 4.8 وGemini 2.5 Pro في تشغيل واحد ومقارنة معدلات النجاح جنبًا إلى جنب.
⚠️ تحذير
لا تفترض أن برومبتًا يجتاز GPT-5.5 سيجتاز Claude Opus 4.8. شغّل مجموعة الاختبار ذاتها على كل نموذج تخطط لنشره — قد يحتاج البرومبت إلى ضبط خاص بكل نموذج.
كيف تبدأ تقييم جودة البرومبت
ابدأ بمعايير النجاح قبل بناء مجموعة الاختبار — تقييم المخرجات بدون معايير محددة مسبقًا يُعيد إدخال الذاتية التي يهدف الاختبار المنهجي إلى إزالتها. اتبع الخطوات الست التالية لإعداد نظام تقييم قابل للتكرار.
- 1اكتب معايير النجاح قبل بناء مجموعة الاختبار: كيف تبدو المخرجات الناجحة من حيث التنسيق والمحتوى والقيود؟
- 2اجمع 20 مدخل اختبار: 8 مسار قياسي، و6 حالات حدية، و6 مدخلات عدائية. اكتب مخرجات متوقعة أو معايير نجاح لكل منها.
- 3اختر أسلوب تسجيل: ثنائي للمخرجات المنظمة، وRubric من 1-5 للتوليد، وLLM-as-judge للنص الحر.
- 4شغّل المدخلات الـ20 عبر برومبتك الحالي وسجّل كل مخرجات. سجّل معدل النجاح هذا كخطك الأساسي.
- 5أرسل مجموعة الاختبار ذاتها إلى GPT-5.5 وClaude Opus 4.8 عبر PromptQuorum وقارن معدلات النجاح حسب النموذج.
- 6حدّد عتبة انحدار: إذا خفّض تغيير برومبت معدل النجاح بأكثر من 5 نقاط، احجب النشر.
🔍 نصيحة احترافية
شغّل مجموعة الاختبار مرتين — مرة قبل أي تغيير في البرومبت ومرة بعده. الفرق في معدل النجاح هو درجة تأثير التغيير. انخفاض بأكثر من 5 نقاط يشير إلى انحدار.
ما هي أشيع الأخطاء في تقييم البرومبت؟
❌ اختبار مدخلات المسار القياسي فقط
Why it hurts: مدخلات المسار القياسي التي تنجح دائمًا لا تخبرك شيئًا عن الموثوقية في الإنتاج. الحالات الحدية والمدخلات العدائية هي ما يسبب الأعطال التي يواجهها المستخدمون.
Fix: يجب أن تكون 30% على الأقل من مدخلات الاختبار حالات حدية أو عدائية. مجموعة من 20 حالة يجب أن تشمل 6 حالات حدية على الأقل و4 مدخلات عدائية.
❌ عدم وجود مخرجات متوقعة لحالات الاختبار
Why it hurts: تسجيل المخرجات بدون معايير محددة مسبقًا يُعيد الحكم الذاتي الذي يهدف التقييم المنهجي إلى إزالته.
Fix: اكتب معيار نجاح لكل مدخل اختبار قبل تشغيل الاختبار. ملخص مخرجات متوقعة من 20 كلمة لكل حالة يكفي.
❌ استخدام معدل نجاح نموذج واحد على نموذج آخر
Why it hurts: البرومبت ذاته يسجّل بانتظام بفارق 10–20 نقطة بين GPT-5.5 وClaude Opus 4.8. افتراض أن معدل نجاح نموذج واحد ينطبق على آخر يؤدي إلى مفاجآت في الإنتاج.
Fix: شغّل مجموعة الاختبار بشكل منفصل على كل نموذج تخطط لنشره.
❌ بدون خط أساسي
Why it hurts: بدون معدل نجاح مسجّل من التقييم الأول، لا يمكنك اكتشاف الانحدارات عند تغيير البرومبت أو النموذج.
Fix: سجّل معدل النجاح في المرة الأولى التي تقيّم فيها برومبتًا. يجب مقارنة كل تغيير مستقبلي بذلك الرقم الأساسي.
🔍 نقطة رئيسية
كل خطأ هنا يُعيد إدخال الذاتية التي يهدف التقييم المنهجي إلى إزالتها. تعامل معها كأنماط مضادة يجب تطبيقها منذ بداية عملية تقييمك.
ما اللوائح الإقليمية التي تؤثر في تقييم البرومبت؟
تتطلب الأطر التنظيمية بشكل متزايد توثيق ضمان جودة مخرجات الذكاء الاصطناعي، مع التزامات محددة تختلف حسب الاختصاص القضائي.
الاتحاد الأوروبي (قانون الذكاء الاصطناعي 2025–2026): يجب على أنظمة الذكاء الاصطناعي عالية المخاطر بموجب قانون الذكاء الاصطناعي الأوروبي إثبات عمليات اختبار وضمان جودة موثقة. توفر مجموعات اختبار تقييم البرومبت وسجلات معدلات النجاح أدلة جاهزة للتدقيق على رقابة الجودة المنهجية. تتطلب المادة 22 من اللائحة العامة لحماية البيانات أيضًا إمكانية شرح القرارات الآلية التي تؤثر على الأشخاص.
الولايات المتحدة (SOC 2 / NIST AI RMF): تراجع عمليات تدقيق SOC 2 النوع II بشكل متزايد إدارة التغييرات المتعلقة بالذكاء الاصطناعي. مجموعات اختبار البرومبتات الموثقة مع سجل الإصدارات وخطوط أساسية لمعدلات النجاح تستوفي متطلبات التدقيق. يُركّز إطار إدارة مخاطر الذكاء الاصطناعي الصادر عن NIST (المحدّث حتى 2026) على القياس والمراقبة كضوابط مخاطر أساسية.
الصناعات المنظّمة: يجب على فرق الخدمات المالية والرعاية الصحية والقانونية التي تنشر أدوات قائمة على النماذج اللغوية الكبيرة الاحتفاظ بسجلات تقييم البرومبت كجزء من توثيق حوكمة النماذج.
🔍 نصيحة احترافية
إذا كانت مؤسستك تخضع لعمليات تدقيق SOC 2 أو تنظيمية، تصبح مجموعات اختبار تقييم البرومبت وسجلات معدلات النجاح أدلة للتدقيق. خزّنها إلى جانب مكتبة برومبتاتك لسهولة الاسترجاع.
قراءات ذات صلة
- مقاييس تقييم البرومبت: ماذا تقيس وكيف — تفصيل معدل النجاح وBLEU والتشابه الدلالي وLLM-as-judge
- كيفية اختبار البرومبتات عبر النماذج — التقييم متعدد النماذج لـGPT-5.5 مقابل Claude مقابل Gemini
- كيفية تقليل هشاشة البرومبت — مخططات المخرجات، ونقاط الارتكاز few-shot، وعتبات الانحدار
- بناء مكتبة برومبتات — خزّن مجموعات الاختبار إلى جانب البرومبتات مع بيانات وصفية لإعادة الاستخدام الجماعي
- أفضل أدوات تحسين البرومبت للفرق — أدوات تتضمن إدارة مجموعات الاختبار وتتبع معدلات النجاح
- أساسيات تحسين البرومبت — تقنيات أساسية لتحسين الدقة ومعدل اتباع التعليمات
الأسئلة الشائعة
ما هي جودة البرومبت؟
تقيس جودة البرومبت مدى موثوقية البرومبت في إنتاج المخرجات المتوقعة عبر مدخلات متنوعة. لها ثلاثة أبعاد: الدقة، والاتساق، ومعدل اتباع التعليمات. يُنتج البرومبت عالي الجودة مخرجات صحيحة ومتسقة ومنسقة بشكل صحيح في 85%+ من الوقت.
كيف تقيّم جودة البرومبت؟
ابنِ مجموعة اختبار من 20+ مدخلًا (مسار قياسي، حالات حدية، مدخلات عدائية)، حدّد معايير النجاح لكل منها قبل الاختبار، شغّل المدخلات وسجّل المخرجات. تتبع معدل النجاح الإجمالي كمقياسك الرئيسي وسجّل هذا الخط الأساسي لاكتشاف الانحدارات.
ما هو معدل اتباع التعليمات؟
معدل اتباع التعليمات هو نسبة المخرجات التي يطيع فيها النموذج جميع القيود: التنسيق، والطول، والنبرة، والنطاق، والمحتوى المحظور. معدل 90% يعني أن طلبًا واحدًا من كل 10 في الإنتاج يخفق. وهو مختلف عن الدقة ويجب قياسه بشكل منفصل.
لماذا يفشل الفحص اليدوي العشوائي؟
غير قابل للاستنساخ (يختار مراجعون مختلفون أمثلة مختلفة)، ومتحيز في الاختيار (يختار المراجعون حالات يتوقعون نجاحها)، وغير قابل للتوسع (10 أمثلة تفوّت 90% من أوضاع الفشل). تُنتج مجموعات الاختبار الآلية نتائج متسقة وقابلة للاستنساخ.
كم من حالات الاختبار تحتاجها مجموعة اختبار البرومبت؟
20 حالة على الأقل: 10 مسار قياسي، و5 حالات حدية، و5 مدخلات عدائية. أقل من 20 ينتج معدلات نجاح غير موثوقة إحصائيًا.
هل تختلف جودة البرومبت بين GPT-5.5 وClaude Opus 4.8؟
نعم، بشكل ملحوظ. البرومبت ذاته يسجّل بانتظام بفارق 10–20 نقطة. قِس دائمًا معدل النجاح بشكل منفصل على كل نموذج تخطط لنشره.
ما هو LLM-as-judge ومتى يجب استخدامه؟
يستخدم LLM-as-judge نموذجًا قادرًا لتسجيل المخرجات مقابل Rubric. استخدمه للمخرجات النصية الحرة حيث يكون التسجيل الثنائي غير كافٍ. يتوسع إلى آلاف الحالات دون مراجعة بشرية.
كيف تحدد عتبة انحدار معدل النجاح؟
سجّل معدل النجاح في أول تشغيل كخطك الأساسي. عتبة انحدار من 5 نقاط شائعة: إذا خفّض تغيير برومبت معدل النجاح بأكثر من 5 نقاط، احجب النشر. للسير العمل الحيوية (القانونية، الطبية، المالية)، استخدم عتبة نقطتين.
هل يجب مراعاة اللوائح عند استخدام تقييم البرومبت؟
نعم. يجب على أنظمة الذكاء الاصطناعي عالية المخاطر بموجب قانون الذكاء الاصطناعي الأوروبي إثبات عمليات اختبار موثقة. توفر مجموعات الاختبار وسجلات معدلات النجاح أدلة جاهزة للتدقيق. خزّنها إلى جانب مكتبة برومبتاتك.
المصادر
- OpenAI Evals Framework (github.com/openai/evals) — إطار مفتوح المصدر لتقييم مخرجات النماذج اللغوية الكبيرة مع منهج اختبار وأدوات تسجيل
- Anthropic Model Evaluations (anthropic.com) — نهج Anthropic لمنهجية تقييم القدرات والسلامة
- The Prompt Report: Systematic Survey of Prompting Techniques (arXiv:2406.06608) — Schulhoff وآخرون، 2024. إطار شامل يغطي تصميم وتقييم البرومبت في 50+ تقنية.
- DeepEval: LLM Evaluation Framework (github.com/confident-ai/deepeval) — Confident AI، 2024–2025. إطار مفتوح المصدر للتقييم الآلي لمخرجات النماذج اللغوية الكبيرة مع مقاييس ومجموعات اختبار وتكامل CI/CD.
- NIST AI Risk Management Framework (airc.nist.gov) — NIST، 2023–2026 (محدّث). إطار يغطي تقييم أنظمة الذكاء الاصطناعي، ومنهجية ضمان الجودة، وتوثيق الحوكمة للبيئات المنظّمة.