Skip to main content
PromptQuorumPromptQuorum
Home/Prompt Engineering/كيفية تقييم جودة البرومبت: إطار عمل عملي
Techniques

كيفية تقييم جودة البرومبت: إطار عمل عملي

·٩ دقائق للقراءة·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

جودة البرومبت تقيس مدى موثوقية البرومبت في إنتاج المخرجات المتوقعة عبر مدخلات ونماذج وظروف متنوعة. تعتمد معظم الفرق على الفحص اليدوي العشوائي، الذي يفوّت الحالات الحدية، ولا يُعدّ قابلًا للتوسع، وينتج نتائج غير قابلة للاستنساخ بين المهندسين أو إصدارات البرومبت.

جودة البرومبت هي مدى موثوقية البرومبت في إنتاج المخرجات المتوقعة عبر مدخلات وظروف متنوعة. ثلاثة أبعاد قابلة للقياس: الدقة (تطابق المخرجات مع القصد)، والاتساق (تنتج المدخلات ذاتها نطاق المخرجات ذاته)، ومعدل اتباع التعليمات (تُطاع جميع القيود). اختبر بمجموعة من 20 حالة وتتبع معدل النجاح كخط أساسك.

Key Takeaways

  • جودة البرومبت = الدقة + الاتساق + معدل اتباع التعليمات عبر مدخلات متنوعة
  • الفحص اليدوي العشوائي غير قابل للاستنساخ ويفوّت الحالات الحدية — استخدم مجموعات الاختبار الآلية
  • مجموعة الاختبار الدنيا القابلة للتطبيق تحتاج 20 حالة: مسار قياسي، وحالات حدية، ومدخلات عدائية
  • التسجيل الثنائي pass/fail هو المقياس الأكثر فائدة لبرومبتات المخرجات المنظمة
  • LLM-as-judge (يسجّل GPT-5.5 أو Claude المخرجات مقابل Rubric) يتوسع للمهام النصية الحرة
  • استخدم PromptQuorum لإرسال مجموعة الاختبار ذاتها إلى GPT-5.5 وClaude Opus 4.8 ومقارنة معدلات النجاح جنبًا إلى جنب

Quick Facts

  • ·مجموعة الاختبار الدنيا القابلة للتطبيق: 20 حالة — 10 مسار قياسي، 5 حالات حدية، 5 مدخلات عدائية
  • ·التسجيل الثنائي pass/fail هو الأكثر فائدة للمخرجات المنظمة ذات الإجابة الصحيحة الواضحة
  • ·يسجّل GPT-5.5 وClaude Opus 4.8 بفارق 10–20 نقطة في المتوسط على البرومبت ذاته
  • ·يتوسع تسجيل LLM-as-judge إلى آلاف حالات الاختبار دون مراجعة بشرية
  • ·معدل اتباع تعليمات بنسبة 90% يعني أن طلبًا واحدًا من كل 10 في الإنتاج يخفق في قيد ما

ما هي جودة البرومبت؟

📍 In One Sentence

جودة البرومبت هي نسبة مدخلات الاختبار التي ينتج فيها النموذج مخرجات تستوفي جميع معايير النجاح المحددة.

جودة البرومبت هي مدى موثوقية البرومبت في إنتاج المخرجات المتوقعة عبر مدخلات ونماذج وظروف متنوعة. برومبت يعمل على عشرة أمثلة مختارة يدويًا قد يخفق في 20% من الوقت حين يتفاعل معه مستخدمون حقيقيون على نطاق واسع.

الجودة ليست رقمًا واحدًا. لها ثلاثة أبعاد مستقلة: الدقة، والاتساق، ومعدل اتباع التعليمات. يمكن أن يخفق برومبت في أي منها بينما يبدو ناجحًا على أمثلة منتقاة.

التقييم المنهجي يعني قياس الأبعاد الثلاثة مقابل مجموعة اختبار قابلة للاستنساخ — قبل النشر في الإنتاج. راجع مقاييس تقييم البرومبت للحصول على تحليل كامل لأساليب التسجيل.

🔍 نصيحة احترافية

حدّد معايير النجاح قبل بناء مجموعة الاختبار. تسجيل المخرجات دون Rubric محدد مسبقًا يُعيد إدخال الذاتية التي يهدف التقييم المنهجي إلى إزالتها.

ما هي المكونات الثلاثة لجودة البرومبت؟

المكونات الثلاثة هي الدقة والاتساق ومعدل اتباع التعليمات — وكل منها يتطلب استراتيجية اختبار منفصلة.

الدقة تقيس ما إذا كانت المخرجات تتطابق مع المعنى أو النتيجة المتوقعة. لبرومبتات التصنيف، الدقة هي نسبة المدخلات المصنفة بشكل صحيح.

الاتساق يقيس ما إذا كانت المدخلات ذاتها تنتج مخرجات ضمن النطاق المتوقع ذاته عبر تشغيلات متعددة. الحرارة العالية والبرومبتات غير المحددة كليهما يقللان الاتساق.

معدل اتباع التعليمات يقيس ما إذا كان النموذج يطيع جميع القيود: تنسيق المخرجات، وحد الطول، والحقول المطلوبة، والنبرة، والمحتوى المحظور. برومبت يقول "أجب بـJSON" يخفق في اتباع التعليمات في كل مرة يُعيد فيها نصًا عاديًا.

🔍 نقطة رئيسية

الدقة ومعدل اتباع التعليمات مقياسان مختلفان. قد يكون برومبت صحيحًا واقعيًا ومع ذلك يخفق في التنسيق أو الطول أو قيود النبرة — يجب قياس كليهما بشكل منفصل.

لماذا يفشل الفحص اليدوي العشوائي؟

الفحص اليدوي العشوائي ينتج نتائج غير قابلة للاستنساخ ويفوّت الحالات الحدية التي تسبب الفشل في الإنتاج. مهندسان يراجعان البرومبت ذاته مقابل أمثلة مختارة يدويًا مختلفة سيصلان إلى استنتاجات مختلفة.

المشاكل الهيكلية للمراجعة اليدوية:

  • تحيز الاختيار: يختار المراجعون مدخلات يتوقعون نجاحها، لا مدخلات مصممة لكسر البرومبت
  • غير قابل للاستنساخ: لا يمكن مقارنة تغيير برومبت بشكل عادل مع مراجعة يدوية سابقة
  • غير قابل للتوسع: 10 أمثلة تفوّت 90% من أوضاع الفشل الظاهرة في مجموعة من 100 حالة
  • بدون خط أساسي: بدون معدل نجاح مسجّل، لا يمكنك اكتشاف الانحدارات
المعيارالفحص اليدوي العشوائيمجموعة الاختبار المنهجية
قابلية الاستنساخلا شيء - مختلف في كل مراجعةكاملة - مجموعة الاختبار ذاتها في كل تشغيل
تغطية الحالات الحديةتفوّت معظم الحالات الحديةتشمل الحالات الحدية صراحةً
مقارنة الخط الأساسيغير ممكنمدمجة - مقارنة معدلات النجاح
التوسع5-10 أمثلة عمليًا20-200+ حالة

⚠️ تحذير

الفحصوص اليدوية العشوائية ليست خطوطًا أساسية. إذا لم تتمكن من استنساخ تقييمك، لا يمكنك اكتشاف الانحدارات عند تغيير البرومبت أو النموذج.

كيف تبني مجموعة اختبار للبرومبت؟

ابنِ مجموعة اختبار بجمع مدخلات في ثلاث فئات ثم اكتب معايير نجاح صريحة لكل منها قبل تشغيل أي اختبار.

مدخلات المسار القياسي (40%): مدخلات نمطية صُمّم البرومبت للتعامل معها. يجب أن تنجح جميعها.

مدخلات الحالات الحدية (30%): مدخلات عند الحدود: مدخل فارغ، مدخل طويل جدًا، مدخل متعدد اللغات، تنسيق غير معتاد، حقول مطلوبة مفقودة.

مدخلات عدائية (30%): مدخلات مصممة لكسر البرومبت: تعليمات تتعارض مع برومبت النظام، طلبات لتجاهل القيود، أنماط شبيهة بحقن البرومبت.

اكتب معيار نجاح لكل مدخل قبل تشغيل الاختبار. مجموعة اختبار بدون مخرجات متوقعة ليست تقييمًا.

🔍 نصيحة احترافية

اكتب المخرجات المتوقعة لكل مدخل اختبار قبل تشغيل الاختبار. مجموعة اختبار بدون معايير محددة مسبقًا ليست تقييمًا — بل تُعيد إدخال الحكم اليدوي في لحظة التسجيل.

نهج مبهم

اختبر البرومبت مع بعض الرسائل الإلكترونية وتحقق مما إذا كانت النتيجة جيدة.

مجموعة اختبار منهجية

شغّل 20 مدخل اختبار: 10 رسائل إلكترونية من العملاء (مسار قياسي)، 6 حالات حدية (جسم فارغ، غير إنجليزي، بدون سطر موضوع)، 4 مدخلات عدائية (تعليمات مضمّنة في جسم الرسالة). معيار النجاح: مخرج JSON مع حقول [السبب، الأولوية، المشاعر] جميعها مملوءة، الأولوية في [منخفض، متوسط، عالٍ].

كيف تسجّل مخرجات البرومبت؟

💬 In Plain Terms

فكّر في Rubric التسجيل الخاص بك كقائمة تحقق يستخدمها معلم لتصحيح الأوراق — يجب وضع علامة على كل معيار قبل أن تُعدّ المخرجات صحيحة.

اختر أسلوب تسجيلك وفقًا لنوع المخرجات: التسجيل الثنائي pass/fail للمخرجات المنظمة، وRubric من 1-5 لمهام التوليد، وLLM-as-judge لتقييم النص الحر.

التسجيل الثنائي pass/fail هو الأكثر فائدة. استخدمه لمخرجات JSON، ونتائج التصنيف، والمخرجات ذات الإجابة الصحيحة الواضحة. معدل النجاح = المخرجات الصحيحة / إجمالي حالات الاختبار.

Rubric من 1-5 يعمل لمهام التوليد حيث يكون الائتمان الجزئي ذا معنى. حدّد كل مستوى تسجيل قبل الاختبار: 5 = صحيح تمامًا، 4 = مشكلة طفيفة، 3 = مقبول مع تحفظات، 2 = مشكلة جوهرية، 1 = خاطئ أو ضار.

LLM-as-judge يستخدم GPT-5.5 أو Claude Opus 4.8 لتسجيل المخرجات مقابل Rubric. في منتصف عام 2026، LLM-as-judge هو النهج السائد لتقييم مخرجات النص الحر على نطاق واسع.

الأسلوبالأفضل لـالتوسعالجهد البشريالموثوقية
التسجيل الثنائي pass/failالمخرجات المنظمة، التصنيفأي حجمصفر بعد الإعدادعالية — موضوعية
Rubric من 1-5التوليد مع ائتمان جزئيأقل من 100 حالةمتوسط — تسجيل يدويمتوسطة — تباين بين المقيّمين
LLM-as-judgeالنص الحر، مجموعات اختبار كبيرة1000+ حالةمنخفض — تصميم Rubric فقطعالية — إذا كان Rubric دقيقًا
typescript
// LLM-as-judge scoring prompt (pseudocode)
const judgePrompt = `
Score this customer support response 1-5:
5 = Correct, professional, addresses all concerns
4 = Correct, minor issue
3 = Partially correct
2 = Incorrect or missing key info
1 = Wrong, rude, or harmful

Question: {input}
Response: {output}

Score (1-5) + one-sentence justification:
`;

🔍 نقطة رئيسية

LLM-as-judge يعمل بشكل أفضل عندما يحدد برومبت المحكّم Rubric بدقة. Rubric مبهم ينتج درجات غير متسقة — حدّد كل مستوى تسجيل بمثال ملموس قبل تشغيل المحكّم.

هل تختلف جودة البرومبت بين النماذج؟

نعم — يمكن أن يسجّل البرومبت ذاته بفارق 20+ نقطة بين GPT-5.5 وClaude Opus 4.8، أساسًا بسبب اختلافات في حساسية تنسيق التعليمات والتعامل مع برومبت النظام.

الفجوات في الجودة أكبر في:

  • تنسيق مخرجات JSON: Claude Opus 4.8 يتبع المخططات المعقدة بدقة أكبر من GPT-5.5
  • أولوية التعليمات: GPT-5.5 يُرجّح التعليمة الأخيرة؛ Claude Opus 4.8 يُرجّح برومبت النظام
  • أنماط الرفض: نماذج OpenAI وAnthropic لها عتبات مختلفة للمحتوى الحدي

استخدم PromptQuorum لإرسال مجموعة الاختبار ذاتها إلى GPT-5.5 وClaude Opus 4.8 وGemini 2.5 Pro في تشغيل واحد ومقارنة معدلات النجاح جنبًا إلى جنب.

⚠️ تحذير

لا تفترض أن برومبتًا يجتاز GPT-5.5 سيجتاز Claude Opus 4.8. شغّل مجموعة الاختبار ذاتها على كل نموذج تخطط لنشره — قد يحتاج البرومبت إلى ضبط خاص بكل نموذج.

كيف تبدأ تقييم جودة البرومبت

ابدأ بمعايير النجاح قبل بناء مجموعة الاختبار — تقييم المخرجات بدون معايير محددة مسبقًا يُعيد إدخال الذاتية التي يهدف الاختبار المنهجي إلى إزالتها. اتبع الخطوات الست التالية لإعداد نظام تقييم قابل للتكرار.

  1. 1
    اكتب معايير النجاح قبل بناء مجموعة الاختبار: كيف تبدو المخرجات الناجحة من حيث التنسيق والمحتوى والقيود؟
  2. 2
    اجمع 20 مدخل اختبار: 8 مسار قياسي، و6 حالات حدية، و6 مدخلات عدائية. اكتب مخرجات متوقعة أو معايير نجاح لكل منها.
  3. 3
    اختر أسلوب تسجيل: ثنائي للمخرجات المنظمة، وRubric من 1-5 للتوليد، وLLM-as-judge للنص الحر.
  4. 4
    شغّل المدخلات الـ20 عبر برومبتك الحالي وسجّل كل مخرجات. سجّل معدل النجاح هذا كخطك الأساسي.
  5. 5
    أرسل مجموعة الاختبار ذاتها إلى GPT-5.5 وClaude Opus 4.8 عبر PromptQuorum وقارن معدلات النجاح حسب النموذج.
  6. 6
    حدّد عتبة انحدار: إذا خفّض تغيير برومبت معدل النجاح بأكثر من 5 نقاط، احجب النشر.

🔍 نصيحة احترافية

شغّل مجموعة الاختبار مرتين — مرة قبل أي تغيير في البرومبت ومرة بعده. الفرق في معدل النجاح هو درجة تأثير التغيير. انخفاض بأكثر من 5 نقاط يشير إلى انحدار.

ما هي أشيع الأخطاء في تقييم البرومبت؟

اختبار مدخلات المسار القياسي فقط

Why it hurts: مدخلات المسار القياسي التي تنجح دائمًا لا تخبرك شيئًا عن الموثوقية في الإنتاج. الحالات الحدية والمدخلات العدائية هي ما يسبب الأعطال التي يواجهها المستخدمون.

Fix: يجب أن تكون 30% على الأقل من مدخلات الاختبار حالات حدية أو عدائية. مجموعة من 20 حالة يجب أن تشمل 6 حالات حدية على الأقل و4 مدخلات عدائية.

عدم وجود مخرجات متوقعة لحالات الاختبار

Why it hurts: تسجيل المخرجات بدون معايير محددة مسبقًا يُعيد الحكم الذاتي الذي يهدف التقييم المنهجي إلى إزالته.

Fix: اكتب معيار نجاح لكل مدخل اختبار قبل تشغيل الاختبار. ملخص مخرجات متوقعة من 20 كلمة لكل حالة يكفي.

استخدام معدل نجاح نموذج واحد على نموذج آخر

Why it hurts: البرومبت ذاته يسجّل بانتظام بفارق 10–20 نقطة بين GPT-5.5 وClaude Opus 4.8. افتراض أن معدل نجاح نموذج واحد ينطبق على آخر يؤدي إلى مفاجآت في الإنتاج.

Fix: شغّل مجموعة الاختبار بشكل منفصل على كل نموذج تخطط لنشره.

بدون خط أساسي

Why it hurts: بدون معدل نجاح مسجّل من التقييم الأول، لا يمكنك اكتشاف الانحدارات عند تغيير البرومبت أو النموذج.

Fix: سجّل معدل النجاح في المرة الأولى التي تقيّم فيها برومبتًا. يجب مقارنة كل تغيير مستقبلي بذلك الرقم الأساسي.

🔍 نقطة رئيسية

كل خطأ هنا يُعيد إدخال الذاتية التي يهدف التقييم المنهجي إلى إزالتها. تعامل معها كأنماط مضادة يجب تطبيقها منذ بداية عملية تقييمك.

ما اللوائح الإقليمية التي تؤثر في تقييم البرومبت؟

تتطلب الأطر التنظيمية بشكل متزايد توثيق ضمان جودة مخرجات الذكاء الاصطناعي، مع التزامات محددة تختلف حسب الاختصاص القضائي.

الاتحاد الأوروبي (قانون الذكاء الاصطناعي 2025–2026): يجب على أنظمة الذكاء الاصطناعي عالية المخاطر بموجب قانون الذكاء الاصطناعي الأوروبي إثبات عمليات اختبار وضمان جودة موثقة. توفر مجموعات اختبار تقييم البرومبت وسجلات معدلات النجاح أدلة جاهزة للتدقيق على رقابة الجودة المنهجية. تتطلب المادة 22 من اللائحة العامة لحماية البيانات أيضًا إمكانية شرح القرارات الآلية التي تؤثر على الأشخاص.

الولايات المتحدة (SOC 2 / NIST AI RMF): تراجع عمليات تدقيق SOC 2 النوع II بشكل متزايد إدارة التغييرات المتعلقة بالذكاء الاصطناعي. مجموعات اختبار البرومبتات الموثقة مع سجل الإصدارات وخطوط أساسية لمعدلات النجاح تستوفي متطلبات التدقيق. يُركّز إطار إدارة مخاطر الذكاء الاصطناعي الصادر عن NIST (المحدّث حتى 2026) على القياس والمراقبة كضوابط مخاطر أساسية.

الصناعات المنظّمة: يجب على فرق الخدمات المالية والرعاية الصحية والقانونية التي تنشر أدوات قائمة على النماذج اللغوية الكبيرة الاحتفاظ بسجلات تقييم البرومبت كجزء من توثيق حوكمة النماذج.

🔍 نصيحة احترافية

إذا كانت مؤسستك تخضع لعمليات تدقيق SOC 2 أو تنظيمية، تصبح مجموعات اختبار تقييم البرومبت وسجلات معدلات النجاح أدلة للتدقيق. خزّنها إلى جانب مكتبة برومبتاتك لسهولة الاسترجاع.

قراءات ذات صلة

الأسئلة الشائعة

ما هي جودة البرومبت؟

تقيس جودة البرومبت مدى موثوقية البرومبت في إنتاج المخرجات المتوقعة عبر مدخلات متنوعة. لها ثلاثة أبعاد: الدقة، والاتساق، ومعدل اتباع التعليمات. يُنتج البرومبت عالي الجودة مخرجات صحيحة ومتسقة ومنسقة بشكل صحيح في 85%+ من الوقت.

كيف تقيّم جودة البرومبت؟

ابنِ مجموعة اختبار من 20+ مدخلًا (مسار قياسي، حالات حدية، مدخلات عدائية)، حدّد معايير النجاح لكل منها قبل الاختبار، شغّل المدخلات وسجّل المخرجات. تتبع معدل النجاح الإجمالي كمقياسك الرئيسي وسجّل هذا الخط الأساسي لاكتشاف الانحدارات.

ما هو معدل اتباع التعليمات؟

معدل اتباع التعليمات هو نسبة المخرجات التي يطيع فيها النموذج جميع القيود: التنسيق، والطول، والنبرة، والنطاق، والمحتوى المحظور. معدل 90% يعني أن طلبًا واحدًا من كل 10 في الإنتاج يخفق. وهو مختلف عن الدقة ويجب قياسه بشكل منفصل.

لماذا يفشل الفحص اليدوي العشوائي؟

غير قابل للاستنساخ (يختار مراجعون مختلفون أمثلة مختلفة)، ومتحيز في الاختيار (يختار المراجعون حالات يتوقعون نجاحها)، وغير قابل للتوسع (10 أمثلة تفوّت 90% من أوضاع الفشل). تُنتج مجموعات الاختبار الآلية نتائج متسقة وقابلة للاستنساخ.

كم من حالات الاختبار تحتاجها مجموعة اختبار البرومبت؟

20 حالة على الأقل: 10 مسار قياسي، و5 حالات حدية، و5 مدخلات عدائية. أقل من 20 ينتج معدلات نجاح غير موثوقة إحصائيًا.

هل تختلف جودة البرومبت بين GPT-5.5 وClaude Opus 4.8؟

نعم، بشكل ملحوظ. البرومبت ذاته يسجّل بانتظام بفارق 10–20 نقطة. قِس دائمًا معدل النجاح بشكل منفصل على كل نموذج تخطط لنشره.

ما هو LLM-as-judge ومتى يجب استخدامه؟

يستخدم LLM-as-judge نموذجًا قادرًا لتسجيل المخرجات مقابل Rubric. استخدمه للمخرجات النصية الحرة حيث يكون التسجيل الثنائي غير كافٍ. يتوسع إلى آلاف الحالات دون مراجعة بشرية.

كيف تحدد عتبة انحدار معدل النجاح؟

سجّل معدل النجاح في أول تشغيل كخطك الأساسي. عتبة انحدار من 5 نقاط شائعة: إذا خفّض تغيير برومبت معدل النجاح بأكثر من 5 نقاط، احجب النشر. للسير العمل الحيوية (القانونية، الطبية، المالية)، استخدم عتبة نقطتين.

هل يجب مراعاة اللوائح عند استخدام تقييم البرومبت؟

نعم. يجب على أنظمة الذكاء الاصطناعي عالية المخاطر بموجب قانون الذكاء الاصطناعي الأوروبي إثبات عمليات اختبار موثقة. توفر مجموعات الاختبار وسجلات معدلات النجاح أدلة جاهزة للتدقيق. خزّنها إلى جانب مكتبة برومبتاتك.

المصادر

Apply these techniques with a local LLM or your own API keys — PromptQuorum works with any backend.

Try PromptQuorum free →

← Back to Prompt Engineering

تقييم جودة البرومبت: المقاييس والاختبارات | PromptQuorum