Home/Prompt Engineering/مقاييس تقييم البرومبتات: ماذا تقيس وكيف

Techniques

مقاييس تقييم البرومبتات: ماذا تقيس وكيف

Last updated: ١٠ أبريل ٢٠٢٦·٨ دقائق للقراءة·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

اقرأ بـ:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

اختيار مقياس تقييم خاطئ لبرومبتك يُنتج نتائج مضللة تُخفي فشلًا حقيقيًا في الإنتاج. درجات BLEU لا معنى لها في مخرجات JSON. pass/fail الثنائي لا يقول شيئًا عن جودة التوليد الدقيقة. المقياس الفعّال يعتمد كليًا على ما ينتجه برومبتك.

مقاييس تقييم البرومبتات إشارات كمية تقيس ما إذا كان البرومبت ينتج المخرجات المتوقعة بشكل موثوق. المقياس الصحيح يعتمد على نوع المخرجات: pass rate للبيانات المنظمة، وBLEU للترجمة، والتشابه الدلالي لمهام الصياغة، وLLM-as-judge للتوليد الحر الدقيق.

Key Takeaways

pass rate (المخرجات الصحيحة / الإجمالي) هو المقياس الأكثر فائدة لبرومبتات الإنتاج ذات المخرجات المنظمة
درجة BLEU تقيس تداخل n-gram ولا معنى لها إلا في مهام الترجمة والتلخيص
التشابه الدلالي (تشابه جيب التمام للـembeddings) يتفوق على BLEU في مهام الصياغة وإعادة الكتابة
LLM-as-judge يستخدم GPT-5.5 أو Claude Opus 4.8 لتقييم مخرجات النص الحر الدقيق على نطاق واسع
تتبّع pass rate حسب إصدار البرومبت وأطلق تنبيهًا عند انخفاض أكثر من 5 نقاط مئوية
لا مقياس واحد يغطي جميع أنواع المخرجات — اختر حسب تنسيق مخرجات برومبتك المتوقعة

⚡ Quick Facts

·pass rate يتوافق مباشرةً مع معدل الفشل في الإنتاج: 90% = 10% من الطلبات تفشل
·صُمّمت درجة BLEU في 2002 للترجمة الآلية، ليس لمخرجات الذكاء الاصطناعي العامة
·التشابه الدلالي فوق 0.85 يشير عادةً إلى محتوى مكافئ دلاليًا
·LLM-as-judge يتوسّع إلى آلاف التقييمات في الساعة
·انخفاض 5 نقاط في pass rate هو الحد الافتراضي لتنبيه الانحدار
·نماذج GPT-5.5 وClaude قد تختلف بـ10–20 نقطة على نفس مجموعة اختبار البرومبتات

ما هي مقاييس تقييم البرومبتات؟

📍 In One Sentence

مقاييس تقييم البرومبتات إشارات كمية تقيس ما إذا كان البرومبت ينتج المخرجات المتوقعة بشكل موثوق عبر مجموعة اختبار تمثيلية.

💬 In Plain Terms

فكّر فيها كاختبارات وحدة للذكاء الاصطناعي: تحدد ما هو "صحيح"، تشغّل البرومبت على 20+ مثال، وتُقيّم pass rate. درجة 95% تعني أن 5% من طلبات المستخدمين الحقيقيين ستظل تفشل.

مقاييس تقييم البرومبتات إشارات كمية تُخبرك ما إذا كان البرومبت ينتج المخرجات المتوقعة بشكل موثوق عبر المدخلات المهمة. بدون مقاييس، تقييم البرومبتات ذاتي. المقياس الصحيح يعتمد على ما يُفترض أن ينتجه برومبتك. حين تختار المقياس الصحيح لمهمتك، يمكنك تقييم جودة البرومبت بشكل منهجي.

💡 نصيحة احترافية

ابدأ بـpass rate قبل إضافة مقاييس معقدة. الصحيح/الخاطئ الثنائي كثيرًا ما يكون أكثر فائدة من رابطة 1–5.

أي مقاييس تنطبق على المخرجات المنظمة مقابل النص الحر مقابل الكود؟

نوع المخرجات يحدد أي مقياس صالح. استخدام BLEU في مخرجات JSON أو pass/fail في مهام التوليد الإبداعي يُنتج درجات بلا معنى.

نوع المخرجات	المقياس المُوصى به	السبب
JSON / بيانات منظمة	Pass/fail ثنائي	إما صالح + صحيح، أو لا. لا ائتمان جزئي.
تصنيف	الدقة (ثنائية)	تسمية صحيحة واحدة لكل مدخل.
ترجمة / تلخيص	BLEU أو ROUGE	نص مرجعي متاح للمقارنة.
صياغة / إعادة كتابة	التشابه الدلالي	يحافظ على المعنى لا الكلمات الدقيقة.
نص حر / إبداعي	LLM-as-judge	رابطة دقيقة مطلوبة، لا نص مرجعي.
توليد كود	معدل نجاح الاختبارات	شغّل اختبارات الوحدة على الكود المولَّد.

📌 نقطة رئيسية

نوع المخرجات يوجّه اختيار المقياس. الخطأ الأكثر شيوعًا هو تطبيق BLEU على مهام لا تخص الترجمة — يقيس تداخل الكلمات لا امتثال التنسيق.

ما هو pass rate ولماذا هو المقياس الأكثر فائدة؟

pass rate هو النسبة المئوية لمدخلات الاختبار حيث تفي مخرجات البرومبت بمعايير النجاح المحددة — وهو المقياس الأكثر فائدة لأنه يتوافق مباشرةً مع معدل الفشل في الإنتاج. pass rate بنسبة 92% يعني أن 8% من طلبات المستخدمين الحقيقيين ستفشل.

Pass rate = المخرجات الناجحة / إجمالي حالات الاختبار

للمخرجات المنظمة، عرّف "النجاح" بدقة قبل تشغيل الاختبارات: JSON صالح، الحقول المطلوبة موجودة، القيم ضمن enum المسموح، الطول تحت الحد المحدد.

تتبّع pass rate حسب إصدار البرومبت. انخفاض أكثر من 5 نقاط مئوية انحدار. انخفاض أكثر من 10 نقاط يجب أن يحجب النشر في الإنتاج.

⚠️ تحذير

pass rate بنسبة 90% يعني أن 10% من طلبات المستخدمين الحقيقيين ستفشل. ضع عتبة الانحدار بناءً على تحمّل مخاطر الإنتاج لا على ما يبدو جيدًا في لوحة القيادة.

ما هي درجة BLEU ومتى يجب استخدامها؟

درجة BLEU (Bilingual Evaluation Understudy) تقيس تداخل n-gram بين مخرجات النموذج ونص مرجعي. هي المقياس المعياري للترجمة الآلية ومناسبة لأي مهمة يجب أن تتطابق فيها المخرجات عن كثب مع المرجع.

BLEU مضلّل لـ:

مخرجات JSON أو المنظمة: BLEU تُقيّم رموز التنسيق لا الصحة الدلالية
اتباع التعليمات: برومبت يتبع جميع التعليمات لكن يُصيغ بشكل مختلف سيحصل على درجة BLEU منخفضة
التوليد الإبداعي: BLEU يُعاقب التنوع المعجمي حتى حين تكون الجودة عالية

متى يكون BLEU مناسبًا: مهام الترجمة حيث يوجد مرجع ذهبي، التلخيص مقابل ملخص بشري، أسئلة وأجوبة استخراجية مع إجابات حرفية متوقعة.

🔍 هل تعلم؟

صُمّم BLEU في 2002 للترجمة الآلية. له قيود معروفة للتوليد المفتوح لكنه لا يزال المعيار في معايير MT.

ما هي درجة التشابه الدلالي؟

التشابه الدلالي يقيس مدى قرب نصّين في المعنى بحساب تشابه جيب التمام لـembeddings الخاصة بهما. يتفوق على BLEU في مهام الصياغة وإعادة الكتابة لأنه يلتقط المعنى لا اختيار الكلمات.

كيف يعمل: ضمّن مخرجات النموذج والمرجع باستخدام text-embedding-3-small من OpenAI أو نموذج embedding محلي، ثم احسب تشابه جيب التمام. الدرجات فوق 0.85 تشير عادةً إلى محتوى مكافئ دلاليًا.

القيود: التشابه الدلالي لا يتحقق من الدقة الواقعية، ولا يكتشف انتهاكات التنسيق، وقد يُعطي درجات عالية للمحتوى المُهلوَس إذا كانت الهلوسة مشابهة دلاليًا للإجابة المتوقعة.

💡 نصيحة احترافية

text-embedding-3-small من OpenAI هو أسرع وأرخص نموذج لدرجة التشابه. للمحتوى التقني/الكود، فكّر في نموذج embedding خاص بالكود.

ما هو تقييم LLM-as-judge؟

LLM-as-judge يستخدم نموذجًا قادرًا — عادةً GPT-5.5 أو Claude Opus 4.8 — لتقييم المخرجات مقابل رابطة. هذا يُوسّع التقييم إلى آلاف حالات الاختبار دون مراجعة بشرية ويتعامل مع أبعاد الجودة التي لا تستطيع المقاييس الثنائية التقاطها: الاتساق والنبرة والاكتمال والدقة الواقعية.

البُعد	الميزة	القيد
الحجم	آلاف الحالات في الساعة	تكلفة API تزداد مع الحجم
الدقة	يتعامل مع rubrics معقدة	تحيّز النموذج نحو أسلوب مخرجاته
الاتساق	تقييم قابل للتكرار	حساس لصياغة برومبت الحكم
التكلفة	أرخص من المراجعة البشرية على نطاق واسع	مكلف لمجموعات اختبار صغيرة

⚠️ تحذير

LLM-as-judge لديه تحيّز خاص: النماذج تُعطي درجات أعلى للمخرجات المشابهة لأسلوبها. استخدم نموذجًا مختلفًا كحكم عن الذي يولّد المخرجات.

❌ رابطة مبهمة

قيّم جودة هذا المخرج على مقياس من 1 إلى 5.

✅ رابطة متعددة الأبعاد وصريحة

قيّم هذا المخرج عبر 3 أبعاد (1–3 لكل منها): (1) الدقة الواقعية — هل يتطابق مع الحقائق المرجعية؟ (2) الاكتمال — هل تمت معالجة جميع الحقول المطلوبة؟ (3) النبرة — هل هي احترافية بشكل مناسب؟ أعِد JSON: {"accuracy": X, "completeness": X, "tone": X, "total": X, "reason": "..."}

كيف تكتشف انحدار المقاييس؟

تتبّع مقياسك الرئيسي حسب إصدار البرومبت وأطلق تنبيهًا حين ينخفض أكثر من 5 نقاط مئوية عن خط الأساس المعتمد. شغّل نفس مجموعة الاختبار قبل وبعد كل تغيير في البرومبت أو تحديث للنموذج أو تعديل في درجة الحرارة.

اتبع هذا سير العمل:

1. سجّل درجة المقياس الحالية كخط أساسي (مثلًا pass rate = 91%) 2. أجرِ تغيير البرومبت 3. أعِد تشغيل مجموعة الاختبار الكاملة 4. قارن الدرجة الجديدة بالخط الأساسي 5. إذا كان الانخفاض > 5 نقاط: احجب التغيير وافحص وأصلح

للكشف التلقائي عن الانحدار في CI/CD، أدوات مثل Promptfoo تتكامل مع GitHub Actions ويمكنها إيقاف PR إذا انخفض pass rate عن عتبة.

🛠️ ممارسة جيدة

ادمج Promptfoo مع GitHub Actions لإيقاف PRs تلقائيًا حين ينخفض pass rate عن العتبة. هذا يمنع انحدارات البرومبتات من الوصول إلى الإنتاج.

كيف تبدأ قياس مقاييس تقييم البرومبتات

1
حدّد نوع مخرجات برومبتك: بيانات منظمة أو تصنيف أو ترجمة/تلخيص أو صياغة أو نص حر أو كود.
2
اختر المقياس المناسب: pass/fail ثنائي للمنظّم، BLEU للترجمة/التلخيص، التشابه الدلالي للصياغة، LLM-as-judge للنص الحر، معدل نجاح الاختبارات للكود.
3
ابنِ مجموعة اختبار من 20+ مدخل مع المخرجات المتوقعة أو معايير النجاح مكتوبة قبل تشغيل أي اختبار.
4
شغّل مجموعة الاختبار وسجّل درجة مقياسك الأساسي.
5
حدّد عتبة تنبيه الانحدار: تنبيه إذا انخفض pass rate 5+ نقاط عن الخط الأساسي.
6
شغّل المقياس تلقائيًا عند كل تغيير في البرومبت باستخدام Promptfoo أو Braintrust أو PromptQuorum.

📌 نقطة رئيسية

ابنِ مجموعة اختبارك قبل كتابة البرومبت لا بعده. حالات الاختبار المحددة بأثر رجعي تميل إلى التطابق مع البرومبت الحالي بدلًا من توزيع المدخلات الحقيقي.

ما الأخطاء التي يجب تجنبها مع مقاييس تقييم البرومبتات؟

خطأ: استخدام BLEU في JSON أو اتباع التعليمات. الحل: BLEU يقيس تداخل n-gram لا امتثال التنسيق أو اتباع التعليمات. استخدم pass/fail ثنائي للمخرجات المنظمة.
خطأ: LLM-as-judge مع رابطة تقييم مبهمة. الحل: يجب أن يحدد برومبت الحكم بوضوح كل مستوى تقييم. rubrics المبهمة كـ"قيّم الجودة من 1 إلى 5" تُنتج درجات غير متسقة بلا قيمة تشخيصية.
خطأ: لا خط أساسي قبل التغيير الأول. الحل: سجّل قيمة المقياس قبل إجراء التغييرات. بدون خط أساسي لا يمكنك اكتشاف الانحدارات.
خطأ: قياس مقياس واحد فقط. الحل: البرومبتات الإنتاجية عادةً تحتاج مقياسًا أساسيًا (pass rate أو الدقة) وثانويًا (التشابه الدلالي أو LLM-as-judge) للكشف عن أوضاع فشل مختلفة.

قراءات ذات صلة

كيفية تقييم جودة البرومبتات — إطار مكوّن من ثلاثة عناصر: الدقة والاتساق ومعدل الاتباع
اختبر البرومبتات عبر النماذج — شغّل نفس مجموعة الاختبار على GPT-5.5 وClaude وGemini
تدقيق البرومبتات ومخاطر الانحدار — مجموعات انحدار آلية وبوابات CI/CD
Braintrust مقابل Prompthub مقابل Vellum — مقارنة منصات تقييم البرومبتات المخصصة للفرق
أفضل أدوات اختبار وتقييم البرومبتات 2026 — أدوات مُقيَّمة لضبط جودة البرومبتات المنهجي
كيف تبني مكتبة برومبتات — نسّق ونظّم البرومبتات جنبًا إلى جنب مع خطوط الأساس التقييمية

الأسئلة الشائعة

ما هي مقاييس تقييم البرومبتات؟

مقاييس تقييم البرومبتات إشارات كمية تقيس ما إذا كان البرومبت ينتج المخرجات المتوقعة بشكل موثوق. المقاييس الرئيسية تشمل pass rate وBLEU والتشابه الدلالي وLLM-as-judge. اختيار المقياس الخاطئ يُنتج درجات مضللة.

ما هو pass rate في تقييم البرومبتات؟

pass rate هو النسبة المئوية لمدخلات الاختبار حيث تفي مخرجات البرومبت بمعايير النجاح المحددة. يتوافق مباشرةً مع معدل الفشل في الإنتاج وهو المقياس الأكثر فائدة لبرومبتات المخرجات المنظمة.

متى يجب استخدام درجة BLEU للبرومبتات؟

BLEU مناسب لمهام الترجمة والتلخيص حيث يجب أن تتطابق المخرجات عن كثب مع نص مرجعي. هو مضلّل لتوليد JSON واتباع التعليمات والكتابة الإبداعية.

ما هو تقييم LLM-as-judge؟

LLM-as-judge يستخدم GPT-5.5 أو Claude Opus 4.8 لتقييم المخرجات مقابل رابطة على نطاق واسع. يتعامل مع أبعاد الجودة الدقيقة. الخطر الرئيسي هو تحيّز النموذج نحو أسلوب مخرجاته.

كيف تكتشف انحدار مقاييس البرومبتات؟

تتبّع مقياسك الرئيسي حسب إصدار البرومبت وأطلق تنبيهًا حين ينخفض أكثر من 5 نقاط مئوية عن الخط الأساسي. انخفاض أكثر من 10 نقاط انحدار حرج.

أي مقياس يجب استخدامه لبرومبتات مخرجات JSON؟

استخدم pass/fail ثنائي. عرّف "النجاح" بـ: JSON صالح + الحقول المطلوبة موجودة + القيم ضمن النطاق المسموح.

هل يمكن دمج مقاييس تقييم برومبتات متعددة؟

نعم — البرومبتات الإنتاجية عادةً تحتاج مقياسًا أساسيًا وثانويًا للكشف عن أوضاع فشل مختلفة. تتبّع كليهما بشكل مستقل.

كيف تُقيّم جودة البرومبت لتوليد الكود؟

استخدم معدل نجاح الاختبارات كمقياس أساسي — ولّد الكود، شغّل اختبارات الوحدة عليه، واحسب النسبة المئوية التي تنجح.

هل يجب مراعاة اللوائح عند استخدام مقاييس تقييم البرومبتات؟

نعم. أنظمة الذكاء الاصطناعي عالية المخاطر بموجب قانون الذكاء الاصطناعي للاتحاد الأوروبي يجب أن تُثبت اختبارًا موثّقًا بمقاييس جودة كمية.

ما مقاييس تقييم البرومبتات المناسبة للشركات المتوسطة؟

pass rate لمعالجة المستندات وLLM-as-judge لجودة خدمة العملاء. عتبة pass rate بنسبة 95% للمستندات الحيوية هدف معقول.

ما العوامل الإقليمية التي تؤثر على متطلبات تقييم البرومبتات؟

الأطر التنظيمية تتطلب بشكل متزايد مقاييس جودة ذكاء اصطناعي موثّقة، مع متطلبات محددة حسب الولاية القضائية وتصنيف المخاطر.

الاتحاد الأوروبي (قانون الذكاء الاصطناعي 2025–2026): سجلات تقييم البرومبتات توفر أدلة جاهزة للتدقيق.

الولايات المتحدة (SOC 2 / NIST AI RMF): مقاييس تقييم البرومبتات مع سجل الإصدارات تُلبّي متطلبات التدقيق.

التقييم متعدد اللغات: إذا كنت تنشر برومبتات بلغات متعددة، قيّم كل متغيّر لغوي بشكل مستقل.

المصادر

وثائق Promptfoo (promptfoo.dev) — إطار تقييم برومبتات مفتوح المصدر
دليل تقييم Braintrust (braintrust.dev) — منصة تقييم إنتاجية
Papineni et al., 2002. "BLEU: a Method for Automatic Evaluation of Machine Translation" — ورقة BLEU الأصلية
DeepEval: Open-Source LLM Evaluation Framework (github.com/confident-ai/deepeval) — Confident AI, 2024–2025.
The Prompt Report: A Systematic Survey of Prompting Techniques (arXiv:2406.06608) — Schulhoff et al., 2024.

Apply these techniques with a local LLM or your own API keys — PromptQuorum works with any backend.

Try PromptQuorum free →

← Back to Prompt Engineering