Home/Prompt Engineering/كيف تعمل نماذج اللغة الكبيرة فعلاً: الرموز والانتباه والاستدلال

Fundamentals

كيف تعمل نماذج اللغة الكبيرة فعلاً: الرموز والانتباه والاستدلال

Last updated: ١٢ أبريل ٢٠٢٦·١٢ دقيقة للقراءة·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

اقرأ بـ:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

تتنبأ نماذج اللغة الكبيرة بالرمز التالي باستخدام توزيعات الاحتمالات — لا بالفهم أو الاسترجاع. تعلّم التحليل إلى رموز، والانتباه، وRLHF، ومعاملات الاستدلال.

Key Takeaways

تتنبأ نماذج LLM بالرموز لا بالإجابات. تُولّد تسلسلات نصية محتملة إحصائياً — لا حقائق مُسترجَعة أو استنتاجات منطقية أو معلومات مُتحقَّق منها.
1 رمز ≈ 0.75 كلمة بالإنجليزية. مستند من 1,000 كلمة يستخدم ~1,300 رمز. الصينية واليابانية أكثف بنسبة ~50%.
درجة الحرارة تتحكم في الإبداع مقابل الحتمية.** درجة الحرارة 0 = حتمية. 1.0 = أخذ عيّنات تناسبية. فوق 1.5 = خطر هلوسة مرتفع.
نوافذ السياق ليست ذاكرة.** GPT-5.5: 128k رمز. Claude Opus 4.8: 200k رمز. Gemini 3.1 Pro: 2M رمز. لا شيء يستمر بين الجلسات.
الموضع مهم. يُرجّح الانتباه في المحوّل بداية ونهاية السياق أكثر. ضع التعليمات الحاسمة في البداية والنهاية — لا في الوسط.
RLHF يُشكّل السلوك لا القدرة.** الرفض والنبرة والفائدة تأتي من الضبط الدقيق بعد التدريب — لا من البنية الأساسية.

Visual Summary: كيف تعمل نماذج اللغة الكبيرة فعلاً: الرموز والانتباه والاستدلال

Prefer slides over reading? Click through this interactive presentation covering all key concepts, settings, and use cases — then save as PDF for reference.

يغطي العرض التقديمي: كيف يحوّل التحليل إلى رموز النصَّ إلى معرّفات، وكيف يُنشئ انتباه المحوّل تأثير "الضياع في المنتصف"، والفروق بين RLHF والتدريب المسبق، وجدول مرجعي لمعاملات الاستدلال (درجة الحرارة 0.0–2.0، top-p، الحد الأقصى للرموز). نزّل ملف PDF كبطاقة مرجعية لبنية LLM.

Download كيف تعمل نماذج اللغة الكبيرة فعلاً: الرموز والانتباه والاستدلال Reference Card (PDF)

ما هو نموذج LLM فعلاً

نموذج اللغة الكبير (LLM) هو شبكة عصبية قائمة على المحوّل مُدرَّبة للتنبؤ بالرمز الأكثر احتمالاً بناءً على تسلسل من الرموز المُدخَلة — وليس قاعدة بيانات أو محرك بحث أو نظام استدلال. يتعلم النموذج العلاقات الإحصائية بين الرموز بمعالجة مئات المليارات من الكلمات من صفحات الويب والكتب والأكواد البرمجية وغيرها خلال التدريب.

عندما تكتب تلقيحاً، يحوّل النموذج نصّك إلى تسلسل من معرّفات الرموز الرقمية، ويمرّرها عبر عشرات طبقات المحوّل، ثم يُنتج توزيعاً احتمالياً على كامل مفرداته (عادةً 50,000–100,000 رمز). يأخذ عيّنة من رمز ذلك التوزيع، يضيفه إلى التسلسل، ويكرر حتى يُولّد رمز الإيقاف أو يصل الحد الأقصى للمخرجات.

تُفسّر هذه البنية عدة سلوكيات تُحيّر المستخدمين: لماذا تُهلوس نماذج LLM حقائق معقولة لكنها خاطئة (تتنبأ بنص محتمل، لا بحقيقة مُتحقَّق منها)، ولماذا قد تُخفق في الحساب (أنماط رموز لا حسابات حقيقية)، ولماذا تُغيّر صياغة التلقيح المخرجَ (تسلسلات رموز مختلفة تُطلق توزيعات احتمالية مختلفة).

الخاصية	نموذج LLM	البرمجيات التقليدية
آلية العمل	يتنبأ بالرمز التالي عبر توزيعات احتمالية متعلَّمة	تُنفّذ تعليمات حتمية
حتمية المخرجات	احتمالية — نفس المدخل قد يُنتج مخرجات مختلفة	حتمية — نفس المدخل يُنتج دائماً نفس المخرج
مصدر المعرفة	أنماط مُرمَّزة في أوزان النموذج أثناء التدريب	تقرأ من قواعد بيانات أو ملفات في وقت التشغيل
نوع الخطأ	واثق لكن مخطئ (هلوسة)	يتوقف أو يُعيد رمز خطأ
آلية التحديث	يتطلب إعادة التدريب أو الضبط الدقيق	تغيير الكود أو تحديث قاعدة البيانات

التحليل إلى رموز: كيف يتحوّل النص إلى أرقام

**قبل أن يتمكن نموذج LLM من معالجة أي نص، يجب تحويله إلى تسلسل من معرّفات الرموز الصحيحة — وهذه العملية تُسمى التحليل إلى رموز.** يستخدم GPT-5.5 ترميز الأزواج الثنائية (BPE) الذي يُقسّم النص إلى وحدات فرعية للكلمات تظهر بكثرة. يستخدم Claude Opus 4.8 وGemini 3.1 Pro مخططات تحليل إلى رموز فرعية مشابهة.

يعتمد التحليل إلى رموز على اللغة. يبلغ متوسط النص الإنجليزي حوالي رمز واحد لكل 0.75 كلمة. أما الصينية واليابانية فمتوسطها رمز واحد لكل 0.5 كلمة — مما يعني أن المستند ذاته يكلّف ضعف عدد الرموز بالصينية مقارنةً بالإنجليزية، مما يؤثر مباشرةً على تكلفة الواجهة البرمجية واستخدام نافذة السياق.

نص المدخل	الرموز	عدد الرموز
"Hello, world!"	"Hello"، ","، " world"، "!"	4
"Tokenization"	"Token"، "ization"	2
"GPT-5.5"	"G"، "PT"، "-"، "4"، "o"	5
"你好世界" (مرحبا بالعالم، صينية)	"你好"، "世界"	2–4 حسب النموذج

كيف يعمل انتباه المحوّل

تستخدم بنية المحوّل آلية تُسمى الانتباه الذاتي لتحديد مقدار "انتباه" كل رمز لجميع الرموز الأخرى في التسلسل عند حساب تمثيله. لكل رمز، يحسب النموذج ثلاثة متجهات — الاستعلام (Q) والمفتاح (K) والقيمة (V) — ويحسب نتائج الانتباه كضرب نقطي بين Q وK، مُقيَّساً ومُطبَّعاً بـsoftmax.

يُشغّل الانتباه متعدد الرؤوس هذه العملية بالتوازي عبر رؤوس متعددة (يستخدم GPT-5.5 ما يصل إلى 96 رأس انتباه في طبقاته الأكبر)، يتعلم كل منها أنماط علاقات مختلفة. تتخصص بعض الرؤوس في العلاقات النحوية (الفاعل-الفعل)، وأخرى في التشابه الدلالي، وأخرى في الإحالة المشتركة (ربط الضمائر بالأسماء).

إحدى التداعيات العملية الرئيسية: تأثير "الضياع في المنتصف". تُظهر أبحاث Liu et al. (2023) في ستانفورد أن نماذج LLM تُقلّل منهجياً من المعلومات الموجودة في منتصف السياقات الطويلة. للتلقيحات التي تتجاوز ~2,000 رمز، ضع التعليمات الحاسمة في التلقيح النظامي (البداية) وكرّر القيد الأهم في نهاية رسالة المستخدم.

كيف تُدرَّب نماذج LLM: التدريب المسبق وRLHF

يمر تدريب نماذج LLM بمرحلتين متمايزتين: التدريب المسبق (تعلّم أنماط اللغة من النص الخام) ومواءمة ما بعد التدريب (تشكيل السلوك بالتغذية الراجعة البشرية). تُنتج هذه المراحل قدرات مختلفة وتُفسّر لماذا تتصرف نماذج مختبرات مختلفة بشكل مختلف حتى مع درجات معيارية متشابهة.

خلال التدريب المسبق، يعالج النموذج مجموعة بيانات ضخمة — دُرِّب Llama 3.3 على حوالي 15 تريليون رمز؛ GPT-4 على ما يُقدَّر بـ1–2 تريليون رمز. الهدف بسيط: التنبؤ بالرمز التالي. لا تُخزَّن معرفة صريحة؛ جميع المعلومات مُرمَّزة في أوزان النموذج كأنماط إحصائية.

تقوم مواءمة ما بعد التدريب — عادةً التعلم بالتعزيز من التغذية الراجعة البشرية (RLHF) أو متغيراته (RLAIF، DPO) — بتشكيل النموذج كمساعد مفيد. يُقيّم المُقيّمون البشريون المخرجات من حيث الفائدة والأمان والصدق. يُدرَّب نموذج مكافأة على تلك التقييمات ويُضبَّط نموذج LLM الأساسي لتعظيم المكافأة. يُحدد RLHF سلوك الرفض والنبرة وضمانات السلامة — لا البنية الأساسية.

التدريب المسبق: التنبؤ غير الخاضع للإشراف بالرمز التالي على بيانات نطاق الويب. يُرمّز أنماط اللغة ومعرفة العالم واختصارات الاستدلال في أوزان النموذج (~70B–405B معامل للنماذج الحدية).
الضبط الدقيق الخاضع للإشراف (SFT): يُدرَّب النموذج على أزواج تعليمة-استجابة منتقاة للتصرف كمساعد بدلاً من مُتنبئ نص خالص.
RLHF / DPO: تُوجّه التفضيلات البشرية النموذج نحو مخرجات مفيدة وغير ضارة وصادقة. DPO (التحسين المباشر للتفضيل) بديل أكثر كفاءة حسابياً يستخدمه Llama وMistral.
الذكاء الاصطناعي الدستوري (Anthropic): يُدرَّب Claude إضافياً باستخدام مجموعة من المبادئ ("الدستور") لتقليل الاعتماد على التغذية الراجعة البشرية في الحالات القصوى — يستخدم Claude Opus 4.8 هذا النهج.

كيف يعمل الاستدلال: أخذ العيّنات وفك الترميز

خلال الاستدلال، يُولّد النموذج المخرج رمزاً تلو الآخر — محسوباً توزيعاً احتمالياً على كامل المفردات وآخذاً عيّنة منه وفق معاملات فك الترميز التي تتحكم فيها. أهم ثلاثة معاملات هي درجة الحرارة وtop-p (أخذ عيّنات النواة) والحد الأقصى للرموز.

المعامل	النطاق	التأثير	مثالي لـ
درجة الحرارة	0.0 – 2.0	تُحدد (منخفضة) أو تُسطّح (مرتفعة) توزيع الاحتمالات	0 للكود/الحقائق؛ 0.7 للكتابة؛ 1.0 للمهام الإبداعية
Top-p (النواة)	0.0 – 1.0	يقصر أخذ العيّنات على الرموز التي يصل احتمالها التراكمي إلى p	0.9–0.95 لمعظم المهام؛ 0.5 للمخرجات المقيّدة
Top-k	1 – حجم المفردات	يقصر أخذ العيّنات على أكثر k رمزاً احتمالاً للخطوة التالية	أقل استخداماً؛ top-p أفضل عادةً
الحد الأقصى للرموز	1 – حد السياق	إيقاف ثابت عند طول المخرج	اضبطه عند 2× الطول المتوقع للمخرج لتجنب القطع
عقوبة التكرار	-2.0 – 2.0	يُقلّل تكرار الرموز المُولَّدة مسبقاً	0.1–0.3 للمستندات الطويلة؛ 0 للكود

نوافذ السياق: ما يراه النموذج

نافذة السياق هي الحد الأقصى لعدد الرموز التي يستطيع النموذج معالجتها في استدعاء استدلال واحد — جامعةً التلقيح النظامي وتاريخ المحادثة والمستندات والرسالة الحالية للمستخدم.** لا شيء يستمر بين الجلسات؛ يبدأ النموذج من الصفر في كل مرة.

يتباين حجم نافذة السياق تبايناً ملحوظاً بين النماذج ويؤثر مباشرةً على حالات الاستخدام العملية:

النموذج	نافذة السياق	ما يعادله تقريباً بالكلمات	الحد العملي للمستند
GPT-5.5 (OpenAI)	128,000 رمز	~96,000 كلمة	~PDF من 200 صفحة
Claude Opus 4.8 (Anthropic)	200,000 رمز	~150,000 كلمة	~PDF من 300 صفحة
Gemini 3.1 Pro (Google DeepMind)	2,000,000 رمز	~1,500,000 كلمة	~PDF من 3,000 صفحة
LLaMA 3.1 70B (Meta، عبر Ollama)	128,000 رمز	~96,000 كلمة	~PDF من 200 صفحة

ما يعنيه ذلك لهندسة التلقيح

إن فهم بنية LLM يُحسّن مباشرةً جودة التلقيح — فموضع الرمز ودرجة الحرارة واستخدام نافذة السياق وطول المخرج لها تأثيرات قابلة للقياس على موثوقية المخرج.

ضع التعليمات الحاسمة في البداية. يُعالَج التلقيح النظامي قبل أي رسالة مستخدم. التعليمات المدفونة في منتصف تلقيحات طويلة تأخذ وزناً أقل بسبب تأثير "الضياع في المنتصف". ضع القيود وتعريفات الدور في التلقيح النظامي.
درجة الحرارة مقياس تدريجي لا مفتاح ثنائي. استخدم درجة الحرارة 0 لتوليد الكود والمهام الواقعية. استخدم 0.5–0.7 لتوليد المحتوى. فوق 1.0 يزيد التنوع لكن يرفع مخاطر الهلوسة بشكل ملحوظ.
عدد الرموز يؤثر على التكلفة والكمون خطياً. أسعار الواجهة البرمجية لكل رمز (مدخل ومخرج). تلقيح نظامي من 10,000 رمز مع 100 مستخدم يومياً يُكلّف 1,000,000 رمز/يوم من المدخلات فقط — اضغط التعليمات بلا رحمة.
النماذج "لا تعرف" أنها مخطئة. الهلوسة خاصية بنيوية للتنبؤ بالرموز — النموذج يُنتج ما هو محتمل إحصائياً لا ما هو مُتحقَّق منه. دائماً تحقق من ادعاءات الحقائق في المخرجات عالية المخاطر.
نافذة السياق ≠ جودة الانتباه. نافذة سياق من 200,000 رمز لا تعني انتباه النموذج المتساوي لجميع الرموز. للمستندات التي تتجاوز ~50,000 رمز، فكّر في التقطيع مع RAG بدلاً من ملء السياق بالكامل.

المفاهيم الخاطئة الشائعة حول نماذج LLM

هذه المفاهيم الخاطئة حول نماذج LLM غالباً ما تُؤدي إلى تلقيحات سيئة التصميم وتوقعات خاطئة:

المفهوم الخاطئ	ما يحدث فعلاً	الانعكاس على هندسة التلقيح
"النموذج يقرأ ويفهم مستندي"	النموذج يعالج تسلسلات رموز ويتنبأ بالاستمرارات — لا توجد قراءة فهم	حدّد صراحةً ما تريد استخلاصه؛ لا تفترض أن النموذج يستنتج هدفك
"النموذج يتذكر محادثتنا الأخيرة"	كل استدعاء API لا حالة له؛ يجب تضمين التاريخ صراحةً في نافذة السياق	أدرج السياق السابق ذا الصلة في التلقيح النظامي أو تاريخ المحادثة
"النموذج يعرف التاريخ الحالي"	للنموذج تاريخ قطع تدريب ولا يعرف اليوم ما لم يُخبَر	أدرج التاريخ الحالي في التلقيح النظامي لأي مهمة حساسة للوقت
"درجة حرارة أعلى = مخرج أذكى"	درجة الحرارة تتحكم في عشوائية أخذ العيّنات لا في القدرة أو الدقة	استخدم درجة حرارة منخفضة (0.0–0.3) للمهام التحليلية؛ أعلى للتنوع الإبداعي
"يستطيع النموذج عد الأحرف بموثوقية"	حدود الرموز هي وحدات فرعية للكلمات؛ عد الأحرف أو الكلمات بدقة ليست مهارة أصيلة	لا تعتمد على النموذج لعد الكلمات بدقة؛ استخدم المعالجة اللاحقة أو الكود

اختبار تأثيرات درجة الحرارة عبر نماذج متعددة على PromptQuorum

اختُبر على PromptQuorum — إرسال نفس الموجز الإبداعي إلى GPT-5.5 وClaude Opus 4.8 وGemini 3.1 Pro عند درجة الحرارة 0 مقابل 0.9 أظهر أن Claude Opus 4.8 يمتلك أدنى تباين في المخرجات بين درجات الحرارة، بينما يُظهر Gemini 3.1 Pro أعلى تباين. عند درجة الحرارة 0.9، أنتج Gemini 3.1 Pro مخرجات أطول بنسبة 34% في المتوسط مقارنةً بدرجة الحرارة 0.

باستخدام إرسال PromptQuorum متعدد النماذج، يمكنك تشغيل أي تلقيح في آنٍ واحد ضد جميع النماذج المتاحة بدرجة حرارة محددة ومقارنة المخرجات بالتوازي — مما يجعل معايرة إعدادات درجة الحرارة لمهمتك المحددة عملياً بدلاً من الاعتماد على الإعدادات الافتراضية للنموذج.

الاختلافات المعمارية لنماذج LLM حسب المنطقة

تتباين بنية نماذج LLM وأداؤها تبايناً ملحوظاً بحسب تكوين بيانات التدريب واستراتيجية التحليل إلى رموز والقيود التنظيمية عبر المناطق. إن فهم هذه الاختلافات جوهري للفرق التي تنشر نماذج عالمياً.

Qwen 3 يحقق كفاءة تحليل رموز متفوقة للنصوص CJK (الصينية، اليابانية، الكورية)** — مستخدماً حوالي 0.3 رمز لكل حرف للصينية الماندرينية، مقابل 0.5 رمز لكل حرف لـGPT-5.5. هذا التخفيض بنسبة 40% في عدد الرموز يُقلّل مباشرةً من تكاليف الواجهة البرمجية والكمون للتطبيقات باللغات الآسيوية.

صُمّم Mistral Small وMistral Large صراحةً للنشر الأوروبي، مع بيانات تدريب مُصفَّاة للامتثال للائحة الأوروبية لحماية البيانات (GDPR) وقانون الذكاء الاصطناعي الفرنسي ولوائح الاتحاد الأوروبي بشأن الاحتفاظ بالبيانات وشفافية النماذج.

تعكس بنية DeepSeek تكوين تدريبه: 70% من بيانات التدريب المسبق بالصينية والإنجليزية، و15% كود، و15% لغات أخرى. تُنتج هذه النسبة نموذجاً منحازاً نحو الطلاقة بالصينية وسرعة توليد الكود.

قراءات ذات صلة

الأساسيات: ما هي هندسة التلقيح؟ — كيفية تطبيق معرفة بنية LLM في التصميم المنهجي للتلقيحات
الأساسيات: نوافذ السياق — لماذا تنسى الذكاء الاصطناعي — تحليل معمّق لحدود نافذة السياق واستراتيجيات الاسترداد
الأساسيات: الرموز والتكاليف والحدود: اقتصاديات تلقيح الذكاء الاصطناعي — أسعار الرموز وحدود المعدل وتحسين التكاليف في GPT-5.5 وClaude وGemini
الأساسيات: هلوسة الذكاء الاصطناعي — لماذا تخترع نماذج LLM الأشياء — كيف يُؤدي التنبؤ بالرموز وعدم استرجاع الحقائق إلى أخطاء الثقة
قيود الذكاء الاصطناعي: ما لا تستطيع نماذج LLM فعله — القيود البنيوية الثمانية المشتركة بين جميع نماذج LLM والحل الهندسي لكل منها

كيف تفهم آلية عمل نماذج LLM

1
ابدأ بالرموز: افهم أن نماذج LLM لا ترى حروفاً أو كلمات، بل ترى رموزاً (وحدات فرعية للكلمات)، عادةً 1–2 رمز لكل كلمة إنجليزية. استخدم أداة تحليل رموز عبر الإنترنت (OpenAI أو Anthropic) لعد الرموز في نص نموذجي. لاحظ كيف تتحول "ChatGPT" إلى "Chat" + "G" + "PT"، وكيف يؤثر ذلك على الأسعار ونوافذ السياق.
2
تعلّم الطبقات الثلاث الرئيسية لبنية المحوّل: التضمينات والانتباه وإسقاط المخرج. لا تحتاج إلى تطبيقها، لكن افهم مفاهيمياً: التضمينات تحوّل الرموز إلى متجهات، والانتباه يقارن جميع أزواج الرموز لفهم العلاقات، وإسقاط المخرج يُعيد التعيين إلى المفردات. يُفسّر هذا لماذا تفهم نماذج LLM السياق ولماذا تُهلوس.
3
افهم لماذا تُهلوس نماذج LLM: إنها تتنبأ بـ"الرموز التالية المحتملة" بناءً على أنماط بيانات التدريب لا "الحقائق الصحيحة". عندما تحتوي بيانات التدريب على معلومات متضاربة أو شحيحة حول موضوع ما، قد يكون أفضل تخمين النموذج خاطئاً في بعض الأحيان. هذه خاصية أصيلة لا ثغرة قابلة للإصلاح.
4
جرّب درجة الحرارة وtop-p لترى كيف تُغيّر المخرج. ولّد نصاً عند T=0.0 (حتمي) وT=0.7 (متنوع لكن متماسك) وT=1.5 (عشوائي). لاحظ أن T أعلى = تنوع أكبر. افهم أن top-p (أخذ عيّنات النواة) يُصفّي الرموز قليلة الاحتمال مما يُقلّل الهراء.
5
افهم نوافذ السياق: النموذج "يرى" فقط نافذة ثابتة من الرموز الأخيرة. نافذة 128k رمز لـGPT-5.5 هي ~96,000 كلمة. المعلومات القديمة "تُنسى" لأنها تسقط خارج النافذة. يُفسّر هذا لماذا تتناقض نماذج LLM أحياناً مع معلومات سابقة في محادثة طويلة.

الأسئلة الشائعة

هل تفهم نماذج LLM النص كالبشر؟

لا. لا تفهم نماذج LLM النص بالمعنى البشري. إنها تتنبأ بالرمز التالي الأكثر احتمالاً إحصائياً بناءً على الرموز السابقة، استناداً إلى الأنماط المتعلَّمة أثناء التدريب. لا يوجد فهم أو نية أو وعي — فقط توزيعات احتمالية موزونة على مفردات مؤلفة من حوالي 50,000–100,000 رمز.

ما هو الرمز في نموذج LLM؟

الرمز هو أصغر وحدة تعالجها نماذج LLM — حوالي 0.75 كلمة بالإنجليزية و0.5 كلمة بالصينية أو اليابانية. تُحوَّل الكلمات والكلمات الفرعية وعلامات الترقيم والمسافات إلى رموز. يستخدم GPT-5.5 BPE (ترميز الأزواج الثنائية) لتقسيم النص إلى رموز قبل معالجته. مستند من 1,000 كلمة يُصبح حوالي 1,300 رمز بالإنجليزية.

ما الذي تفعله درجة الحرارة في نموذج LLM؟

درجة الحرارة تتحكم في مدى عشوائية أخذ النموذج عيّنات من توزيع احتمالاته. درجة الحرارة 0 دائماً تختار الرمز الأعلى احتمالاً (حتمي). درجة الحرارة 1.0 تأخذ عيّنات تناسبياً من التوزيع. فوق 1.5 تُسطّح التوزيع وتزيد مخاطر الهلوسة. معظم حالات الإنتاج تعمل بشكل أفضل بين 0.1 و0.7.

لماذا يهم موضع المعلومات في التلقيح؟

يميل انتباه المحوّل إلى إعطاء وزن أكبر للرموز قرب بداية ونهاية نافذة السياق مقارنةً بالرموز في المنتصف — تأثير "الضياع في المنتصف" الموثّق من Liu et al. (2023). للتلقيحات التي تتجاوز ~2,000 رمز، ضع التعليمة الأهم في البداية وكرّر القيود الرئيسية في النهاية.

ما هو RLHF وكيف يؤثر على مخرجات النموذج؟

التعلم بالتعزيز من التغذية الراجعة البشرية (RLHF) هو خطوة ما بعد التدريب حيث يُقيّم مُقيّمون بشريون مخرجات النموذج ويُدرَّب نموذج مكافأة على تلك التقييمات. يُضبَّط نموذج LLM الأساسي لتعظيم المكافأة. يُشكّل RLHF الرفض والنبرة والفائدة وسلوك السلامة — ولهذا تتصرف نماذج مختبرات مختلفة بشكل مختلف مع نفس التلقيح حتى مع درجات معيارية متشابهة.

ما الفرق بين نافذة السياق والذاكرة؟

نافذة السياق هي كل النص الذي يستطيع النموذج رؤيته أثناء استدعاء استدلال واحد — التلقيح النظامي والتاريخ والرسالة الحالية. إنها ليست ذاكرة مستمرة: عند انتهاء المحادثة، لا يحتفظ النموذج بشيء. GPT-5.5: 128,000 رمز. Claude Opus 4.8: 200,000 رمز. Gemini 3.1 Pro: 2,000,000 رمز.

ما هو تأثير "الضياع في المنتصف" وكيف تتجنبه؟

تأثير "الضياع في المنتصف"، الموثّق من Liu et al. (2023) في ستانفورد، يُظهر أن انتباه المحوّل يُقلّل منهجياً من المعلومات في منتصف السياقات الطويلة. لتجنبه: ضع التعليمات الحاسمة في التلقيح النظامي (البداية)، احتفظ بالسياق المهم في أول 10–15% من المدخل، وكرّر القيد الأهم في نهاية رسالة المستخدم. للمستندات التي تتجاوز ~50,000 رمز، استخدم RAG بدلاً من ملء السياق بالكامل.

ما الفرق بين RLHF والذكاء الاصطناعي الدستوري؟

يستخدم RLHF مُقيّمين بشريين لتقييم المخرجات، ويُدرّب نموذج مكافأة، ويضبط نموذج LLM لتعظيم المكافأة. الذكاء الاصطناعي الدستوري (المستخدم من Anthropic لـClaude) يمتد RLHF بإضافة مجموعة من المبادئ المكتوبة ("الدستور") التي توجّه السلوك دون الحاجة إلى تغذية راجعة بشرية لكل حالة قصوى. يُقلّل هذا من الاعتماد على المُقيّمين البشريين مع الحفاظ على مواءمة متسقة.

ما الفرق المعماري بين GPT-5.5 وClaude وGemini؟

الثلاثة نماذج LLM قائمة على المحوّل لكنها تختلف في الحجم وما بعد التدريب. GPT-5.5 (OpenAI): 128,000 رمز سياق، يتميز في الاستدلال. Claude Opus 4.8 (Anthropic): 200,000 رمز، يستخدم الذكاء الاصطناعي الدستوري للمواءمة. Gemini 3.1 Pro (Google DeepMind): 2,000,000 رمز لمعالجة المستندات الطويلة جداً. هذه الاختلافات تؤثر على التكلفة والكمون والملاءمة لمهام مختلفة.

كم عدد رموز نص من 1000 كلمة؟

بالإنجليزية، 1,000 كلمة ≈ 1,300–1,350 رمز. تقريباً 1 رمز = 0.75 كلمة. للصينية أو اليابانية، استخدم 1 رمز ≈ 0.5 كلمة — 1,000 كلمة صينية/يابانية ≈ 2,000 رمز. يؤثر عدد الرموز مباشرةً على تكلفة الواجهة البرمجية واستهلاك نافذة السياق.

ما الفرق بين درجة الحرارة وtop-p؟

درجة الحرارة تُحدّد أو تُسطّح توزيع الاحتمالات بأكمله — درجة الحرارة 0 = حتمي، 1.0 = قياسي، 2.0 = عشوائي جداً. Top-p (أخذ عيّنات النواة) يقصر أخذ العيّنات على أصغر مجموعة من الرموز التي يبلغ احتمالها التراكمي p — top-p 0.9 يعني "أخذ عيّنات من الرموز التي تُشكّل 90% من كتلة الاحتمال". لمعظم المهام، اضبط top-p (0.8–0.95) بدلاً من درجة الحرارة؛ درجة الحرارة أفضل تحفّظ للتحكم في الإبداع.

المصادر والقراءات الإضافية

Vaswani et al., 2017. "Attention Is All You Need" — الورقة الأصلية للمحوّل التي تُقدّم آلية الانتباه الذاتي الكامنة في جميع نماذج LLM الحديثة
Liu et al., 2023. "Lost in the Middle: How Language Models Use Long Contexts" — بحث ستانفورد الذي يوثّق تحيّز الانتباه المعتمد على الموضع في نماذج LLM ذات السياق الطويل
Ouyang et al., 2022. "Training language models to follow instructions with human feedback" — ورقة InstructGPT التي تُقدّم RLHF المطبّق على GPT-3، الأساس لـChatGPT ونماذج LLM المُوافقة الحديثة
OpenAI. Tokenizer Documentation — دليل تفاعلي لعد الرموز وكيفية ترميز المُرمِّز للنص لنماذج GPT
Touvron et al., 2023. "Llama 3.3: Open Foundation and Fine-Tuned Chat Models" — الورقة الكاملة من Meta حول بنية Llama 3.3 وخط تدريبه ومنهجية ضبط التعليمات
Anthropic. Constitutional AI: Harmlessness from AI Feedback — بحث Anthropic حول استخدام "دستور" لتوجيه سلوك النموذج كبديل لـRLHF الخالص
HuggingFace. Tokenizers Library & Summary — تحليل تقني معمّق لـBPE وWordPiece وSentencePiece وخوارزميات التحليل إلى رموز الأخرى المستخدمة في نماذج LLM الحديثة
Google DeepMind. Gemini 3.5 Technical Report — تحليل بنية وأداء نموذج حدّي بنافذة سياق 1M رمز

Apply these techniques with a local LLM or your own API keys — PromptQuorum works with any backend.

Try PromptQuorum free →

← Back to Prompt Engineering