Skip to main content
PromptQuorumPromptQuorum
الرئيسية/LLM المحلية المتقدمة/⁨DeepSeek-R1⁩ مقابل النسخ المقطّرة ⁨2026⁩: ما الذي تخسره فعليًا
Overview & Reference

⁨DeepSeek-R1⁩ مقابل النسخ المقطّرة ⁨2026⁩: ما الذي تخسره فعليًا

·10 دقائق للقراءة·بقلم Hans Kuepper · مؤسس PromptQuorum، أداة إرسال الذكاء الاصطناعي متعددة النماذج · PromptQuorum

ينسخ التقطير سلوك التفكير لـ DeepSeek-R1 — سلسلة التفكير والتحقق الذاتي والتأمل — إلى قاعدة صغيرة Qwen2.5 أو Llama 3، لكنه لا يستطيع نسخ القدرة الخام والاتساع للنموذج الكامل بحجم 671B. أنت تحتفظ بطريقة تفكير R1؛ وتخسر جزءًا مما يعرفه ومن مدى موثوقيته في حل أصعب المسائل. بالنسبة لمعظم مهام الرياضيات والمنطق المحلية تكون الفجوة صغيرة؛ أما في العمل عند حدود الصعوبة القصوى أو الذي يتطلب معرفة واسعة فالفجوة حقيقية.

لا يمكنك تشغيل DeepSeek-R1 الحقيقي بحجم 671B في المنزل — ما تشغّله هو نسخة مقطّرة مبنية على قاعدة Qwen2.5 أو Llama 3. يشرح هذا الدليل بدقة ما الذي يحتفظ به التقطير (سلسلة التفكير، التحقق الذاتي، التأمل)، وما الذي يخسره (القدرة الخام والاتساع)، وما إذا كانت هذه الفجوة مهمة لحالة استخدامك.

النقاط الرئيسية

  • DeepSeek-R1 الكامل هو نموذج Mixture-of-Experts بحجم 671B (نحو 37B نشطة لكل token) يحتاج إلى نحو 376–404 GB عند Q4 — لا يمكنك تشغيله في المنزل.
  • النسخة "المقطّرة" هي نموذج منفصل وأصغر (قاعدة Qwen2.5 أو Llama 3) تمت معايرته على نحو 800K أثر تفكير ولّدها R1 الكامل.
  • يحتفظ التقطير بسلوك التفكير: سلسلة تفكير صريحة وتحقق ذاتي وتأمل.
  • يخسر التقطير القدرة الخام والاتساع — النموذج الكامل يحل أصعب المسائل بموثوقية أعلى ويعرف أكثر.
  • بالنسبة للرياضيات والمنطق المحلية اليومية تكون الفجوة صغيرة؛ وتتسع في المهام عند حدود الصعوبة القصوى والتي تتطلب معرفة واسعة.
  • قاعدة أقوى تضيّق الفجوة: DeepSeek-R1-0528-Qwen3-8B يتصدّر النماذج المفتوحة بحجم 8B في AIME 2024.
  • شغّل أي نسخة مقطّرة عند درجة حرارة 0.6 بدون مطالبة نظام.
  • DeepSeek-V3 نموذج محادثة؛ وDeepSeek-R1 نموذج تفكير — لا تخلط بينهما.

لماذا يخلط الناس بين DeepSeek-R1 ونسخه المقطّرة

**عندما تكتب ollama run deepseek-r1:14b، فأنت لا تشغّل نسخة أصغر من DeepSeek-R1 — بل تشغّل Qwen2.5 14B الذي تعلّم محاكاة تفكير R1.** الاسم "DeepSeek-R1-Distill-Qwen-14B" دقيق لكنه سهل القراءة الخاطئة: الجزء "DeepSeek-R1" يصف من أين جاء التفكير، والجزء "Qwen-14B" هو النموذج الفعلي الذي يعمل على GPU لديك.

هذا مهم لأن التوقعات تتبع الاسم. يفترض الناس أن النسخة المقطّرة هي "R1 لكن أصغر وأسوأ قليلًا". وهي أقرب إلى "نموذج مفتوح قادر تعلّم أن يفكر مثل R1". هذا التأطير يتنبأ بالسلوك الذي ستراه فعليًا: بنية تفكير ممتازة، مع ثغرات أحيانًا في المعرفة الخام أو في الموثوقية في أصعب الحالات.

لمعرفة واقع العتاد وراء عدم إمكانية تشغيل النموذج الكامل في المنزل، راجع متطلبات العتاد المحلي لـ DeepSeek V3 — V3 هو الشقيق نموذج المحادثة بالبصمة نفسها من فئة 671B.

📍 في جملة واحدة

النسخة المقطّرة من DeepSeek-R1 هي نموذج صغير موجود مسبقًا (Qwen2.5 أو Llama 3) تمت معايرته لمحاكاة تفكير R1 الكامل، وليست نسخة مصغّرة من R1 نفسه.

💬 بعبارات بسيطة

تخيّل R1 الكامل عالم رياضيات بارعًا، والنسخة المقطّرة طالبًا نابهًا درس حلول الأستاذ المفصّلة. يفكر الطالب بالطريقة نفسها لكنه لا يعرف كل ما يعرفه الأستاذ.

ما هو DeepSeek-R1 الكامل بحجم 671B؟

DeepSeek-R1 الكامل هو نموذج Mixture-of-Experts (MoE) بـ 671 مليار معامل، يفعّل نحو 37B معامل لكل token ويحتاج إلى نحو 376–404 GB من VRAM عند Q4 — عتاد مراكز البيانات فقط. وهو النموذج الذي يولّد التفكير عالي الجودة الذي تتعلم النسخ المقطّرة محاكاته.

MoE يعني أن النموذج يوجّه كل token عبر مجموعة فرعية صغيرة من الشبكات الفرعية "الخبيرة"، بحيث يُفعّل نحو 37B فقط من الـ 671B معامل لكل token. وهذا يجعل الاستدلال أرخص من نموذج كثيف بحجم 671B — لكن كل معامل من الـ 671B يجب أن يظل مقيمًا في الذاكرة، ولذلك لا يتسع لعتاد المستهلك.

يوجد بناء Unsloth بدقة 1.58 بت (IQ1_S، نحو 131 GB) ويعمل تقنيًا، لكن عند نحو 0.3 token في الثانية فهو طُرفة وليس إعدادًا محليًا قابلًا للاستخدام. عمليًا، يعيش R1 الكامل في السحابة وتعيش النسخ المقطّرة على جهازك.

كيف يعمل تقطير DeepSeek-R1؟

ولّدت DeepSeek نحو 800,000 عينة تفكير بـ R1 الكامل، ثم عايرت نماذج قاعدة مفتوحة موجودة مسبقًا — Qwen2.5 (1.5B و7B و14B و32B) وLlama 3 (8B و70B) — على تلك العينات. تتعلم نماذج القاعدة إعادة إنتاج نمط التفكير خطوة بخطوة لـ R1 دون أن تحتوي أبدًا على معاملات R1.

هذه معايرة مُشرف عليها على آثار تفكير عالية الجودة، وليست تعلّمًا معزّزًا على النماذج الصغيرة. ترث النسخ المقطّرة *شكل* تفكير R1 — متى توسّع سلسلة التفكير، ومتى تتراجع، ومتى تتحقق — مضافًا فوق ما كان نموذج القاعدة يعرفه أصلًا.

لهذا تهمّ القاعدة كثيرًا. النسخة المقطّرة معرفتها بقدر قاعدتها، إضافة إلى انضباط التفكير المنسوخ من R1. القاعدة الضعيفة مع آثار تفكير رائعة تظل تصطدم بسقف في القدرة الخام.

📍 في جملة واحدة

عايرت DeepSeek نماذج قاعدة Qwen2.5 وLlama 3 على نحو 800,000 عينة تفكير ولّدها R1 الكامل، ناقلةً أسلوب تفكيره إلى نماذج صغيرة.

ما الذي يحتفظ به التقطير؟

ينقل التقطير بموثوقية السلوكيات الثلاثة التي تجعل R1 مفكّرًا قويًا: سلسلة التفكير والتحقق الذاتي والتأمل. وهي تبقى لأنها أنماط لتوليد الـ tokens، والأنماط هي بالضبط ما تنسخه المعايرة المُشرف عليها جيدًا.

  • سلسلة التفكير: تكتب النسخة المقطّرة الخطوات الوسيطة قبل الإجابة النهائية، وهو جوهر قوتها في الرياضيات والمنطق.
  • التحقق الذاتي: تفحص نتائجها الوسيطة وتلتقط الأخطاء في منتصف التفكير، لا في النهاية فقط.
  • التأمل: تتراجع وتعيد النظر عندما يبدو المسار خاطئًا، بدلًا من التمسك بالمحاولة الأولى.
  • النتيجة: تسجّل نسخة مقطّرة بحجم 7B نسبة 55.5% في AIME 2024 — رياضيات تنافسية لا يبلغها أي نموذج محادثة بالحجم نفسه.

ما الذي يخسره التقطير؟

لا يستطيع التقطير نقل القدرة الخام أو اتساع المعرفة أو الموثوقية للنموذج الكامل بحجم 671B في أصعب المسائل — فالقاعدة الصغيرة ببساطة لديها مساحة أقل لتخزين المعلومات ودمجها. كلما صغرت النسخة المقطّرة، اتسعت هذه الفجوة.

القدرةR1 الكامل 671Bمقطّرة 32Bمقطّرة 7B
بنية التفكير (CoT، التأمل)مرجعقريبة جدًاقريبة
الموثوقية في أصعب المسائلالأعلىقويةمتوسطة
اتساع المعرفة بالعالمالأعلىجيدةمحدودة
المسائل الطويلة متعددة القيودالأفضلجيدةتتدهور
تعمل على عتاد المستهلكلانعم (24 GB)نعم (8 GB)

التصنيفات إرشادية وليست دقيقة بمعيار: الفجوة صغيرة في مهام التفكير الشائعة وتكبر في العمل عند حدود الصعوبة القصوى أو الذي يتطلب معرفة واسعة.

هل تهمّ الفجوة لحالة استخدامك؟

بالنسبة لمعظم التفكير المحلي تكون الفجوة صغيرة بما يكفي لتجاهلها؛ ولا تصبح حاسمة إلا في المسائل عند حدود الصعوبة القصوى أو المهام التي تتطلب معرفة واسعة بالعالم. قرّر حسب حالة الاستخدام، لا بمطاردة أكبر نموذج.

هل تكفي النسخة المقطّرة؟

Use a local LLM if:

  • رياضيات مدرسية وتنافسية، ألغاز منطقية، تخطيط خطوة بخطوة → النسخة المقطّرة تكفي وزيادة (32B لهامش أكبر، و14B لمعظم الحالات)
  • تفكير خاص/دون اتصال حيث لا يمكن للبيانات مغادرة جهازك → النسخة المقطّرة هي الخيار الوحيد، وهي خيار جيد
  • ضبط التكلفة مقابل واجهة API مستضافة → النسخة المقطّرة المحلية تلغي تكلفة كل token تمامًا

Use a cloud model if:

  • رياضيات بحثية أو براهين عند حافة المجال → R1 الكامل المستضاف أكثر موثوقية
  • مهام تتطلب معرفة واسعة وحديثة بالعالم → يفوز نموذج أكبر أو إعداد معزّز بالبحث
  • تحتاج إلى الإجابة الواحدة الأكثر موثوقية بغض النظر عن التكلفة → قارن مع النماذج الرائدة عبر PromptQuorum

Quick decision:

  • إذا لم تكن متأكدًا، شغّل النسخة المقطّرة 32B ولا تصعّد إلى R1 المستضاف إلا عندما تتعثر بوضوح.
  • القاعدة الأكبر تتغلب على الحجم الأكبر عند الطرف الصغير — انظر R1-0528-Qwen3-8B أدناه.

R1-0528-Qwen3-8B: قاعدة أفضل تضيّق الفجوة

يُظهر DeepSeek-R1-0528-Qwen3-8B أن قاعدة أقوى تقلّص فجوة التقطير: فهو مبني على Qwen3 8B مع تفكير من R1-0528 المُحدَّث، يتصدّر النماذج المفتوحة بحجم 8B في AIME 2024 ويسجّل نحو 10 نقاط فوق قاعدة Qwen3 8B. الفئة نفسها من الحجم كالنسخة المقطّرة 8B الأصلية، مع تفكير أفضل بوضوح — لأن القاعدة أفضل ومصدر التفكير أحدث.

الدرس عند اختيار نسخة مقطّرة: عند الطرف الصغير، فضّل النموذج ذا القاعدة الأقوى والأحدث على نسخة مقطّرة أقدم بالعدد نفسه من المعاملات. القدرة لكل غيغابايت ترتفع بقواعد أفضل أسرع مما ترتفع بالحجم الخام.

نصيحة إعداد: درجة حرارة 0.6 وبدون مطالبة نظام

شغّل كل نسخة مقطّرة من DeepSeek-R1 عند درجة حرارة 0.6 (0.5–0.7 آمن) بدون مطالبة نظام — ضع كل التعليمات في مطالبة المستخدم. يتجنّب ذلك وضع الفشل القائم على التكرار وعدم الاتساق الذي تميل إليه عائلة R1 عند إعطائها مطالبة نظام أو درجة حرارة قرب 0 أو فوق نحو 0.8.

إذا كنت تقارن نسخة مقطّرة مع R1 الكامل المستضاف وكانت النسخة المقطّرة تدور أو تنحرف، فأصلح الإعداد قبل أن تستنتج أنها ضعيفة — إعدادات أخذ العينات السيئة تخفي جودتها الحقيقية.

الأسئلة الشائعة

هل النسخة المقطّرة من DeepSeek-R1 هي نفس نموذج DeepSeek-R1 لكن أصغر فقط؟

لا. النسخة المقطّرة نموذج قاعدة مختلف (Qwen2.5 أو Llama 3) تمت معايرته لمحاكاة تفكير R1 على نحو 800K عينة. يحتفظ بأسلوب تفكير R1 لكنه لا يحتوي على أي من معاملات R1.

ما الذي يحتفظ به التقطير بالضبط من R1 الكامل؟

سلوك التفكير: سلسلة التفكير والتحقق الذاتي والتأمل. وهي أنماط لتوليد الـ tokens تنقلها المعايرة المُشرف عليها بموثوقية، ولهذا تبلغ نسخة مقطّرة 7B نسبة 55.5% في AIME 2024.

ما الذي تخسره النسخة المقطّرة مقابل R1 الكامل 671B؟

القدرة الخام، واتساع المعرفة بالعالم، والموثوقية في أصعب المسائل. كلما صغرت النسخة المقطّرة كبرت الفجوة — مع أنها تبقى صغيرة في مهام التفكير الشائعة.

لماذا لا أستطيع تشغيل DeepSeek-R1 الكامل 671B في المنزل؟

يحتاج إلى نحو 376–404 GB من VRAM عند Q4 لأن كل معاملات الـ 671B يجب أن تكون مقيمة رغم تفعيل نحو 37B فقط لكل token. هذا عتاد مراكز البيانات. بناء 1.58 بت يعمل عند نحو 0.3 token/ث — طُرفة، غير قابل للاستخدام.

هل تهمّ الفجوة للاستخدام اليومي؟

عادةً لا. للرياضيات المدرسية والتنافسية والمنطق والتخطيط متعدد الخطوات، تكفي نسخة مقطّرة 14B أو 32B وزيادة. تهمّ الفجوة في المسائل عند حدود الصعوبة القصوى أو المهام التي تتطلب معرفة واسعة وحديثة.

أي نسخة مقطّرة هي الأقرب إلى R1 الكامل؟

النسخة المقطّرة 70B هي الأقوى بين الست والأقرب في القدرة الخام، لكنها تحتاج إلى GPU مزدوجة. والنسخة 32B هي أفضل خيار بـ GPU واحدة وتتفوق على OpenAI o1-mini في عدة معايير تفكير.

لماذا R1-0528-Qwen3-8B أفضل من النسخة المقطّرة 8B الأصلية؟

يستخدم قاعدة Qwen3 8B أقوى وتفكيرًا من R1-0528 المُحدَّث، فيتصدّر النماذج المفتوحة بحجم 8B في AIME 2024 — نحو 10 نقاط فوق قاعدة Qwen3 8B بالحجم نفسه.

هل DeepSeek-V3 نسخة مقطّرة من R1؟

لا. DeepSeek-V3 نموذج محادثة MoE منفصل بحجم 671B، وليس نموذج تفكير ولا نسخة مقطّرة. R1 هو نموذج التفكير؛ والنسخ المقطّرة تحاكي R1 لا V3.

سجل التحديثات

  • نُشر في 2026-06-19. المراجعة التالية مستحقة في 2027-06-19 (مستوى تحديث سنوي — شرح دائم مع حقائق نماذج مرتبطة بالسنة).
  • يغطي R1 الكامل 671B مقابل النسخ المقطّرة الرسمية الست وDeepSeek-R1-0528-Qwen3-8B. مقارنة داخلية للتفكير فقط؛ مقارنات البرمجة بين النماذج موجودة في دليل البرمجة.

← العودة إلى LLM المحلية المتقدمة