Key Takeaways
- لا يمكنك تشغيل النسخة الكاملة من DeepSeek-R1 بحجم 671B في المنزل — فهي تحتاج نحو 376–404 GB من VRAM عند Q4 (مراكز بيانات فقط). أنت تشغّل أحد نماذجه المُقطّرة.
- هناك 6 نماذج مُقطّرة رسمية: 1.5B و7B و14B و32B (أساس Qwen2.5) و8B و70B (أساس Llama 3).
- النقطة المثالية: DeepSeek-R1-Distill-Qwen-14B على GPU بسعة 16 GB — نحو 9 GB عند Q4_K_M، رياضيات متعددة الخطوات قوية.
- أفضل نموذج استدلال على GPU واحدة: يتفوّق النموذج المُقطّر 32B على OpenAI o1-mini في عدة معايير استدلال؛ لكنه محدود على 24 GB.
- أفضل نموذج صغير: يتصدّر DeepSeek-R1-0528-Qwen3-8B نماذج 8B المفتوحة في AIME 2024 ويناسب بطاقة بسعة 8 GB.
- تُثبَّت جميع النماذج المُقطّرة بأمر واحد، مثل `ollama run deepseek-r1:14b` (الإعداد الافتراضي Q4_K_M).
- اضبط درجة الحرارة على 0.6 ولا تستخدم مُوجّه نظام — ضع كل التعليمات في مُوجّه المستخدم لتجنّب أعطال التكرار في R1.
- تصنّف هذه الصفحة الاستدلال (الرياضيات والمنطق والمهام متعددة الخطوات) فقط. للبرمجة، راجع دليل المقارنة بين DeepSeek وQwen للبرمجة.
ما هو نموذج الاستدلال المحلي؟
نموذج الاستدلال هو نموذج لغوي مُدرَّب على إنتاج سلسلة تفكير صريحة (chain-of-thought) قبل إجابته النهائية، ما يجعله أقوى بكثير في الرياضيات والمنطق والمشكلات متعددة الخطوات من نموذج محادثة عادي بالحجم نفسه. نماذج DeepSeek-R1 المُقطّرة هي نماذج استدلال: فهي "تفكّر بصوت عالٍ" داخل الإجابة، تتحقّق من الخطوات وتراجعها قبل الالتزام بإجابة.
المقايضة هي زمن الاستجابة والإسهاب. ينفق نموذج الاستدلال tokens إضافية في معالجة المشكلة، لذا قد تستغرق إجابة واحدة عدة ثوانٍ ومئات من tokens الاستدلال المرئي. لإثبات رياضي أو لغز منطقي هذا بالضبط ما تريده؛ أما للبحث السريع عن معلومة فهو وقت مهدور.
الفرق الذي يربك الناس: DeepSeek-V3 نموذج محادثة، وDeepSeek-R1 هو نموذج الاستدلال. يتشاركان أصل المعمارية لكنهما مُضبَطان لمهام مختلفة. إن أردت إجابات حوارية فاستخدم V3؛ وإن أردت حل المشكلات خطوةً بخطوة فاستخدم R1 أو أحد نماذجه المُقطّرة. نشرح بالضبط ما يحتفظ به التقطير وما يفقده في DeepSeek-R1 مقابل النماذج المُقطّرة.
للحصول على مقدمة أعمق حول تشغيل هذه النماذج، ابدأ بـ دليل عتاد LLM المحلي 2026 وشرح تكميم LLM، اللذين يغطيان حسابات VRAM التي يعتمد عليها هذا الدليل.
نموذج الاستدلال المحلي هو نموذج لغوي يكتب سلسلة تفكير صريحة قبل الإجابة، ما يجعله أقوى في الرياضيات والمنطق من نموذج محادثة بالحجم نفسه.
تخيّل نموذج الاستدلال كطالب يُظهر خطوات حلّه. إنه أبطأ ويكتب أكثر، لكنه يحلّ المشكلات متعددة الخطوات بشكل صحيح أكثر بكثير من نموذج يقذف الإجابة دفعةً واحدة.
نماذج DeepSeek-R1 المُقطّرة الستة في لمحة
أصدرت DeepSeek ستة نماذج مُقطّرة رسمية من R1، أُنشئ كلٌّ منها بضبط دقيق لنموذج أساس مفتوح موجود على آثار استدلال من النسخة الكاملة 671B من R1. أربعة منها تستخدم أساس Qwen2.5 (1.5B و7B و14B و32B) واثنان يستخدمان أساس Llama 3 (8B و70B). أرقام VRAM أدناه مخصصة لتكميم Ollama الافتراضي Q4_K_M.
لدى DeepSeek-R1 ستة نماذج مُقطّرة رسمية من 1.5B إلى 70B، مبنية على أساسي Qwen2.5 وLlama 3، مع كون النموذج 14B أفضل توازن لـ GPU بسعة 16 GB.
| Distill | Base Model | File Size (Q4_K_M) | Min VRAM | Best For |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5 1.5B | ~1.1 GB | 4 GB / CPU | أجهزة طرفية، اختبارات سريعة |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5 7B | ~4.7 GB | 8 GB | بطاقات GPU مبتدئة، 55.5% في AIME 2024 |
| DeepSeek-R1-Distill-Llama-8B | Llama 3 8B | ~4.9 GB | 8 GB | مهام بترخيص Llama |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5 14B | ~9 GB | 16 GB | أفضل توازن عام |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5 32B | ~18–20 GB | 24 GB | يتفوّق على o1-mini، أفضل GPU واحدة |
| DeepSeek-R1-Distill-Llama-70B | Llama 3 70B | ~40 GB | Dual-GPU / 48 GB | أقوى نموذج مُقطّر، أقصى دقة |
يحمل DeepSeek-R1-Distill-Llama-8B ترخيص Llama 3 وترخيص MIT معًا. أما النماذج المُقطّرة القائمة على Qwen فترث ترخيص Qwen. تحقّق دائمًا من الترخيص قبل الاستخدام التجاري.
أفضل نموذج استدلال صغير مُقطّر: DeepSeek-R1-0528-Qwen3-8B
DeepSeek-R1-0528-Qwen3-8B هو أقوى نموذج استدلال صغير يمكنك تشغيله على GPU بسعة 8 GB، مُقطّر من النسخة المُحدّثة R1-0528 على أساس Qwen3 8B. يتصدّر نماذج 8B المفتوحة في AIME 2024 ويسجّل نحو 10 نقاط مئوية أعلى من أساس Qwen3 8B في ذلك المعيار — قفزة ذات معنى للرياضيات والمنطق في هذا الحجم.
اخترْه بدلًا من النماذج المُقطّرة الأصلية 7B و8B عندما تريد أفضل دقة لنموذج صغير ويكون عتادك محدودًا عند 8 GB. يناسب فئة RTX 3060 12GB نفسها ويعمل عند Q4_K_M في نحو 5 GB. لمعظم مستخدمي الحواسيب المحمولة وبطاقات GPU المبتدئة الذين يهتمون بجودة الاستدلال أكثر من السرعة الخام، هذا هو النموذج الذي تبدأ به.
إن كان لدى GPU لديك 8 GB، فإن R1-0528-Qwen3-8B الأحدث هو أذكى نموذج استدلال صغير — فهو يستخدم أساسًا أفضل من النماذج المُقطّرة الأصلية ويسجّل درجات أعلى في رياضيات المسابقات.
نماذج DeepSeek-R1 المُقطّرة مُصنّفة حسب فئة العتاد
اختر أعلى فئة يدعمها VRAM لديك. مزيد من المعاملات يعني استدلالًا أفضل، لكن فقط إذا كان النموذج يناسب دون تسرّب إلى ذاكرة النظام (ما يُسقط السرعة). استخدم هذا التصنيف لمطابقة نموذج مُقطّر مع GPU التي تملكها أو تخطّط لشرائها.
كيف تسجّل نماذج DeepSeek-R1 المُقطّرة في معايير الاستدلال؟
هذه معايير استدلال — AIME 2024 (رياضيات المسابقات)، وMATH-500 (رياضيات مختلطة)، وGPQA Diamond (أسئلة وأجوبة علمية على مستوى الدراسات العليا). تقيس حل المشكلات خطوةً بخطوة، لا البرمجة. النتيجة البارزة: يتفوّق النموذج المُقطّر 32B على OpenAI o1-mini في عدة من هذه المعايير، ويسجّل النموذج المُقطّر 7B 55.5% في AIME 2024، وهي درجة لا يبلغها أي نموذج محادثة بالحجم نفسه.
يتفوّق DeepSeek-R1-Distill-Qwen-32B على OpenAI o1-mini في عدة معايير استدلال، ويسجّل النموذج المُقطّر 7B 55.5% في AIME 2024.
| Distill | AIME 2024 | Reasoning Tier | Notes |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | 55.5% | قوي بالنسبة لـ 7B | أفضل نموذج استدلال على GPU مبتدئة |
| DeepSeek-R1-0528-Qwen3-8B | يتصدّر نماذج 8B المفتوحة | أفضل نموذج صغير | نحو +10 نقاط فوق أساس Qwen3 8B |
| DeepSeek-R1-Distill-Qwen-14B | أعلى من 7B | أفضل توازن | نقطة 16 GB المثالية |
| DeepSeek-R1-Distill-Qwen-32B | الأفضل على GPU واحدة | يتفوّق على o1-mini | أفضل نموذج استدلال على 24 GB |
| DeepSeek-R1-Distill-Llama-70B | الأعلى بين الستة | الأقصى | يحتاج GPU مزدوجة |
استخدم الدرجات الدقيقة حيثما نُشرت (7B = 55.5% في AIME 2024) والتصنيفات النسبية في غير ذلك. تتغيّر أرقام المعايير مع التكميم وإعدادات أخذ العينات؛ تعامل معها كمؤشرات اتجاهية داخل الفئة، لا كقيم مطلقة.
متى لا ينبغي أن تستخدم نموذج استدلال؟
تجنّب نموذج الاستدلال عندما لا تكون المهمة مهمة استدلال — فهو أبطأ وأكثر إسهابًا وليس أدقّ في الاسترجاع البسيط أو المحادثة. استخدم بدلًا منه نموذج محادثة عادي مثل DeepSeek-V3 أو Llama 3.3.
- تجنّبه للبحث السريع عن المعلومات — سلسلة التفكير المرئية تهدر tokens ووقتًا على إجابات يُرجعها نموذج المحادثة فورًا.
- تجنّبه للمحادثة المفتوحة — نماذج الاستدلال مُضبَطة للمشكلات ذات الإجابة الصحيحة، لا للحوار.
- تجنّبه لإنتاجية البرمجة الصرفة — لتوليد الكود، توجّه إلى دليل المقارنة بين DeepSeek وQwen للبرمجة؛ تغطّي هذه الصفحة الاستدلال فقط.
- تجنّبه عندما يكون زمن الاستجابة حرجًا — إن كنت تحتاج استجابات دون الثانية، فنموذج محادثة أصغر يفوز.
- استخدم نموذج استدلال عندما تكون المهمة رياضيات أو منطقًا أو تخطيطًا متعدد الخطوات أو أي شيء يحسّن فيه إظهار الحل صحة الإجابة.
نصيحة احترافية للإعداد: درجة الحرارة 0.6 ودون مُوجّه نظام
اضبط درجة الحرارة على 0.6 (نطاق 0.5–0.7 آمن) ولا تستخدم مُوجّه نظام — ضع كل تعليمة في مُوجّه المستخدم. هذا هو أهمّ إعداد منفرد لنماذج DeepSeek-R1 المُقطّرة. تكون النماذج عرضة لعطل تكرار وفقدان تماسك عند إعطائها مُوجّه نظام أو درجة حرارة قريبة من 0 أو فوق نحو 0.8.
عمليًا: اترك حقل مُوجّه النظام في Ollama/LM Studio فارغًا، وأضف تعليماتك في بداية رسالة المستخدم، وأبقِ درجة الحرارة على 0.6. إن رأيت النموذج يدور أو ينحرف في منتصف الاستدلال، فهذا الإعداد هو الحل دائمًا تقريبًا.
الإعداد: بدء سريع مع Ollama لكل فئة
يُثبَّت كل نموذج مُقطّر ويعمل بأمر Ollama واحد (الكل افتراضيًا Q4_K_M). ثبّت Ollama أولًا إن لم تكن قد فعلت — راجع كيفية تثبيت Ollama. ثم اختر الأمر المناسب لفئتك:
ollama run deepseek-r1:1.5b # edge / CPU
ollama run deepseek-r1:7b # 8 GB VRAM
ollama run deepseek-r1:8b # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b # 16 GB VRAM — recommended
ollama run deepseek-r1:32b # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b # dual-GPU / 48 GBالحكم: أيّ نموذج DeepSeek-R1 مُقطّر ينبغي أن تشغّل؟
يتلخّص القرار في سعة VRAM لديك وما إذا كنت تعطي الأولوية للدقة أم للسرعة. إليك الإجابة المختصرة لكل حالة.
اختر نموذجك المُقطّر
Use a local LLM if:
- •GPU بسعة 16 GB → DeepSeek-R1-Distill-Qwen-14B (الأفضل عمومًا، الخيار الافتراضي)
- •GPU بسعة 24 GB → DeepSeek-R1-Distill-Qwen-32B (يتفوّق على o1-mini، أفضل نموذج استدلال على GPU واحدة)
- •GPU بسعة 8 GB → DeepSeek-R1-0528-Qwen3-8B (أفضل نموذج صغير) أو النموذج المُقطّر 7B
- •GPU مزدوجة / 48 GB → DeepSeek-R1-Distill-Llama-70B (أقصى دقة)
Use a cloud model if:
- •تحتاج استدلالًا رائدًا يتجاوز أي نموذج مُقطّر → قارن مع GPT-4o / Claude / Gemini عبر PromptQuorum
- •لا يمكنك تخصيص GPU → قد تكون واجهة استدلال مُستضافة أرخص من شراء العتاد
Quick decision:
- →إن لم تكن متأكدًا، ابدأ بالنموذج 14B على بطاقة بسعة 16 GB.
- →شغّل دائمًا عند درجة حرارة 0.6 ودون مُوجّه نظام.
- →للبرمجة، استخدم نموذج برمجة — لا نموذج استدلال مُقطّر.
الأسئلة الشائعة
هل يمكنني تشغيل النسخة الكاملة من DeepSeek-R1 بحجم 671B محليًا؟
لا. النسخة الكاملة من DeepSeek-R1 هي نموذج Mixture-of-Experts بحجم 671B معامل (نحو 37B نشطة لكل token) ويحتاج نحو 376–404 GB من VRAM عند Q4 — عتاد مراكز البيانات فقط. في المنزل تشغّل أحد نماذجه المُقطّرة (من 1.5B إلى 70B). توجد نسخة Unsloth بدقة 1.58-bit (نحو 131 GB) لكنها تعمل بنحو 0.3 token في الثانية، وهي طرافة لا إعداد قابل للاستخدام.
أيّ نموذج DeepSeek-R1 مُقطّر هو الأفضل عمومًا؟
لمعظم الناس، DeepSeek-R1-Distill-Qwen-14B على GPU بسعة 16 GB هو أفضل توازن بين جودة الاستدلال والسرعة وملاءمة VRAM. إن كان لديك بطاقة بسعة 24 GB، فالنموذج المُقطّر 32B أقوى ويتفوّق على OpenAI o1-mini في عدة معايير استدلال.
ما هو أفضل نموذج استدلال صغير من DeepSeek؟
DeepSeek-R1-0528-Qwen3-8B. وهو مُقطّر من النسخة المُحدّثة R1-0528 على أساس Qwen3 8B، يتصدّر نماذج 8B المفتوحة في AIME 2024، ويسجّل نحو 10 نقاط أعلى من أساس Qwen3 8B. يناسب GPU بسعة 8 GB عند Q4_K_M.
كم VRAM يحتاج كل نموذج مُقطّر؟
عند Ollama الافتراضي Q4_K_M: يحتاج 7B نحو 8 GB (ملف نحو 4.7 GB)، ويحتاج 14B نحو 16 GB (ملف نحو 9 GB)، ويحتاج 32B نحو 24 GB (ملف نحو 18–20 GB)، ويحتاج 70B بطاقة مزدوجة أو 48 GB (ملف نحو 40 GB). FP16 يبلغ نحو 4× حجم Q4_K_M؛ وQ8_0 يبلغ نحو 2×.
هل DeepSeek-R1 جيد في البرمجة؟
يصنّف هذا الدليل الاستدلال (الرياضيات والمنطق والمهام متعددة الخطوات) فقط. لتوليد الكود تختلف المقايضات — راجع مقارنتنا المخصصة على /power-local-llm/deepseek-vs-qwen-coding-local-2026 بدلًا من اختيار نموذج استدلال مُقطّر لإنتاجية البرمجة.
ما الفرق بين DeepSeek-V3 وDeepSeek-R1؟
DeepSeek-V3 نموذج محادثة مُضبَط للحوار؛ وDeepSeek-R1 نموذج استدلال يُنتج سلسلة تفكير صريحة قبل الإجابة. للرياضيات والمنطق، استخدم R1 أو نموذجًا مُقطّرًا؛ وللمحادثة العامة، استخدم V3.
لماذا يدور نموذجي DeepSeek-R1 المُقطّر أو يُنتج كلامًا غير مفهوم؟
دائمًا تقريبًا مشكلة إعداد. اضبط درجة الحرارة على 0.6 (نطاق 0.5–0.7 جيد) وأزِل أي مُوجّه نظام — ضع كل التعليمات في رسالة المستخدم. لدى نماذج R1 المُقطّرة عطل تكرار معروف تثيره مُوجّهات النظام ودرجات الحرارة المتطرفة.
كيف أُثبّت نموذج DeepSeek-R1 مُقطّرًا؟
ثبّت Ollama، ثم نفّذ أمرًا واحدًا لفئتك، مثل `ollama run deepseek-r1:14b`. تتبنّى جميع النماذج المُقطّرة Q4_K_M افتراضيًا. راجع قسم الإعداد أعلاه للحصول على قائمة الأوامر الكاملة.
هل للنموذج المُقطّر 8B ترخيص مختلف؟
نعم. يحمل DeepSeek-R1-Distill-Llama-8B ترخيص Llama 3 إضافةً إلى MIT، لأن أساسه هو Llama 3. أما النماذج المُقطّرة القائمة على Qwen (1.5B و7B و14B و32B) فترث ترخيص Qwen. تحقّق من الترخيص قبل الاستخدام التجاري.
هل أشتري RTX 4060 Ti 16GB أم RTX 4090 للاستدلال؟
إن سمحت ميزانيتك بـ RTX 4090 وأردت تشغيل النموذج المُقطّر 32B (الذي يتفوّق على o1-mini)، فاشترِ 4090. وإن أردت أفضل قيمة وكان النموذج 14B يغطّي احتياجاتك، فإن RTX 4060 Ti 16GB بنحو $420 هي الشراء الأذكى.
سجل التحديثات
- نُشر في 2026-06-19. المراجعة التالية مستحقة في 2026-12-19 (فئة فرشنس نصف سنوية).
- يغطّي نماذج DeepSeek-R1 المُقطّرة الرسمية الستة إضافةً إلى DeepSeek-R1-0528-Qwen3-8B. تم التحقق منه مقابل درجات AIME 2024 المنشورة وأرقام VRAM لـ Q4_K_M اعتبارًا من يونيو 2026.