Skip to main content
PromptQuorumPromptQuorum

جدول ⁨VRAM⁩ لنماذج ⁨DeepSeek-R1 Distill⁩ (⁨2026⁩)

تحتوي هذه الصفحة على روابط مرجعية لمنتجات طرف ثالث. لا يشارك PromptQuorum في أي برنامج تابع — هذه روابط عادية لا تدر أي عمولة. النقر على الروابط والخطوات التالية تقع على عاتقك بالكامل. لا تمثل هذه الروابط أي تأييد أو تحقق من قِبَل PromptQuorum.

إجابة سريعة

عند Q4_K_M (الافتراضي في Ollama): 1.5B ≈ 4 GB، و7B ≈ 5.5 GB، و8B ≈ 6 GB، و14B ≈ 9.5 GB، و32B ≈ 20.5 GB، و70B ≈ 42 GB. يبلغ Q8_0 نحو ضعف حجم Q4_K_M، وFP16 نحو 4 أضعاف، لذا يحتاج 32B عند FP16 إلى إعداد من فئة 64 GB.

  • 1.5B: ملف ~1.1 GB، و~4 GB من VRAM (أو CPU) عند Q4_K_M
  • 7B: ملف ~4.7 GB، و~5.5 GB من VRAM — RTX 3060 12GB
  • 14B: ملف ~9 GB، و~9.5 GB من VRAM — RTX 4060 Ti 16GB
  • 32B: ملف ~19 GB، و~20.5 GB من VRAM — RTX 4090 24GB (على الحد)
  • 70B: ملف ~40 GB، و~42 GB من VRAM — GPU مزدوج أو 48 GB
  • القاعدة: Q8_0 ≈ 2× Q4_K_M؛ FP16 ≈ 4× Q4_K_M

تحديث: 2026-06-19

Quantization & VRAMمتوسط

النقاط الرئيسية

  • VRAM عند Q4_K_M (الافتراضي في Ollama): 1.5B ~4 GB، و7B ~5.5 GB، و8B ~6 GB، و14B ~9.5 GB، و32B ~20.5 GB، و70B ~42 GB.
  • يبلغ Q8_0 نحو ضعف حجم Q4_K_M؛ وFP16 نحو 4 أضعاف حجم ملف Q4_K_M.
  • نموذج 14B عند Q4_K_M (~9.5 GB) هو الخيار الأمثل — يتسع في بطاقة 16 GB مع هامش للسياق.
  • نموذج 32B عند Q4_K_M (~20.5 GB) على الحد في بطاقة RTX 4090 سعة 24 GB؛ انتقل إلى تكميم أصغر لسياق أطول.
  • نموذج DeepSeek-R1 الكامل بحجم 671B غير مدرج في هذا الجدول — فهو يحتاج إلى ~376–404 GB عند Q4 (لمراكز البيانات فقط).
  • هذه نماذج استدلال R1 distill، وليست DeepSeek-V3 (نموذج محادثة).

VRAM لنماذج DeepSeek-R1 Distill حسب التكميم

تتضمن أرقام VRAM هامشًا صغيرًا للسياق وذاكرة KV cache فوق حجم الملف الخام. Q4_K_M هو الافتراضي في Ollama وأفضل موازنة بين الحجم والجودة للاستدلال. استخدم Q8_0 فقط إذا كان لديك VRAM فائض وتريد تحسينًا هامشيًا في الجودة؛ ونادرًا ما يستحق FP16 العناء محليًا.

DistillQ4_K_M (VRAM)Q8_0 (VRAM)FP16 (VRAM)أدنى GPU (Q4_K_M)
1.5B~4 GB~5 GB~6 GBأي GPU بسعة 4 GB / CPU
7B (Qwen2.5)~5.5 GB~9.5 GB~16 GBRTX 3060 12GB
8B (Llama 3)~6 GB~10 GB~17 GBRTX 3060 12GB
14B (Qwen2.5)~9.5 GB~16 GB~29 GBRTX 4060 Ti 16GB
32B (Qwen2.5)~20.5 GB~35 GB~64 GBRTX 4090 24GB (على الحد)
70B (Llama 3)~42 GB~74 GB~140 GBGPU مزدوج / 48 GB

أي تكميم ينبغي أن تختار؟

**استخدم Q4_K_M لكل شيء تقريبًا** — فهو الافتراضي في Ollama ويحافظ على جودة استدلال عالية مع استيعاب أكبر عدد من النماذج لكل GB. اخترْه ما لم يكن لديك سبب محدد لغير ذلك.

**استخدم Q8_0 فقط مع VRAM فائض** — فهو يضاعف البصمة تقريبًا مقابل تحسين هامشي في الجودة نادرًا ما يغيّر إجابة استدلالية. يستحق العناء على بطاقة 24 GB تشغّل نموذج 14B، وليس أكثر من ذلك بكثير.

**تجنّب FP16 محليًا** — فبحجم نحو 4 أضعاف Q4_K_M، يدفع نموذج 32B إلى عتاد من فئة 64 GB دون فائدة استدلالية عملية مقارنة بـ Q8_0.

V3 مقابل R1: لا تخلط بينهما

**DeepSeek-V3 نموذج محادثة؛ أما DeepSeek-R1 (وهذه النماذج المقطّرة distill) فهي نماذج استدلال.** هذا الجدول مخصص لعائلة الاستدلال R1 فقط. إذا كنت تبحث عن V3، فهو نموذج محادثة MoE بحجم 671B لا يمكن تشغيله أيضًا على عتاد المستهلك — راجع [موجز عتاد DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

أدلة ذات صلة

الأسئلة الشائعة

كم VRAM يحتاج DeepSeek-R1-Distill-Qwen-32B؟
نحو 20.5 GB عند Q4_K_M، وهو ما يتسع في بطاقة RTX 4090 سعة 24 GB لكنه يترك مساحة ضئيلة للسياق الطويل. عند Q8_0 يحتاج إلى ~35 GB، وعند FP16 إلى ~64 GB.
كم يضيف Q8_0 مقارنة بـ Q4_K_M؟
نحو ضعف الـ VRAM. بالنسبة لمعظم مهام الاستدلال يكون التحسين في الجودة هامشيًا، لذا يظل Q4_K_M الخيار الافتراضي الأفضل ما لم يكن لديك VRAM فائض.
هل يمكنني تشغيل نموذج 70B distill على GPU واحد؟
لا. بحجم ~42 GB (Q4_K_M) فهو يتجاوز أي بطاقة استهلاكية مفردة. استخدم بطاقتي GPU بسعة 24 GB أو بطاقة محطة عمل بسعة 48 GB.
هل DeepSeek-R1 الكامل مدرج في هذا الجدول؟
لا. نموذج R1 الكامل بحجم 671B يحتاج إلى ~376–404 GB عند Q4 وهو مخصص لمراكز البيانات فقط. يغطي هذا الجدول النماذج المقطّرة القابلة للتشغيل على عتاد المستهلك (من 1.5B إلى 70B).