جدول VRAM لنماذج DeepSeek-R1 Distill (2026)
تحتوي هذه الصفحة على روابط مرجعية لمنتجات طرف ثالث. لا يشارك PromptQuorum في أي برنامج تابع — هذه روابط عادية لا تدر أي عمولة. النقر على الروابط والخطوات التالية تقع على عاتقك بالكامل. لا تمثل هذه الروابط أي تأييد أو تحقق من قِبَل PromptQuorum.
إجابة سريعة
عند Q4_K_M (الافتراضي في Ollama): 1.5B ≈ 4 GB، و7B ≈ 5.5 GB، و8B ≈ 6 GB، و14B ≈ 9.5 GB، و32B ≈ 20.5 GB، و70B ≈ 42 GB. يبلغ Q8_0 نحو ضعف حجم Q4_K_M، وFP16 نحو 4 أضعاف، لذا يحتاج 32B عند FP16 إلى إعداد من فئة 64 GB.
- ▸1.5B: ملف ~1.1 GB، و~4 GB من VRAM (أو CPU) عند Q4_K_M
- ▸7B: ملف ~4.7 GB، و~5.5 GB من VRAM — RTX 3060 12GB
- ▸14B: ملف ~9 GB، و~9.5 GB من VRAM — RTX 4060 Ti 16GB
- ▸32B: ملف ~19 GB، و~20.5 GB من VRAM — RTX 4090 24GB (على الحد)
- ▸70B: ملف ~40 GB، و~42 GB من VRAM — GPU مزدوج أو 48 GB
- ▸القاعدة: Q8_0 ≈ 2× Q4_K_M؛ FP16 ≈ 4× Q4_K_M
تحديث: 2026-06-19
النقاط الرئيسية
- ✓VRAM عند Q4_K_M (الافتراضي في Ollama): 1.5B ~4 GB، و7B ~5.5 GB، و8B ~6 GB، و14B ~9.5 GB، و32B ~20.5 GB، و70B ~42 GB.
- ✓يبلغ Q8_0 نحو ضعف حجم Q4_K_M؛ وFP16 نحو 4 أضعاف حجم ملف Q4_K_M.
- ✓نموذج 14B عند Q4_K_M (~9.5 GB) هو الخيار الأمثل — يتسع في بطاقة 16 GB مع هامش للسياق.
- ✓نموذج 32B عند Q4_K_M (~20.5 GB) على الحد في بطاقة RTX 4090 سعة 24 GB؛ انتقل إلى تكميم أصغر لسياق أطول.
- ✓نموذج DeepSeek-R1 الكامل بحجم 671B غير مدرج في هذا الجدول — فهو يحتاج إلى ~376–404 GB عند Q4 (لمراكز البيانات فقط).
- ✓هذه نماذج استدلال R1 distill، وليست DeepSeek-V3 (نموذج محادثة).
VRAM لنماذج DeepSeek-R1 Distill حسب التكميم
تتضمن أرقام VRAM هامشًا صغيرًا للسياق وذاكرة KV cache فوق حجم الملف الخام. Q4_K_M هو الافتراضي في Ollama وأفضل موازنة بين الحجم والجودة للاستدلال. استخدم Q8_0 فقط إذا كان لديك VRAM فائض وتريد تحسينًا هامشيًا في الجودة؛ ونادرًا ما يستحق FP16 العناء محليًا.
| Distill | Q4_K_M (VRAM) | Q8_0 (VRAM) | FP16 (VRAM) | أدنى GPU (Q4_K_M) |
|---|---|---|---|---|
| 1.5B | ~4 GB | ~5 GB | ~6 GB | أي GPU بسعة 4 GB / CPU |
| 7B (Qwen2.5) | ~5.5 GB | ~9.5 GB | ~16 GB | RTX 3060 12GB |
| 8B (Llama 3) | ~6 GB | ~10 GB | ~17 GB | RTX 3060 12GB |
| 14B (Qwen2.5) | ~9.5 GB | ~16 GB | ~29 GB | RTX 4060 Ti 16GB |
| 32B (Qwen2.5) | ~20.5 GB | ~35 GB | ~64 GB | RTX 4090 24GB (على الحد) |
| 70B (Llama 3) | ~42 GB | ~74 GB | ~140 GB | GPU مزدوج / 48 GB |
أي تكميم ينبغي أن تختار؟
**استخدم Q4_K_M لكل شيء تقريبًا** — فهو الافتراضي في Ollama ويحافظ على جودة استدلال عالية مع استيعاب أكبر عدد من النماذج لكل GB. اخترْه ما لم يكن لديك سبب محدد لغير ذلك.
**استخدم Q8_0 فقط مع VRAM فائض** — فهو يضاعف البصمة تقريبًا مقابل تحسين هامشي في الجودة نادرًا ما يغيّر إجابة استدلالية. يستحق العناء على بطاقة 24 GB تشغّل نموذج 14B، وليس أكثر من ذلك بكثير.
**تجنّب FP16 محليًا** — فبحجم نحو 4 أضعاف Q4_K_M، يدفع نموذج 32B إلى عتاد من فئة 64 GB دون فائدة استدلالية عملية مقارنة بـ Q8_0.
V3 مقابل R1: لا تخلط بينهما
**DeepSeek-V3 نموذج محادثة؛ أما DeepSeek-R1 (وهذه النماذج المقطّرة distill) فهي نماذج استدلال.** هذا الجدول مخصص لعائلة الاستدلال R1 فقط. إذا كنت تبحث عن V3، فهو نموذج محادثة MoE بحجم 671B لا يمكن تشغيله أيضًا على عتاد المستهلك — راجع [موجز عتاد DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).
أدلة ذات صلة
- ▸أفضل DeepSeek Distill لبطاقتك GPU — طابِق بطاقتك مع نموذج distill، مع أمر Ollama ومعدل tok/s المتوقع
- ▸أفضل نموذج استدلال محلي 2026: تصنيف DeepSeek-R1 — الدليل الكامل بالتصنيف والمعايير القياسية
- ▸متطلبات العتاد المحلي لـ DeepSeek V3 — النظير من نموذج المحادثة V3
الأسئلة الشائعة
كم VRAM يحتاج DeepSeek-R1-Distill-Qwen-32B؟▾
كم يضيف Q8_0 مقارنة بـ Q4_K_M؟▾
هل يمكنني تشغيل نموذج 70B distill على GPU واحد؟▾
هل DeepSeek-R1 الكامل مدرج في هذا الجدول؟▾
هل تريد الشرح الكامل؟
اقرأ الدليل الكامل →لقطات سريعة ذات صلة