Aide-mémoire VRAM DeepSeek-R1 Distill (2026)

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission. Cliquer sur les liens et vos prochaines étapes relèvent entièrement de votre responsabilité. Ces liens ne représentent aucune approbation ou vérification par PromptQuorum.

Réponse rapide

En Q4_K_M (par défaut Ollama) : 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 représente environ 2× la taille Q4_K_M et FP16 environ 4×, donc le 32B en FP16 nécessite une configuration de classe 64 GB.

▸1.5B : fichier ~1.1 GB, ~4 GB VRAM (ou CPU) en Q4_K_M
▸7B : fichier ~4.7 GB, ~5.5 GB VRAM — RTX 3060 12GB
▸14B : fichier ~9 GB, ~9.5 GB VRAM — RTX 4060 Ti 16GB
▸32B : fichier ~19 GB, ~20.5 GB VRAM — RTX 4090 24GB (juste)
▸70B : fichier ~40 GB, ~42 GB VRAM — deux GPU ou 48 GB
▸Règle : Q8_0 ≈ 2× Q4_K_M ; FP16 ≈ 4× Q4_K_M

Mis à jour : 2026-06-19

Quantization & VRAMIntermédiaire

Points clés

✓VRAM Q4_K_M (par défaut Ollama) : 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
✓Q8_0 représente environ 2× la taille Q4_K_M ; FP16 environ 4× la taille du fichier Q4_K_M.
✓Le 14B en Q4_K_M (~9.5 GB) est le meilleur compromis — il tient sur une carte 16 GB avec une marge de contexte.
✓Le 32B en Q4_K_M (~20.5 GB) est juste sur une RTX 4090 24 GB ; passez à une quantification plus petite pour un contexte plus long.
✓Le DeepSeek-R1 complet 671B ne figure pas dans ce tableau — il nécessite ~376–404 GB en Q4 (centre de données uniquement).
✓Ce sont des distillations de raisonnement R1, pas DeepSeek-V3 (un modèle de chat).

VRAM des distillations DeepSeek-R1 par quantification

Les chiffres de VRAM incluent une petite marge pour le contexte et le cache KV en plus de la taille brute du fichier. Q4_K_M est le format par défaut d'Ollama et le meilleur compromis taille-qualité pour le raisonnement. Utilisez Q8_0 uniquement si vous avez de la VRAM disponible et souhaitez un gain de qualité marginal ; FP16 vaut rarement la peine en local.

Distillation	Q4_K_M (VRAM)	Q8_0 (VRAM)	FP16 (VRAM)	GPU minimum (Q4_K_M)
1.5B	~4 GB	~5 GB	~6 GB	Tout GPU 4 GB / CPU
7B (Qwen2.5)	~5.5 GB	~9.5 GB	~16 GB	RTX 3060 12GB
8B (Llama 3)	~6 GB	~10 GB	~17 GB	RTX 3060 12GB
14B (Qwen2.5)	~9.5 GB	~16 GB	~29 GB	RTX 4060 Ti 16GB
32B (Qwen2.5)	~20.5 GB	~35 GB	~64 GB	RTX 4090 24GB (juste)
70B (Llama 3)	~42 GB	~74 GB	~140 GB	Deux GPU / 48 GB

RTX 3060 12GB sur Amazon (lien produit · divulgué)lien produit · divulguéRTX 4060 Ti 16GB sur Amazon (lien produit · divulgué)lien produit · divulguéRTX 4090 24GB sur Amazon (lien produit · divulgué)lien produit · divulgué

Quelle quantification choisir ?

**Utilisez Q4_K_M pour presque tout** — c'est le format par défaut d'Ollama et il maintient une qualité de raisonnement élevée tout en logeant le plus de modèles par GB. Choisissez-le sauf raison précise contraire.

**Utilisez Q8_0 uniquement avec de la VRAM disponible** — il double environ l'empreinte pour un gain de qualité marginal qui change rarement une réponse de raisonnement. Pertinent sur une carte 24 GB avec le 14B, guère ailleurs.

**Évitez FP16 en local** — à environ 4× la taille Q4_K_M, il pousse le 32B vers du matériel de classe 64 GB sans avantage pratique de raisonnement par rapport à Q8_0.

V3 vs R1 : ne les confondez pas

**DeepSeek-V3 est un modèle de chat ; DeepSeek-R1 (et ces distillations) sont des modèles de raisonnement.** Ce tableau concerne uniquement la famille de raisonnement R1. Si vous cherchez V3, c'est un modèle de chat MoE 671B qui n'est pas non plus exécutable par le grand public — voir le [bite matériel DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guides associés

▸Meilleure distillation DeepSeek pour votre GPU — associez votre carte à une distillation, avec la commande Ollama et les tok/s attendus
▸Meilleur modèle de raisonnement local 2026 : classement DeepSeek-R1 — le guide de classement complet avec benchmarks
▸Exigences matérielles locales DeepSeek V3 — l'équivalent du modèle de chat V3

Questions fréquentes

Quelle est la VRAM pour DeepSeek-R1-Distill-Qwen-32B ?▾

Environ 20.5 GB en Q4_K_M, ce qui tient sur une RTX 4090 24 GB mais laisse peu de place pour un contexte long. En Q8_0 il nécessite ~35 GB et en FP16 ~64 GB.

Combien Q8_0 ajoute-t-il par rapport à Q4_K_M ?▾

Environ 2× la VRAM. Pour la plupart des tâches de raisonnement, le gain de qualité est marginal, donc Q4_K_M est le meilleur choix par défaut sauf si vous avez de la VRAM disponible.

Puis-je exécuter la distillation 70B sur un seul GPU ?▾

Non. À ~42 GB (Q4_K_M), elle dépasse toute carte grand public unique. Utilisez deux GPU de 24 GB ou une carte station de travail de 48 GB.

Le DeepSeek-R1 complet figure-t-il dans ce tableau ?▾

Non. Le R1 complet 671B nécessite ~376–404 GB en Q4 et est réservé aux centres de données. Cet aide-mémoire couvre les distillations exécutables par le grand public (1.5B–70B).

Vous voulez les détails complets ?

Lire le guide complet →

Prompt Bites associés

▸Meilleure distillation DeepSeek pour votre GPU (2026)

← Retour aux Prompts en bref