Aide-mémoire VRAM DeepSeek-R1 Distill (2026)
Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission. Cliquer sur les liens et vos prochaines étapes relèvent entièrement de votre responsabilité. Ces liens ne représentent aucune approbation ou vérification par PromptQuorum.
Réponse rapide
En Q4_K_M (par défaut Ollama) : 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 représente environ 2× la taille Q4_K_M et FP16 environ 4×, donc le 32B en FP16 nécessite une configuration de classe 64 GB.
- ▸1.5B : fichier ~1.1 GB, ~4 GB VRAM (ou CPU) en Q4_K_M
- ▸7B : fichier ~4.7 GB, ~5.5 GB VRAM — RTX 3060 12GB
- ▸14B : fichier ~9 GB, ~9.5 GB VRAM — RTX 4060 Ti 16GB
- ▸32B : fichier ~19 GB, ~20.5 GB VRAM — RTX 4090 24GB (juste)
- ▸70B : fichier ~40 GB, ~42 GB VRAM — deux GPU ou 48 GB
- ▸Règle : Q8_0 ≈ 2× Q4_K_M ; FP16 ≈ 4× Q4_K_M
Mis à jour : 2026-06-19
Points clés
- ✓VRAM Q4_K_M (par défaut Ollama) : 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
- ✓Q8_0 représente environ 2× la taille Q4_K_M ; FP16 environ 4× la taille du fichier Q4_K_M.
- ✓Le 14B en Q4_K_M (~9.5 GB) est le meilleur compromis — il tient sur une carte 16 GB avec une marge de contexte.
- ✓Le 32B en Q4_K_M (~20.5 GB) est juste sur une RTX 4090 24 GB ; passez à une quantification plus petite pour un contexte plus long.
- ✓Le DeepSeek-R1 complet 671B ne figure pas dans ce tableau — il nécessite ~376–404 GB en Q4 (centre de données uniquement).
- ✓Ce sont des distillations de raisonnement R1, pas DeepSeek-V3 (un modèle de chat).
VRAM des distillations DeepSeek-R1 par quantification
Les chiffres de VRAM incluent une petite marge pour le contexte et le cache KV en plus de la taille brute du fichier. Q4_K_M est le format par défaut d'Ollama et le meilleur compromis taille-qualité pour le raisonnement. Utilisez Q8_0 uniquement si vous avez de la VRAM disponible et souhaitez un gain de qualité marginal ; FP16 vaut rarement la peine en local.
| Distillation | Q4_K_M (VRAM) | Q8_0 (VRAM) | FP16 (VRAM) | GPU minimum (Q4_K_M) |
|---|---|---|---|---|
| 1.5B | ~4 GB | ~5 GB | ~6 GB | Tout GPU 4 GB / CPU |
| 7B (Qwen2.5) | ~5.5 GB | ~9.5 GB | ~16 GB | RTX 3060 12GB |
| 8B (Llama 3) | ~6 GB | ~10 GB | ~17 GB | RTX 3060 12GB |
| 14B (Qwen2.5) | ~9.5 GB | ~16 GB | ~29 GB | RTX 4060 Ti 16GB |
| 32B (Qwen2.5) | ~20.5 GB | ~35 GB | ~64 GB | RTX 4090 24GB (juste) |
| 70B (Llama 3) | ~42 GB | ~74 GB | ~140 GB | Deux GPU / 48 GB |
Quelle quantification choisir ?
**Utilisez Q4_K_M pour presque tout** — c'est le format par défaut d'Ollama et il maintient une qualité de raisonnement élevée tout en logeant le plus de modèles par GB. Choisissez-le sauf raison précise contraire.
**Utilisez Q8_0 uniquement avec de la VRAM disponible** — il double environ l'empreinte pour un gain de qualité marginal qui change rarement une réponse de raisonnement. Pertinent sur une carte 24 GB avec le 14B, guère ailleurs.
**Évitez FP16 en local** — à environ 4× la taille Q4_K_M, il pousse le 32B vers du matériel de classe 64 GB sans avantage pratique de raisonnement par rapport à Q8_0.
V3 vs R1 : ne les confondez pas
**DeepSeek-V3 est un modèle de chat ; DeepSeek-R1 (et ces distillations) sont des modèles de raisonnement.** Ce tableau concerne uniquement la famille de raisonnement R1. Si vous cherchez V3, c'est un modèle de chat MoE 671B qui n'est pas non plus exécutable par le grand public — voir le [bite matériel DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).
Guides associés
- ▸Meilleure distillation DeepSeek pour votre GPU — associez votre carte à une distillation, avec la commande Ollama et les tok/s attendus
- ▸Meilleur modèle de raisonnement local 2026 : classement DeepSeek-R1 — le guide de classement complet avec benchmarks
- ▸Exigences matérielles locales DeepSeek V3 — l'équivalent du modèle de chat V3
Questions fréquentes
Quelle est la VRAM pour DeepSeek-R1-Distill-Qwen-32B ?▾
Combien Q8_0 ajoute-t-il par rapport à Q4_K_M ?▾
Puis-je exécuter la distillation 70B sur un seul GPU ?▾
Le DeepSeek-R1 complet figure-t-il dans ce tableau ?▾
Vous voulez les détails complets ?
Lire le guide complet →Prompt Bites associés