Meilleure distillation DeepSeek pour votre GPU (2026)
Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission. Cliquer sur les liens et vos prochaines étapes relèvent entièrement de votre responsabilité. Ces liens ne représentent aucune approbation ou vérification par PromptQuorum.
Réponse rapide
Repérez votre carte : RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B ou 32B, RTX 4090 → 32B, double GPU/48 Go → 70B. Pour le meilleur petit modèle sur 8 Go, exécutez DeepSeek-R1-0528-Qwen3-8B. Chacun s'exécute avec une seule commande Ollama en Q4_K_M.
- ▸RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
- ▸RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recommandé)
- ▸RTX 4070 / 4080 → deepseek-r1:14b ou :32b — 14B ~40–50, 32B ~15–20 tok/s
- ▸RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, surpasse o1-mini
- ▸Double GPU / 48 Go → deepseek-r1:70b — ~12–18 tok/s
- ▸Carte de 8 Go, meilleur petit → DeepSeek-R1-0528-Qwen3-8B
Mis à jour : 2026-06-19
Points clés
- ✓RTX 3060 12GB → distillation 7B ; RTX 4060 Ti 16GB → 14B (le bon équilibre) ; RTX 4090 → 32B (surpasse o1-mini).
- ✓Double GPU ou 48 Go → distillation 70B, la plus performante des six.
- ✓Sur 8 Go, le meilleur petit modèle est DeepSeek-R1-0528-Qwen3-8B.
- ✓Chaque modèle s'installe en Q4_K_M avec une seule commande, par ex. `ollama run deepseek-r1:14b`.
- ✓Réglez la température sur 0.6 et n'utilisez aucun system prompt pour éviter les répétitions de R1.
- ✓Il s'agit de la famille de raisonnement R1 — pas de DeepSeek-V3, qui est un modèle de chat.
GPU → distillation DeepSeek-R1 → commande Ollama
Repérez votre GPU dans la première colonne et lisez la ligne. Les valeurs tok/s sont approximatives pour des charges de raisonnement Q4_K_M et varient selon la longueur du contexte et les réglages d'échantillonnage. Lorsque deux modèles tiennent, le plus grand raisonne mieux, le plus petit est plus rapide.
| GPU (VRAM) | Meilleure distillation | Commande Ollama | tok/s attendus |
|---|---|---|---|
| RTX 3060 12GB (palier 8 Go) | DeepSeek-R1-Distill-Qwen-7B | ollama run deepseek-r1:7b | ~30–40 |
| 8 Go, meilleur petit | DeepSeek-R1-0528-Qwen3-8B | ollama run deepseek-r1-0528-qwen3:8b | ~30–40 |
| RTX 4060 Ti 16GB | DeepSeek-R1-Distill-Qwen-14B | ollama run deepseek-r1:14b | ~25–35 |
| RTX 4070 / 4080 | 14B (rapide) ou 32B (si 16 Go+) | ollama run deepseek-r1:14b | 14B ~40–50 |
| RTX 4090 24GB | DeepSeek-R1-Distill-Qwen-32B | ollama run deepseek-r1:32b | ~30–40 |
| Double GPU / 48 Go | DeepSeek-R1-Distill-Llama-70B | ollama run deepseek-r1:70b | ~12–18 |
Comment utiliser ce tableau en 3 étapes
Trois lignes : (1) repérez votre GPU et son VRAM, (2) exécutez la commande Ollama correspondante, (3) réglez la température sur 0.6 et videz le system prompt. Si un modèle est trop lent, descendez d'un palier ; s'il vous reste du VRAM, montez d'un palier pour un meilleur raisonnement.
V3 vs R1 : ce tableau ne concerne que R1
**DeepSeek-R1 est la famille de raisonnement qu'installent ces commandes ; DeepSeek-V3 est un modèle de chat distinct.** N'attendez pas une expérience V3 de ces distillations — elles sont réglées pour montrer un raisonnement étape par étape en mathématiques et en logique. V3 est en outre un MoE 671B non exécutable sur du matériel grand public ; voir la [fiche matériel DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).
Guides associés
- ▸Fiche VRAM des distillations DeepSeek-R1 — chaque distillation par quant (Q4_K_M, Q8, FP16) avec VRAM et GPU minimal
- ▸Meilleur modèle de raisonnement local 2026 : DeepSeek-R1 classé — le guide classé complet avec benchmarks et paliers
- ▸Configuration matérielle locale DeepSeek V3 — le pendant du modèle de chat V3
Questions fréquentes
Quelle distillation DeepSeek tourne sur une RTX 4090 ?▾
Quelle est la meilleure distillation DeepSeek pour un GPU de 8 Go ?▾
Pourquoi ma distillation est-elle lente ?▾
Dois-je choisir une quantisation ?▾
Vous voulez les détails complets ?
Lire le guide complet →Prompt Bites associés