Meilleure distillation DeepSeek pour votre GPU (2026)

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission. Cliquer sur les liens et vos prochaines étapes relèvent entièrement de votre responsabilité. Ces liens ne représentent aucune approbation ou vérification par PromptQuorum.

Réponse rapide

Repérez votre carte : RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B ou 32B, RTX 4090 → 32B, double GPU/48 Go → 70B. Pour le meilleur petit modèle sur 8 Go, exécutez DeepSeek-R1-0528-Qwen3-8B. Chacun s'exécute avec une seule commande Ollama en Q4_K_M.

▸RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
▸RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recommandé)
▸RTX 4070 / 4080 → deepseek-r1:14b ou :32b — 14B ~40–50, 32B ~15–20 tok/s
▸RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, surpasse o1-mini
▸Double GPU / 48 Go → deepseek-r1:70b — ~12–18 tok/s
▸Carte de 8 Go, meilleur petit → DeepSeek-R1-0528-Qwen3-8B

Mis à jour : 2026-06-19

Quantization & VRAMIntermédiaire

Points clés

✓RTX 3060 12GB → distillation 7B ; RTX 4060 Ti 16GB → 14B (le bon équilibre) ; RTX 4090 → 32B (surpasse o1-mini).
✓Double GPU ou 48 Go → distillation 70B, la plus performante des six.
✓Sur 8 Go, le meilleur petit modèle est DeepSeek-R1-0528-Qwen3-8B.
✓Chaque modèle s'installe en Q4_K_M avec une seule commande, par ex. `ollama run deepseek-r1:14b`.
✓Réglez la température sur 0.6 et n'utilisez aucun system prompt pour éviter les répétitions de R1.
✓Il s'agit de la famille de raisonnement R1 — pas de DeepSeek-V3, qui est un modèle de chat.

GPU → distillation DeepSeek-R1 → commande Ollama

Repérez votre GPU dans la première colonne et lisez la ligne. Les valeurs tok/s sont approximatives pour des charges de raisonnement Q4_K_M et varient selon la longueur du contexte et les réglages d'échantillonnage. Lorsque deux modèles tiennent, le plus grand raisonne mieux, le plus petit est plus rapide.

GPU (VRAM)	Meilleure distillation	Commande Ollama	tok/s attendus
RTX 3060 12GB (palier 8 Go)	DeepSeek-R1-Distill-Qwen-7B	ollama run deepseek-r1:7b	~30–40
8 Go, meilleur petit	DeepSeek-R1-0528-Qwen3-8B	ollama run deepseek-r1-0528-qwen3:8b	~30–40
RTX 4060 Ti 16GB	DeepSeek-R1-Distill-Qwen-14B	ollama run deepseek-r1:14b	~25–35
RTX 4070 / 4080	14B (rapide) ou 32B (si 16 Go+)	ollama run deepseek-r1:14b	14B ~40–50
RTX 4090 24GB	DeepSeek-R1-Distill-Qwen-32B	ollama run deepseek-r1:32b	~30–40
Double GPU / 48 Go	DeepSeek-R1-Distill-Llama-70B	ollama run deepseek-r1:70b	~12–18

RTX 3060 12GB sur Amazon (lien produit · divulgué)lien produit · divulguéRTX 4060 Ti 16GB sur Amazon (lien produit · divulgué)lien produit · divulguéRTX 4070 sur Amazon (lien produit · divulgué)lien produit · divulguéRTX 4090 24GB sur Amazon (lien produit · divulgué)lien produit · divulgué

Comment utiliser ce tableau en 3 étapes

Trois lignes : (1) repérez votre GPU et son VRAM, (2) exécutez la commande Ollama correspondante, (3) réglez la température sur 0.6 et videz le system prompt. Si un modèle est trop lent, descendez d'un palier ; s'il vous reste du VRAM, montez d'un palier pour un meilleur raisonnement.

V3 vs R1 : ce tableau ne concerne que R1

**DeepSeek-R1 est la famille de raisonnement qu'installent ces commandes ; DeepSeek-V3 est un modèle de chat distinct.** N'attendez pas une expérience V3 de ces distillations — elles sont réglées pour montrer un raisonnement étape par étape en mathématiques et en logique. V3 est en outre un MoE 671B non exécutable sur du matériel grand public ; voir la [fiche matériel DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guides associés

▸Fiche VRAM des distillations DeepSeek-R1 — chaque distillation par quant (Q4_K_M, Q8, FP16) avec VRAM et GPU minimal
▸Meilleur modèle de raisonnement local 2026 : DeepSeek-R1 classé — le guide classé complet avec benchmarks et paliers
▸Configuration matérielle locale DeepSeek V3 — le pendant du modèle de chat V3

Questions fréquentes

Quelle distillation DeepSeek tourne sur une RTX 4090 ?▾

DeepSeek-R1-Distill-Qwen-32B. En Q4_K_M elle nécessite ~20.5 Go, tient dans une RTX 4090 de 24 Go (juste pour le contexte) et surpasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement. Commande : `ollama run deepseek-r1:32b`.

Quelle est la meilleure distillation DeepSeek pour un GPU de 8 Go ?▾

DeepSeek-R1-0528-Qwen3-8B est la meilleure petite distillation de raisonnement et tient dans 8 Go. La distillation 7B d'origine (`ollama run deepseek-r1:7b`) est l'alternative bien prise en charge.

Pourquoi ma distillation est-elle lente ?▾

Généralement un débordement de VRAM — si le modèle ne tient pas, il déborde vers la RAM système et le débit s'effondre. Descendez d'un palier (par ex. 32B → 14B) pour que le modèle tienne entièrement en VRAM.

Dois-je choisir une quantisation ?▾

Non. Les commandes `ollama run deepseek-r1:` utilisent Q4_K_M par défaut, le meilleur compromis taille/qualité. Voir la fiche VRAM si vous voulez les valeurs Q8_0 ou FP16.

Vous voulez les détails complets ?

Lire le guide complet →

Prompt Bites associés

▸Aide-mémoire VRAM DeepSeek-R1 Distill (2026)

← Retour aux Prompts en bref