Skip to main content
PromptQuorumPromptQuorum

Meilleure distillation DeepSeek pour votre GPU (2026)

Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission. Cliquer sur les liens et vos prochaines étapes relèvent entièrement de votre responsabilité. Ces liens ne représentent aucune approbation ou vérification par PromptQuorum.

Réponse rapide

Repérez votre carte : RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B ou 32B, RTX 4090 → 32B, double GPU/48 Go → 70B. Pour le meilleur petit modèle sur 8 Go, exécutez DeepSeek-R1-0528-Qwen3-8B. Chacun s'exécute avec une seule commande Ollama en Q4_K_M.

  • RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
  • RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recommandé)
  • RTX 4070 / 4080 → deepseek-r1:14b ou :32b — 14B ~40–50, 32B ~15–20 tok/s
  • RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, surpasse o1-mini
  • Double GPU / 48 Go → deepseek-r1:70b — ~12–18 tok/s
  • Carte de 8 Go, meilleur petit → DeepSeek-R1-0528-Qwen3-8B

Mis à jour : 2026-06-19

Quantization & VRAMIntermédiaire

Points clés

  • RTX 3060 12GB → distillation 7B ; RTX 4060 Ti 16GB → 14B (le bon équilibre) ; RTX 4090 → 32B (surpasse o1-mini).
  • Double GPU ou 48 Go → distillation 70B, la plus performante des six.
  • Sur 8 Go, le meilleur petit modèle est DeepSeek-R1-0528-Qwen3-8B.
  • Chaque modèle s'installe en Q4_K_M avec une seule commande, par ex. `ollama run deepseek-r1:14b`.
  • Réglez la température sur 0.6 et n'utilisez aucun system prompt pour éviter les répétitions de R1.
  • Il s'agit de la famille de raisonnement R1 — pas de DeepSeek-V3, qui est un modèle de chat.

GPU → distillation DeepSeek-R1 → commande Ollama

Repérez votre GPU dans la première colonne et lisez la ligne. Les valeurs tok/s sont approximatives pour des charges de raisonnement Q4_K_M et varient selon la longueur du contexte et les réglages d'échantillonnage. Lorsque deux modèles tiennent, le plus grand raisonne mieux, le plus petit est plus rapide.

GPU (VRAM)Meilleure distillationCommande Ollamatok/s attendus
RTX 3060 12GB (palier 8 Go)DeepSeek-R1-Distill-Qwen-7Bollama run deepseek-r1:7b~30–40
8 Go, meilleur petitDeepSeek-R1-0528-Qwen3-8Bollama run deepseek-r1-0528-qwen3:8b~30–40
RTX 4060 Ti 16GBDeepSeek-R1-Distill-Qwen-14Bollama run deepseek-r1:14b~25–35
RTX 4070 / 408014B (rapide) ou 32B (si 16 Go+)ollama run deepseek-r1:14b14B ~40–50
RTX 4090 24GBDeepSeek-R1-Distill-Qwen-32Bollama run deepseek-r1:32b~30–40
Double GPU / 48 GoDeepSeek-R1-Distill-Llama-70Bollama run deepseek-r1:70b~12–18

Comment utiliser ce tableau en 3 étapes

Trois lignes : (1) repérez votre GPU et son VRAM, (2) exécutez la commande Ollama correspondante, (3) réglez la température sur 0.6 et videz le system prompt. Si un modèle est trop lent, descendez d'un palier ; s'il vous reste du VRAM, montez d'un palier pour un meilleur raisonnement.

V3 vs R1 : ce tableau ne concerne que R1

**DeepSeek-R1 est la famille de raisonnement qu'installent ces commandes ; DeepSeek-V3 est un modèle de chat distinct.** N'attendez pas une expérience V3 de ces distillations — elles sont réglées pour montrer un raisonnement étape par étape en mathématiques et en logique. V3 est en outre un MoE 671B non exécutable sur du matériel grand public ; voir la [fiche matériel DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guides associés

Questions fréquentes

Quelle distillation DeepSeek tourne sur une RTX 4090 ?
DeepSeek-R1-Distill-Qwen-32B. En Q4_K_M elle nécessite ~20.5 Go, tient dans une RTX 4090 de 24 Go (juste pour le contexte) et surpasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement. Commande : `ollama run deepseek-r1:32b`.
Quelle est la meilleure distillation DeepSeek pour un GPU de 8 Go ?
DeepSeek-R1-0528-Qwen3-8B est la meilleure petite distillation de raisonnement et tient dans 8 Go. La distillation 7B d'origine (`ollama run deepseek-r1:7b`) est l'alternative bien prise en charge.
Pourquoi ma distillation est-elle lente ?
Généralement un débordement de VRAM — si le modèle ne tient pas, il déborde vers la RAM système et le débit s'effondre. Descendez d'un palier (par ex. 32B → 14B) pour que le modèle tienne entièrement en VRAM.
Dois-je choisir une quantisation ?
Non. Les commandes `ollama run deepseek-r1:` utilisent Q4_K_M par défaut, le meilleur compromis taille/qualité. Voir la fiche VRAM si vous voulez les valeurs Q8_0 ou FP16.

Vous voulez les détails complets ?

Lire le guide complet →

Prompt Bites associés