Points clés
- Vous ne pouvez pas exécuter le DeepSeek-R1 complet à 671B chez vous — il faut ~376–404 Go de VRAM en Q4 (datacenter uniquement). Vous exécutez l'un de ses distillés.
- Il existe 6 distillés officiels : 1.5B, 7B, 14B, 32B (base Qwen2.5) et 8B, 70B (base Llama 3).
- Point idéal : DeepSeek-R1-Distill-Qwen-14B sur un GPU de 16 Go — ~9 Go en Q4_K_M, maths multi-étapes solides.
- Meilleur sur un seul GPU : le distillé 32B dépasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement ; il est juste sur 24 Go.
- Meilleur petit modèle : DeepSeek-R1-0528-Qwen3-8B domine les modèles 8B ouverts sur AIME 2024 et tient sur une carte de 8 Go.
- Tous les distillés s'installent en une commande, par ex. `ollama run deepseek-r1:14b` (Q4_K_M par défaut).
- Réglez la température à 0.6 et n'utilisez aucun system prompt — placez toutes les instructions dans le prompt utilisateur pour éviter les échecs de répétition de R1.
- Cette page ne classe que le raisonnement (maths, logique, multi-étapes). Pour le code, voyez le guide de code DeepSeek vs Qwen.
Qu'est-ce qu'un modèle de raisonnement local ?
Un modèle de raisonnement est un LLM entraîné à produire une chaîne de pensée explicite avant sa réponse finale, ce qui le rend bien plus performant en maths, logique et problèmes multi-étapes qu'un modèle de chat standard de même taille. Les distillés DeepSeek-R1 sont des modèles de raisonnement : ils « réfléchissent à voix haute » à l'intérieur de la réponse, vérifiant et révisant les étapes avant de s'engager sur une réponse.
Le compromis, c'est la latence et la verbosité. Un modèle de raisonnement dépense des tokens supplémentaires pour travailler le problème, donc une seule réponse peut prendre plusieurs secondes et des centaines de tokens de raisonnement visible. Pour une preuve mathématique ou une énigme logique, c'est exactement ce que vous voulez ; pour une simple recherche factuelle, c'est du temps perdu.
La distinction qui prête à confusion : DeepSeek-V3 est un modèle de chat, DeepSeek-R1 est le modèle de raisonnement. Ils partagent une lignée d'architecture mais sont réglés pour des tâches différentes. Si vous voulez des réponses conversationnelles, utilisez V3 ; si vous voulez une résolution de problèmes pas à pas, utilisez R1 ou l'un de ses distillés. Nous expliquons précisément ce que la distillation conserve et perd dans DeepSeek-R1 face aux distillés.
Pour une introduction plus approfondie à l'exécution de ces modèles, commencez par le Guide matériel LLM local 2026 et La quantification des LLM expliquée, qui couvrent les calculs de VRAM sur lesquels repose ce guide.
📍 En une phrase
Un modèle de raisonnement local est un LLM qui rédige une chaîne de pensée explicite avant de répondre, ce qui le rend plus fort en maths et en logique qu'un modèle de chat de même taille.
💬 En termes simples
Voyez un modèle de raisonnement comme un élève qui montre son travail. Il est plus lent et écrit davantage, mais il résout bien plus souvent les problèmes multi-étapes qu'un modèle qui lâche une réponse au hasard.
Les 6 distillés DeepSeek-R1 en un coup d'œil
DeepSeek a publié six distillés officiels de R1, chacun créé en affinant un modèle de base ouvert existant sur des traces de raisonnement du R1 complet à 671B. Quatre utilisent une base Qwen2.5 (1.5B, 7B, 14B, 32B) et deux une base Llama 3 (8B, 70B). Les chiffres de VRAM ci-dessous correspondent à la quantification Q4_K_M par défaut d'Ollama.
📍 En une phrase
DeepSeek-R1 compte six distillés officiels de 1.5B à 70B, bâtis sur des bases Qwen2.5 et Llama 3, le modèle 14B offrant le meilleur équilibre pour un GPU de 16 Go.
| Distillé | Modèle de base | Taille du fichier (Q4_K_M) | VRAM min. | Idéal pour |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5 1.5B | ~1.1 GB | 4 GB / CPU | Appareils edge, tests rapides |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5 7B | ~4.7 GB | 8 GB | GPU d'entrée de gamme, 55.5% AIME 2024 |
| DeepSeek-R1-Distill-Llama-8B | Llama 3 8B | ~4.9 GB | 8 GB | Workflows sous licence Llama |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5 14B | ~9 GB | 16 GB | Meilleur équilibre global |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5 32B | ~18–20 GB | 24 GB | Dépasse o1-mini, meilleur sur un seul GPU |
| DeepSeek-R1-Distill-Llama-70B | Llama 3 70B | ~40 GB | Bi-GPU / 48 GB | Distillé le plus puissant, précision max. |
Le DeepSeek-R1-Distill-Llama-8B porte à la fois la licence Llama 3 et la licence MIT. Les distillés basés sur Qwen héritent de la licence Qwen. Vérifiez toujours la licence avant un usage commercial.
Le meilleur petit distillé de raisonnement : DeepSeek-R1-0528-Qwen3-8B
DeepSeek-R1-0528-Qwen3-8B est le meilleur petit modèle de raisonnement exécutable sur un GPU de 8 Go, distillé du R1-0528 mis à jour sur une base Qwen3 8B. Il domine les modèles 8B ouverts sur AIME 2024 et obtient environ 10 points de pourcentage de plus que le Qwen3 8B de base sur ce benchmark — un gain notable en maths et en logique à cette taille.
Choisissez-le plutôt que les distillés 7B et 8B d'origine lorsque vous voulez la meilleure précision en petit modèle et que votre matériel plafonne à 8 Go. Il s'inscrit dans le même palier RTX 3060 12GB et tourne en Q4_K_M dans environ 5 Go. Pour la plupart des utilisateurs de portables et de GPU d'entrée de gamme attachés à la qualité du raisonnement plus qu'à la vitesse brute, c'est le modèle par lequel commencer.
💬 En termes simples
Si votre GPU a 8 Go, le plus récent R1-0528-Qwen3-8B est le petit modèle de raisonnement le plus intelligent — il utilise une meilleure base que les distillés d'origine et obtient un meilleur score en maths de compétition.
Distillés DeepSeek-R1 classés par palier matériel
Choisissez le palier le plus élevé que votre VRAM permet. Plus de paramètres signifie un meilleur raisonnement, mais uniquement si le modèle tient sans déborder vers la RAM système (ce qui effondre la vitesse). Utilisez ce classement pour associer un distillé au GPU que vous possédez ou comptez acheter.
Quels scores les distillés DeepSeek-R1 obtiennent-ils aux benchmarks de raisonnement ?
Ce sont des benchmarks de raisonnement — AIME 2024 (maths de compétition), MATH-500 (maths variées) et GPQA Diamond (questions-réponses scientifiques de niveau master). Ils mesurent la résolution de problèmes pas à pas, pas le code. Le résultat phare : le distillé 32B dépasse OpenAI o1-mini sur plusieurs d'entre eux, et le distillé 7B affiche 55.5% sur AIME 2024, un score qu'aucun modèle de chat de même taille n'atteint.
📍 En une phrase
Le DeepSeek-R1-Distill-Qwen-32B dépasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement, et le distillé 7B obtient 55.5% sur AIME 2024.
| Distillé | AIME 2024 | Niveau de raisonnement | Remarques |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | 55.5% | Solide pour 7B | Meilleur sur GPU d'entrée de gamme |
| DeepSeek-R1-0528-Qwen3-8B | Domine les 8B ouverts | Meilleur petit | ~+10 pts vs Qwen3 8B de base |
| DeepSeek-R1-Distill-Qwen-14B | Supérieur au 7B | Meilleur équilibre | Point idéal 16 Go |
| DeepSeek-R1-Distill-Qwen-32B | Meilleur sur un seul GPU | Dépasse o1-mini | Meilleur sur 24 Go |
| DeepSeek-R1-Distill-Llama-70B | Le plus haut des six | Maximum | Nécessite un bi-GPU |
Utilisez les scores exacts là où ils sont publiés (7B = 55.5% AIME 2024) et les classements relatifs ailleurs. Les chiffres de benchmark varient avec la quantification et les réglages d'échantillonnage ; traitez-les comme indicatifs au sein d'un palier, pas comme absolus.
Quand NE PAS utiliser un modèle de raisonnement ?
Évitez un modèle de raisonnement quand la tâche n'en est pas une — ils sont plus lents, plus verbeux et pas plus précis sur la simple récupération d'information ou le chat. Utilisez plutôt un modèle de chat standard comme DeepSeek-V3 ou Llama 3.3.
- À éviter pour les recherches factuelles rapides — la chaîne de pensée visible gaspille des tokens et du temps sur des réponses qu'un modèle de chat renvoie instantanément.
- À éviter pour la conversation libre — les modèles de raisonnement sont réglés pour des problèmes ayant une réponse correcte, pas pour le dialogue.
- À éviter pour le débit de code pur — pour la génération de code, dirigez-vous vers le guide de code DeepSeek vs Qwen ; cette page ne couvre que le raisonnement.
- À éviter quand la latence est critique — si vous avez besoin de réponses en moins d'une seconde, un modèle de chat plus petit l'emporte.
- Utilisez un modèle de raisonnement quand la tâche relève des maths, de la logique, de la planification multi-étapes ou de tout cas où montrer le travail améliore l'exactitude.
Astuce de config : température 0.6 et aucun system prompt
Réglez la température à 0.6 (la plage 0.5–0.7 est sûre) et n'utilisez aucun system prompt — placez chaque instruction dans le prompt utilisateur. C'est la configuration la plus importante pour les distillés DeepSeek-R1. Les modèles sont sujets à un mode d'échec de répétition et d'incohérence lorsqu'on leur donne un system prompt ou une température proche de 0 ou au-dessus de ~0.8.
En pratique : laissez vide le champ system prompt d'Ollama/LM Studio, ajoutez vos instructions au début du message utilisateur et maintenez la température à 0.6. Si vous voyez le modèle boucler ou dériver en plein raisonnement, ce réglage est presque toujours la solution.
Installation : démarrage rapide Ollama par palier
Chaque distillé s'installe et s'exécute en une seule commande Ollama (toutes par défaut en Q4_K_M). Installez d'abord Ollama si ce n'est pas fait — voyez Comment installer Ollama. Choisissez ensuite la commande de votre palier :
ollama run deepseek-r1:1.5b # edge / CPU
ollama run deepseek-r1:7b # 8 GB VRAM
ollama run deepseek-r1:8b # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b # 16 GB VRAM — recommended
ollama run deepseek-r1:32b # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b # dual-GPU / 48 GBVerdict : quel distillé DeepSeek-R1 exécuter ?
La décision dépend de votre VRAM et de votre priorité : précision ou vitesse. Voici la réponse en une ligne pour chaque cas.
Choisissez votre distillé
Use a local LLM if:
- •GPU de 16 Go → DeepSeek-R1-Distill-Qwen-14B (meilleur global, le choix par défaut)
- •GPU de 24 Go → DeepSeek-R1-Distill-Qwen-32B (dépasse o1-mini, meilleur sur un seul GPU)
- •GPU de 8 Go → DeepSeek-R1-0528-Qwen3-8B (meilleur petit) ou le distillé 7B
- •Bi-GPU / 48 Go → DeepSeek-R1-Distill-Llama-70B (précision maximale)
Use a cloud model if:
- •Vous avez besoin d'un raisonnement de pointe au-delà de tout distillé → comparez à GPT-4o / Claude / Gemini via PromptQuorum
- •Vous ne pouvez pas dédier un GPU → une API de raisonnement hébergée peut revenir moins cher que l'achat de matériel
Quick decision:
- →En cas de doute, commencez par le 14B sur une carte de 16 Go.
- →Exécutez toujours à une température de 0.6 sans system prompt.
- →Pour le code, utilisez un modèle de code — pas un distillé de raisonnement.
Questions fréquentes
Puis-je exécuter le DeepSeek-R1 complet à 671B en local ?
Non. Le DeepSeek-R1 complet est un modèle Mixture-of-Experts de 671B paramètres (~37B actifs par token) et nécessite environ 376–404 Go de VRAM en Q4 — matériel de datacenter uniquement. Chez vous, vous exécutez l'un de ses distillés (1.5B à 70B). Une version Unsloth en 1.58 bits (~131 Go) existe mais tourne à environ 0.3 token/seconde, une curiosité plutôt qu'une configuration utilisable.
Quel distillé DeepSeek-R1 est le meilleur global ?
Pour la plupart des gens, DeepSeek-R1-Distill-Qwen-14B sur un GPU de 16 Go offre le meilleur équilibre entre qualité de raisonnement, vitesse et tenue en VRAM. Si vous avez une carte de 24 Go, le distillé 32B est plus puissant et dépasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement.
Quel est le meilleur petit modèle de raisonnement DeepSeek ?
DeepSeek-R1-0528-Qwen3-8B. Il est distillé du R1-0528 mis à jour sur une base Qwen3 8B, domine les modèles 8B ouverts sur AIME 2024 et obtient environ 10 points de plus que le Qwen3 8B de base. Il tient sur un GPU de 8 Go en Q4_K_M.
De combien de VRAM chaque distillé a-t-il besoin ?
À la valeur par défaut d'Ollama Q4_K_M : le 7B nécessite ~8 Go (fichier ~4.7 Go), le 14B ~16 Go (fichier ~9 Go), le 32B ~24 Go (fichier ~18–20 Go) et le 70B un bi-GPU ou 48 Go (fichier ~40 Go). Le FP16 fait environ 4× la taille Q4_K_M ; le Q8_0 environ 2×.
DeepSeek-R1 est-il bon pour le code ?
Ce guide ne classe que le raisonnement (maths, logique, multi-étapes). Pour la génération de code, les compromis diffèrent — voyez notre comparaison dédiée sur /power-local-llm/deepseek-vs-qwen-coding-local-2026 plutôt que de choisir un distillé de raisonnement pour le débit de code.
Quelle est la différence entre DeepSeek-V3 et DeepSeek-R1 ?
DeepSeek-V3 est un modèle de chat réglé pour la conversation ; DeepSeek-R1 est un modèle de raisonnement qui produit une chaîne de pensée explicite avant de répondre. Pour les maths et la logique, utilisez R1 ou un distillé ; pour le chat général, utilisez V3.
Pourquoi mon distillé DeepSeek-R1 boucle-t-il ou produit-il du charabia ?
Presque toujours un problème de configuration. Réglez la température à 0.6 (0.5–0.7 convient) et supprimez tout system prompt — placez toutes les instructions dans le message utilisateur. Les distillés R1 ont un mode d'échec de répétition connu, déclenché par les system prompts et les températures extrêmes.
Comment installer un distillé DeepSeek-R1 ?
Installez Ollama, puis lancez une commande pour votre palier, par ex. `ollama run deepseek-r1:14b`. Tous les distillés sont par défaut en Q4_K_M. Voyez la section installation ci-dessus pour la liste complète des commandes.
Le distillé 8B a-t-il une licence différente ?
Oui. DeepSeek-R1-Distill-Llama-8B porte la licence Llama 3 en plus de MIT, car sa base est Llama 3. Les distillés basés sur Qwen (1.5B, 7B, 14B, 32B) héritent de la licence Qwen. Vérifiez la licence avant un usage commercial.
Dois-je acheter une RTX 4060 Ti 16GB ou une RTX 4090 pour le raisonnement ?
Si votre budget permet la RTX 4090 et que vous voulez exécuter le distillé 32B (qui dépasse o1-mini), achetez la 4090. Si vous cherchez le meilleur rapport qualité-prix et que le distillé 14B couvre vos besoins, la RTX 4060 Ti 16GB à ~420 $ est l'achat le plus malin.
Journal des mises à jour
- Publié le 2026-06-19. Prochaine révision prévue le 2026-12-19 (palier de fraîcheur semestriel).
- Couvre les 6 distillés officiels DeepSeek-R1 plus DeepSeek-R1-0528-Qwen3-8B. Vérifié par rapport aux scores AIME 2024 publiés et aux chiffres de VRAM Q4_K_M de juin 2026.