Skip to main content
PromptQuorumPromptQuorum
Accueil/LLMs locaux/Meilleur modèle de raisonnement local 2026 : DeepSeek-R1 classé
Models & Benchmarks

Meilleur modèle de raisonnement local 2026 : DeepSeek-R1 classé

·15 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission. Cliquer sur les liens et vos prochaines étapes relèvent entièrement de votre responsabilité. Ces liens ne représentent aucune approbation ou vérification par PromptQuorum.

Le meilleur modèle de raisonnement local pour la plupart des gens en 2026 est DeepSeek-R1-Distill-Qwen-14B sur un GPU de 16 Go, DeepSeek-R1-Distill-Qwen-32B étant le premier choix si vous disposez de 24 Go. Le distillé 14B tourne en Q4_K_M dans ~9 Go, gère les maths multi-étapes de type AIME et tient sur une RTX 4060 Ti 16GB. Le distillé 32B dépasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement et reste le meilleur modèle de raisonnement sur un seul GPU grand public. Si vous n'avez que 8 Go, exécutez le distillé 7B ou le plus récent DeepSeek-R1-0528-Qwen3-8B — le meilleur petit distillé de raisonnement disponible.

Le DeepSeek-R1 complet à 671B est réservé aux datacenters : le modèle que vous exécutez réellement chez vous est l'un de ses distillés. Ce guide classe les six distillés officiels de DeepSeek-R1 (1.5B à 70B) ainsi que le remarquable DeepSeek-R1-0528-Qwen3-8B par palier matériel, avec de vrais scores de raisonnement AIME 2024 et MATH-500, la commande Ollama exacte par modèle et le GPU adapté à chacun.

Points clés

  • Vous ne pouvez pas exécuter le DeepSeek-R1 complet à 671B chez vous — il faut ~376–404 Go de VRAM en Q4 (datacenter uniquement). Vous exécutez l'un de ses distillés.
  • Il existe 6 distillés officiels : 1.5B, 7B, 14B, 32B (base Qwen2.5) et 8B, 70B (base Llama 3).
  • Point idéal : DeepSeek-R1-Distill-Qwen-14B sur un GPU de 16 Go — ~9 Go en Q4_K_M, maths multi-étapes solides.
  • Meilleur sur un seul GPU : le distillé 32B dépasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement ; il est juste sur 24 Go.
  • Meilleur petit modèle : DeepSeek-R1-0528-Qwen3-8B domine les modèles 8B ouverts sur AIME 2024 et tient sur une carte de 8 Go.
  • Tous les distillés s'installent en une commande, par ex. `ollama run deepseek-r1:14b` (Q4_K_M par défaut).
  • Réglez la température à 0.6 et n'utilisez aucun system prompt — placez toutes les instructions dans le prompt utilisateur pour éviter les échecs de répétition de R1.
  • Cette page ne classe que le raisonnement (maths, logique, multi-étapes). Pour le code, voyez le guide de code DeepSeek vs Qwen.

Qu'est-ce qu'un modèle de raisonnement local ?

Un modèle de raisonnement est un LLM entraîné à produire une chaîne de pensée explicite avant sa réponse finale, ce qui le rend bien plus performant en maths, logique et problèmes multi-étapes qu'un modèle de chat standard de même taille. Les distillés DeepSeek-R1 sont des modèles de raisonnement : ils « réfléchissent à voix haute » à l'intérieur de la réponse, vérifiant et révisant les étapes avant de s'engager sur une réponse.

Le compromis, c'est la latence et la verbosité. Un modèle de raisonnement dépense des tokens supplémentaires pour travailler le problème, donc une seule réponse peut prendre plusieurs secondes et des centaines de tokens de raisonnement visible. Pour une preuve mathématique ou une énigme logique, c'est exactement ce que vous voulez ; pour une simple recherche factuelle, c'est du temps perdu.

La distinction qui prête à confusion : DeepSeek-V3 est un modèle de chat, DeepSeek-R1 est le modèle de raisonnement. Ils partagent une lignée d'architecture mais sont réglés pour des tâches différentes. Si vous voulez des réponses conversationnelles, utilisez V3 ; si vous voulez une résolution de problèmes pas à pas, utilisez R1 ou l'un de ses distillés. Nous expliquons précisément ce que la distillation conserve et perd dans DeepSeek-R1 face aux distillés.

Pour une introduction plus approfondie à l'exécution de ces modèles, commencez par le Guide matériel LLM local 2026 et La quantification des LLM expliquée, qui couvrent les calculs de VRAM sur lesquels repose ce guide.

📍 En une phrase

Un modèle de raisonnement local est un LLM qui rédige une chaîne de pensée explicite avant de répondre, ce qui le rend plus fort en maths et en logique qu'un modèle de chat de même taille.

💬 En termes simples

Voyez un modèle de raisonnement comme un élève qui montre son travail. Il est plus lent et écrit davantage, mais il résout bien plus souvent les problèmes multi-étapes qu'un modèle qui lâche une réponse au hasard.

Les 6 distillés DeepSeek-R1 en un coup d'œil

DeepSeek a publié six distillés officiels de R1, chacun créé en affinant un modèle de base ouvert existant sur des traces de raisonnement du R1 complet à 671B. Quatre utilisent une base Qwen2.5 (1.5B, 7B, 14B, 32B) et deux une base Llama 3 (8B, 70B). Les chiffres de VRAM ci-dessous correspondent à la quantification Q4_K_M par défaut d'Ollama.

📍 En une phrase

DeepSeek-R1 compte six distillés officiels de 1.5B à 70B, bâtis sur des bases Qwen2.5 et Llama 3, le modèle 14B offrant le meilleur équilibre pour un GPU de 16 Go.

DistilléModèle de baseTaille du fichier (Q4_K_M)VRAM min.Idéal pour
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5 1.5B~1.1 GB4 GB / CPUAppareils edge, tests rapides
DeepSeek-R1-Distill-Qwen-7BQwen2.5 7B~4.7 GB8 GBGPU d'entrée de gamme, 55.5% AIME 2024
DeepSeek-R1-Distill-Llama-8BLlama 3 8B~4.9 GB8 GBWorkflows sous licence Llama
DeepSeek-R1-Distill-Qwen-14BQwen2.5 14B~9 GB16 GBMeilleur équilibre global
DeepSeek-R1-Distill-Qwen-32BQwen2.5 32B~18–20 GB24 GBDépasse o1-mini, meilleur sur un seul GPU
DeepSeek-R1-Distill-Llama-70BLlama 3 70B~40 GBBi-GPU / 48 GBDistillé le plus puissant, précision max.

Le DeepSeek-R1-Distill-Llama-8B porte à la fois la licence Llama 3 et la licence MIT. Les distillés basés sur Qwen héritent de la licence Qwen. Vérifiez toujours la licence avant un usage commercial.

Le meilleur petit distillé de raisonnement : DeepSeek-R1-0528-Qwen3-8B

DeepSeek-R1-0528-Qwen3-8B est le meilleur petit modèle de raisonnement exécutable sur un GPU de 8 Go, distillé du R1-0528 mis à jour sur une base Qwen3 8B. Il domine les modèles 8B ouverts sur AIME 2024 et obtient environ 10 points de pourcentage de plus que le Qwen3 8B de base sur ce benchmark — un gain notable en maths et en logique à cette taille.

Choisissez-le plutôt que les distillés 7B et 8B d'origine lorsque vous voulez la meilleure précision en petit modèle et que votre matériel plafonne à 8 Go. Il s'inscrit dans le même palier RTX 3060 12GB et tourne en Q4_K_M dans environ 5 Go. Pour la plupart des utilisateurs de portables et de GPU d'entrée de gamme attachés à la qualité du raisonnement plus qu'à la vitesse brute, c'est le modèle par lequel commencer.

💬 En termes simples

Si votre GPU a 8 Go, le plus récent R1-0528-Qwen3-8B est le petit modèle de raisonnement le plus intelligent — il utilise une meilleure base que les distillés d'origine et obtient un meilleur score en maths de compétition.

Distillés DeepSeek-R1 classés par palier matériel

Choisissez le palier le plus élevé que votre VRAM permet. Plus de paramètres signifie un meilleur raisonnement, mais uniquement si le modèle tient sans déborder vers la RAM système (ce qui effondre la vitesse). Utilisez ce classement pour associer un distillé au GPU que vous possédez ou comptez acheter.

Quels scores les distillés DeepSeek-R1 obtiennent-ils aux benchmarks de raisonnement ?

Ce sont des benchmarks de raisonnement — AIME 2024 (maths de compétition), MATH-500 (maths variées) et GPQA Diamond (questions-réponses scientifiques de niveau master). Ils mesurent la résolution de problèmes pas à pas, pas le code. Le résultat phare : le distillé 32B dépasse OpenAI o1-mini sur plusieurs d'entre eux, et le distillé 7B affiche 55.5% sur AIME 2024, un score qu'aucun modèle de chat de même taille n'atteint.

📍 En une phrase

Le DeepSeek-R1-Distill-Qwen-32B dépasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement, et le distillé 7B obtient 55.5% sur AIME 2024.

DistilléAIME 2024Niveau de raisonnementRemarques
DeepSeek-R1-Distill-Qwen-7B55.5%Solide pour 7BMeilleur sur GPU d'entrée de gamme
DeepSeek-R1-0528-Qwen3-8BDomine les 8B ouvertsMeilleur petit~+10 pts vs Qwen3 8B de base
DeepSeek-R1-Distill-Qwen-14BSupérieur au 7BMeilleur équilibrePoint idéal 16 Go
DeepSeek-R1-Distill-Qwen-32BMeilleur sur un seul GPUDépasse o1-miniMeilleur sur 24 Go
DeepSeek-R1-Distill-Llama-70BLe plus haut des sixMaximumNécessite un bi-GPU

Utilisez les scores exacts là où ils sont publiés (7B = 55.5% AIME 2024) et les classements relatifs ailleurs. Les chiffres de benchmark varient avec la quantification et les réglages d'échantillonnage ; traitez-les comme indicatifs au sein d'un palier, pas comme absolus.

Quand NE PAS utiliser un modèle de raisonnement ?

Évitez un modèle de raisonnement quand la tâche n'en est pas une — ils sont plus lents, plus verbeux et pas plus précis sur la simple récupération d'information ou le chat. Utilisez plutôt un modèle de chat standard comme DeepSeek-V3 ou Llama 3.3.

  • À éviter pour les recherches factuelles rapides — la chaîne de pensée visible gaspille des tokens et du temps sur des réponses qu'un modèle de chat renvoie instantanément.
  • À éviter pour la conversation libre — les modèles de raisonnement sont réglés pour des problèmes ayant une réponse correcte, pas pour le dialogue.
  • À éviter pour le débit de code pur — pour la génération de code, dirigez-vous vers le guide de code DeepSeek vs Qwen ; cette page ne couvre que le raisonnement.
  • À éviter quand la latence est critique — si vous avez besoin de réponses en moins d'une seconde, un modèle de chat plus petit l'emporte.
  • Utilisez un modèle de raisonnement quand la tâche relève des maths, de la logique, de la planification multi-étapes ou de tout cas où montrer le travail améliore l'exactitude.

Astuce de config : température 0.6 et aucun system prompt

Réglez la température à 0.6 (la plage 0.5–0.7 est sûre) et n'utilisez aucun system prompt — placez chaque instruction dans le prompt utilisateur. C'est la configuration la plus importante pour les distillés DeepSeek-R1. Les modèles sont sujets à un mode d'échec de répétition et d'incohérence lorsqu'on leur donne un system prompt ou une température proche de 0 ou au-dessus de ~0.8.

En pratique : laissez vide le champ system prompt d'Ollama/LM Studio, ajoutez vos instructions au début du message utilisateur et maintenez la température à 0.6. Si vous voyez le modèle boucler ou dériver en plein raisonnement, ce réglage est presque toujours la solution.

Installation : démarrage rapide Ollama par palier

Chaque distillé s'installe et s'exécute en une seule commande Ollama (toutes par défaut en Q4_K_M). Installez d'abord Ollama si ce n'est pas fait — voyez Comment installer Ollama. Choisissez ensuite la commande de votre palier :

bash
ollama run deepseek-r1:1.5b   # edge / CPU
ollama run deepseek-r1:7b     # 8 GB VRAM
ollama run deepseek-r1:8b     # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b    # 16 GB VRAM — recommended
ollama run deepseek-r1:32b    # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b    # dual-GPU / 48 GB

Verdict : quel distillé DeepSeek-R1 exécuter ?

La décision dépend de votre VRAM et de votre priorité : précision ou vitesse. Voici la réponse en une ligne pour chaque cas.

Choisissez votre distillé

Use a local LLM if:

  • GPU de 16 Go → DeepSeek-R1-Distill-Qwen-14B (meilleur global, le choix par défaut)
  • GPU de 24 Go → DeepSeek-R1-Distill-Qwen-32B (dépasse o1-mini, meilleur sur un seul GPU)
  • GPU de 8 Go → DeepSeek-R1-0528-Qwen3-8B (meilleur petit) ou le distillé 7B
  • Bi-GPU / 48 Go → DeepSeek-R1-Distill-Llama-70B (précision maximale)

Use a cloud model if:

  • Vous avez besoin d'un raisonnement de pointe au-delà de tout distillé → comparez à GPT-4o / Claude / Gemini via PromptQuorum
  • Vous ne pouvez pas dédier un GPU → une API de raisonnement hébergée peut revenir moins cher que l'achat de matériel

Quick decision:

  • En cas de doute, commencez par le 14B sur une carte de 16 Go.
  • Exécutez toujours à une température de 0.6 sans system prompt.
  • Pour le code, utilisez un modèle de code — pas un distillé de raisonnement.

Questions fréquentes

Puis-je exécuter le DeepSeek-R1 complet à 671B en local ?

Non. Le DeepSeek-R1 complet est un modèle Mixture-of-Experts de 671B paramètres (~37B actifs par token) et nécessite environ 376–404 Go de VRAM en Q4 — matériel de datacenter uniquement. Chez vous, vous exécutez l'un de ses distillés (1.5B à 70B). Une version Unsloth en 1.58 bits (~131 Go) existe mais tourne à environ 0.3 token/seconde, une curiosité plutôt qu'une configuration utilisable.

Quel distillé DeepSeek-R1 est le meilleur global ?

Pour la plupart des gens, DeepSeek-R1-Distill-Qwen-14B sur un GPU de 16 Go offre le meilleur équilibre entre qualité de raisonnement, vitesse et tenue en VRAM. Si vous avez une carte de 24 Go, le distillé 32B est plus puissant et dépasse OpenAI o1-mini sur plusieurs benchmarks de raisonnement.

Quel est le meilleur petit modèle de raisonnement DeepSeek ?

DeepSeek-R1-0528-Qwen3-8B. Il est distillé du R1-0528 mis à jour sur une base Qwen3 8B, domine les modèles 8B ouverts sur AIME 2024 et obtient environ 10 points de plus que le Qwen3 8B de base. Il tient sur un GPU de 8 Go en Q4_K_M.

De combien de VRAM chaque distillé a-t-il besoin ?

À la valeur par défaut d'Ollama Q4_K_M : le 7B nécessite ~8 Go (fichier ~4.7 Go), le 14B ~16 Go (fichier ~9 Go), le 32B ~24 Go (fichier ~18–20 Go) et le 70B un bi-GPU ou 48 Go (fichier ~40 Go). Le FP16 fait environ 4× la taille Q4_K_M ; le Q8_0 environ 2×.

DeepSeek-R1 est-il bon pour le code ?

Ce guide ne classe que le raisonnement (maths, logique, multi-étapes). Pour la génération de code, les compromis diffèrent — voyez notre comparaison dédiée sur /power-local-llm/deepseek-vs-qwen-coding-local-2026 plutôt que de choisir un distillé de raisonnement pour le débit de code.

Quelle est la différence entre DeepSeek-V3 et DeepSeek-R1 ?

DeepSeek-V3 est un modèle de chat réglé pour la conversation ; DeepSeek-R1 est un modèle de raisonnement qui produit une chaîne de pensée explicite avant de répondre. Pour les maths et la logique, utilisez R1 ou un distillé ; pour le chat général, utilisez V3.

Pourquoi mon distillé DeepSeek-R1 boucle-t-il ou produit-il du charabia ?

Presque toujours un problème de configuration. Réglez la température à 0.6 (0.5–0.7 convient) et supprimez tout system prompt — placez toutes les instructions dans le message utilisateur. Les distillés R1 ont un mode d'échec de répétition connu, déclenché par les system prompts et les températures extrêmes.

Comment installer un distillé DeepSeek-R1 ?

Installez Ollama, puis lancez une commande pour votre palier, par ex. `ollama run deepseek-r1:14b`. Tous les distillés sont par défaut en Q4_K_M. Voyez la section installation ci-dessus pour la liste complète des commandes.

Le distillé 8B a-t-il une licence différente ?

Oui. DeepSeek-R1-Distill-Llama-8B porte la licence Llama 3 en plus de MIT, car sa base est Llama 3. Les distillés basés sur Qwen (1.5B, 7B, 14B, 32B) héritent de la licence Qwen. Vérifiez la licence avant un usage commercial.

Dois-je acheter une RTX 4060 Ti 16GB ou une RTX 4090 pour le raisonnement ?

Si votre budget permet la RTX 4090 et que vous voulez exécuter le distillé 32B (qui dépasse o1-mini), achetez la 4090. Si vous cherchez le meilleur rapport qualité-prix et que le distillé 14B couvre vos besoins, la RTX 4060 Ti 16GB à ~420 $ est l'achat le plus malin.

Journal des mises à jour

  • Publié le 2026-06-19. Prochaine révision prévue le 2026-12-19 (palier de fraîcheur semestriel).
  • Couvre les 6 distillés officiels DeepSeek-R1 plus DeepSeek-R1-0528-Qwen3-8B. Vérifié par rapport aux scores AIME 2024 publiés et aux chiffres de VRAM Q4_K_M de juin 2026.

Note sur les faits tiers

Cet article fait référence à des modèles d’IA, des benchmarks, des prix et des licences de tiers. Le paysage de l’IA évolue rapidement. Les scores de benchmark, les conditions de licence, les noms de modèles et les prix des API peuvent changer entre le moment de la rédaction et le moment où vous lisez ceci. Avant de prendre des décisions de déploiement ou de conformité basées sur cet article, vérifiez les chiffres actuels auprès de la source officielle de chaque fournisseur : fiches de modèles Hugging Face pour les licences et benchmarks, sites web des fournisseurs pour les prix API, et EUR-Lex pour les textes RGPD et AI Act actuels. Cet article reflète les informations publiques disponibles en mai 2026.

Vous exécutez un distillé DeepSeek-R1 en local ? Envoyez le même prompt de raisonnement à votre modèle local et à GPT-4o, Claude et Gemini en une seule fois avec PromptQuorum — voyez précisément où le distillé égale le raisonnement de pointe et où il échoue.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux