Points clés
- Le DeepSeek-R1 complet est un modèle Mixture-of-Experts de 671B (~37B actifs par token) nécessitant ~376–404 Go en Q4 — impossible à exécuter chez vous.
- Un « distill » est un modèle distinct et plus petit (base Qwen2.5 ou Llama 3) affiné sur ~800K traces de raisonnement générées par le R1 complet.
- La distillation CONSERVE le comportement de raisonnement : chaîne de raisonnement explicite, auto-vérification et réflexion.
- La distillation PERD la capacité brute et l'étendue — le modèle complet résout les problèmes les plus difficiles de manière plus fiable et en sait plus.
- Pour les maths et la logique locales du quotidien, l'écart est faible ; il s'élargit sur les tâches à la limite du domaine et exigeant un large savoir.
- Une base plus forte réduit l'écart : DeepSeek-R1-0528-Qwen3-8B domine les modèles 8B ouverts sur AIME 2024.
- Exécutez tout distill à une température de 0.6 sans prompt système.
- DeepSeek-V3 est un modèle de chat ; DeepSeek-R1 est un modèle de raisonnement — ne les confondez pas.
Pourquoi DeepSeek-R1 et ses distills sont confondus
**Quand vous tapez ollama run deepseek-r1:14b, vous n'exécutez pas une version plus petite de DeepSeek-R1 — vous exécutez Qwen2.5 14B entraîné à imiter le raisonnement de R1.** Le nom « DeepSeek-R1-Distill-Qwen-14B » est précis mais facile à mal lire : la partie « DeepSeek-R1 » décrit d'où vient le raisonnement, et la partie « Qwen-14B » est le modèle réel qui tourne sur votre GPU.
Cela compte, car les attentes suivent le nom. On suppose qu'un distill est « R1, mais plus petit et un peu moins bon ». Il est plus proche d'« un modèle ouvert compétent qui a appris à penser comme R1 ». Ce cadrage prédit le comportement que vous observerez réellement : une excellente structure de raisonnement, des lacunes ponctuelles en savoir brut ou en fiabilité dans les cas les plus difficiles.
Pour la réalité matérielle expliquant pourquoi le modèle complet est inaccessible chez soi, voir Configuration matérielle locale de DeepSeek V3 — V3 est le frère modèle de chat avec la même empreinte de classe 671B.
📍 En une phrase
Un distill DeepSeek-R1 est un petit modèle existant (Qwen2.5 ou Llama 3) affiné pour imiter le raisonnement du R1 complet, et non une copie réduite de R1 lui-même.
💬 En termes simples
Imaginez le R1 complet comme un mathématicien chevronné et un distill comme un étudiant brillant qui a étudié ses solutions détaillées. L'étudiant raisonne de la même façon mais ne connaît pas tout ce que sait le maître.
Qu'est-ce que le DeepSeek-R1 671B complet ?
Le DeepSeek-R1 complet est un modèle Mixture-of-Experts (MoE) de 671 milliards de paramètres qui active environ 37B paramètres par token et nécessite environ 376–404 Go de VRAM en Q4 — matériel de datacenter uniquement. C'est le modèle qui génère le raisonnement de haute qualité que les distills apprennent à imiter.
MoE signifie que le modèle achemine chaque token via un petit sous-ensemble de sous-réseaux « experts », de sorte que seuls ~37B des 671B paramètres s'activent par token. Cela rend l'inférence moins coûteuse qu'un modèle 671B dense — mais chacun des 671B paramètres doit tout de même résider en mémoire, raison pour laquelle il ne tient pas sur du matériel grand public.
Un build Unsloth en 1.58 bits (IQ1_S, ~131 Go) existe et tourne techniquement, mais à environ 0.3 token par seconde, c'est une curiosité, pas une configuration locale exploitable. En pratique, le R1 complet vit dans le cloud et les distills vivent sur votre machine.
Comment fonctionne la distillation de DeepSeek-R1 ?
DeepSeek a généré environ 800 000 échantillons de raisonnement avec le R1 complet, puis a affiné des modèles de base ouverts existants — Qwen2.5 (1.5B, 7B, 14B, 32B) et Llama 3 (8B, 70B) — sur ces échantillons. Les modèles de base apprennent à reproduire le schéma de raisonnement pas à pas de R1 sans jamais contenir les paramètres de R1.
Il s'agit d'un affinage supervisé sur des traces de raisonnement de haute qualité, et non d'apprentissage par renforcement sur les petits modèles. Les distills héritent de la *forme* de la pensée de R1 — quand développer une chaîne de raisonnement, quand revenir en arrière, quand vérifier — superposée à ce que le modèle de base savait déjà.
C'est pourquoi le choix de la base compte tant. Un distill n'est aussi savant que sa base, plus la discipline de raisonnement copiée de R1. Une base faible avec d'excellentes traces de raisonnement plafonne tout de même en capacité brute.
📍 En une phrase
DeepSeek a affiné des modèles de base Qwen2.5 et Llama 3 sur ~800 000 échantillons de raisonnement générés par le R1 complet, transférant son style de raisonnement à de petits modèles.
Que conserve la distillation ?
La distillation transfère de manière fiable les trois comportements qui font de R1 un solide raisonneur : chaîne de raisonnement, auto-vérification et réflexion. Ils survivent car ce sont des schémas de génération de tokens, et les schémas sont précisément ce que l'affinage supervisé copie bien.
- Chaîne de raisonnement : le distill écrit les étapes intermédiaires avant la réponse finale, le cœur de sa force en maths et en logique.
- Auto-vérification : il contrôle ses propres résultats intermédiaires et détecte les erreurs en cours de raisonnement, pas seulement à la fin.
- Réflexion : il revient en arrière et reconsidère lorsqu'une piste semble fausse, au lieu de s'engager sur la première tentative.
- Résultat : un distill 7B atteint 55.5 % sur AIME 2024 — des maths de compétition qu'aucun modèle de chat de même taille n'atteint.
Que perd la distillation ?
La distillation ne peut pas transférer la capacité brute, l'étendue des connaissances ou la fiabilité du modèle 671B complet sur les problèmes les plus difficiles — une petite base a simplement moins d'espace pour stocker et combiner l'information. Plus le distill est petit, plus cet écart est grand.
| Capacité | R1 671B complet | Distill 32B | Distill 7B |
|---|---|---|---|
| Structure de raisonnement (CoT, réflexion) | Référence | Très proche | Proche |
| Fiabilité sur les problèmes les plus difficiles | La plus élevée | Forte | Modérée |
| Étendue du savoir général | La plus élevée | Bonne | Limitée |
| Problèmes longs à contraintes multiples | La meilleure | Bonne | Se dégrade |
| Tourne sur matériel grand public | Non | Oui (24 Go) | Oui (8 Go) |
Les classements sont indicatifs, pas exacts au benchmark : l'écart est faible sur les tâches de raisonnement courantes et grandit sur le travail à la limite du domaine ou exigeant un large savoir.
L'écart compte-t-il pour votre cas d'usage ?
Pour la plupart du raisonnement local, l'écart est assez faible pour être ignoré ; il ne devient décisif que sur les problèmes à la limite du domaine ou les tâches exigeant un large savoir général. Décidez selon le cas d'usage, pas en courant après le plus gros modèle.
Un distill suffit-il ?
Use a local LLM if:
- •Maths scolaires et de compétition, énigmes de logique, planification pas à pas → un distill suffit largement (32B pour la marge, 14B pour la plupart)
- •Raisonnement privé/hors ligne où les données ne peuvent pas quitter votre machine → un distill est la seule option, et une bonne
- •Maîtrise des coûts face à une API hébergée → un distill local supprime entièrement le coût par token
Use a cloud model if:
- •Maths de recherche ou preuves à la pointe du domaine → le R1 complet hébergé est plus fiable
- •Tâches exigeant un savoir général large et à jour → un modèle plus grand ou une configuration augmentée par la recherche l'emporte
- •Vous avez besoin de la réponse unique la plus fiable, quel que soit le coût → comparez aux modèles de pointe via PromptQuorum
Quick decision:
- →En cas de doute, exécutez le distill 32B et n'escaladez vers le R1 hébergé que lorsqu'il peine visiblement.
- →Une meilleure base bat une plus grande taille du côté des petits modèles — voir R1-0528-Qwen3-8B ci-dessous.
R1-0528-Qwen3-8B : une meilleure base réduit l'écart
DeepSeek-R1-0528-Qwen3-8B montre qu'une base plus forte réduit l'écart de distillation : bâti sur Qwen3 8B avec le raisonnement du R1-0528 mis à jour, il domine les modèles 8B ouverts sur AIME 2024 et marque environ 10 points de plus que la base Qwen3 8B. Même classe de taille que le distill 8B d'origine, un raisonnement nettement meilleur — parce que la base est meilleure et la source de raisonnement plus récente.
La leçon pour choisir un distill : du côté des petits modèles, préférez le modèle à la base plus forte et plus récente plutôt qu'un distill plus ancien au même nombre de paramètres. La capacité par gigaoctet progresse plus vite grâce à de meilleures bases qu'à la taille brute.
Astuce config : température 0.6 et pas de prompt système
Exécutez chaque distill DeepSeek-R1 à une température de 0.6 (0.5–0.7 est sûr) sans prompt système — placez toutes les instructions dans le prompt utilisateur. Cela évite le mode d'échec de répétition et d'incohérence auquel la famille R1 est sujette quand on lui donne un prompt système ou une température proche de 0 ou supérieure à ~0.8.
Si vous comparez un distill au R1 complet hébergé et que le distill boucle ou dérive, corrigez la configuration avant de conclure que le distill est faible — de mauvais réglages d'échantillonnage masquent sa vraie qualité.
Questions fréquentes
Un distill DeepSeek-R1 est-il le même modèle que DeepSeek-R1, juste plus petit ?
Non. Un distill est un modèle de base différent (Qwen2.5 ou Llama 3) affiné pour imiter le raisonnement de R1 sur ~800K échantillons. Il conserve le style de raisonnement de R1 mais ne contient aucun de ses paramètres.
Que conserve exactement la distillation du R1 complet ?
Le comportement de raisonnement : chaîne de raisonnement, auto-vérification et réflexion. Ce sont des schémas de génération de tokens que l'affinage supervisé transfère de manière fiable, raison pour laquelle un distill 7B atteint 55.5 % sur AIME 2024.
Que perd un distill face au R1 671B complet ?
La capacité brute, l'étendue du savoir général et la fiabilité sur les problèmes les plus difficiles. Plus le distill est petit, plus l'écart est grand — même s'il reste faible sur les tâches de raisonnement courantes.
Pourquoi ne puis-je pas exécuter le DeepSeek-R1 671B complet chez moi ?
Il nécessite ~376–404 Go de VRAM en Q4 car les 671B paramètres doivent tous résider en mémoire même si seuls ~37B s'activent par token. C'est du matériel de datacenter. Un build en 1.58 bits tourne à ~0.3 token/s — une curiosité, inutilisable.
L'écart compte-t-il pour un usage quotidien ?
Généralement non. Pour les maths scolaires et de compétition, la logique et la planification multi-étapes, un distill 14B ou 32B suffit largement. L'écart compte pour les problèmes à la limite du domaine ou les tâches exigeant un savoir large et à jour.
Quel distill est le plus proche du R1 complet ?
Le distill 70B est le plus fort des six et le plus proche en capacité brute, mais il exige une configuration bi-GPU. Le 32B est la meilleure option mono-GPU et bat OpenAI o1-mini sur plusieurs benchmarks de raisonnement.
Pourquoi R1-0528-Qwen3-8B est-il meilleur que le distill 8B d'origine ?
Il utilise une base Qwen3 8B plus forte et le raisonnement du R1-0528 mis à jour, ce qui lui permet de dominer les modèles 8B ouverts sur AIME 2024 — environ 10 points au-dessus de la base Qwen3 8B à taille égale.
DeepSeek-V3 est-il un distill de R1 ?
Non. DeepSeek-V3 est un modèle de chat MoE 671B distinct, pas un modèle de raisonnement ni un distill. R1 est le modèle de raisonnement ; les distills imitent R1, pas V3.
Journal des mises à jour
- Publié le 19/06/2026. Prochaine révision prévue le 19/06/2027 (palier de fraîcheur annuel — explication intemporelle avec des faits modèles ancrés sur l'année).
- Couvre le R1 671B complet face aux six distills officiels et à DeepSeek-R1-0528-Qwen3-8B. Comparaison interne au raisonnement uniquement ; les comparaisons de code entre modèles figurent dans le guide de code.