重要なポイント
- 完全なDeepSeek-R1は671BのMixture-of-Expertsモデル(トークンあたり約37Bがアクティブ)で、Q4で約376–404 GBが必要 — 自宅では動かせません。
- 「蒸留版」とは、完全版R1が生成した約800Kの推論トレースでファインチューニングされた、別個の小型モデル(Qwen2.5またはLlama 3ベース)です。
- 蒸留は推論の振る舞いを保持します:明示的な思考の連鎖、自己検証、再考。
- 蒸留は生の能力と広さを失います — 完全版モデルは最難問をより確実に解き、より多くを知っています。
- 日常的なローカルの数学・論理ではギャップは小さく、フロンティア級の難易度や広範な知識を要するタスクで広がります。
- より強いベースがギャップを縮めます:DeepSeek-R1-0528-Qwen3-8BはAIME 2024でオープンな8Bモデルの首位です。
- どの蒸留版も温度0.6、システムプロンプトなしで実行してください。
- DeepSeek-V3はチャットモデル、DeepSeek-R1は推論モデルです — 混同しないでください。
DeepSeek-R1と蒸留版が混同される理由
ollama run deepseek-r1:14bと入力したとき、あなたが動かしているのはDeepSeek-R1の小型版ではなく、R1の推論を模倣するように教えられたQwen2.5 14Bです。** 名称「DeepSeek-R1-Distill-Qwen-14B」は正確ですが誤読しやすく、「DeepSeek-R1」の部分は推論の出所を表し、「Qwen-14B」の部分こそが実際にGPU上で動くモデルです。
これが重要なのは、期待が名称に従うからです。多くの人は蒸留版を「R1の小型かつ少し劣る版」と考えます。実際には「R1のように考えることを学んだ、有能なオープンモデル」に近いものです。この捉え方は、実際に目にする振る舞いを予測します。優れた推論構造と、生の知識や最難ケースの信頼性における時折のギャップです。
完全版モデルが自宅では使えない背景にあるハードウェアの現実については、DeepSeek V3 ローカルハードウェア要件を参照してください。V3は同じ671Bクラスのフットプリントを持つチャットモデルの兄弟です。
📍 一文で説明
DeepSeek-R1蒸留版とは、R1自体を縮小したコピーではなく、完全版R1の推論を模倣するようにファインチューニングされた既存の小型モデル(Qwen2.5またはLlama 3)です。
💬 簡潔に説明
完全版R1を熟練の数学者、蒸留版をその解法を学んだ優秀な学生だと考えてください。学生は同じように考えますが、師が知っているすべてを知っているわけではありません。
完全な671BのDeepSeek-R1とは?
完全なDeepSeek-R1は6710億パラメータのMixture-of-Experts(MoE)モデルで、トークンあたり約37Bのパラメータを活性化し、Q4で約376–404 GBのVRAMを必要とします — データセンターのハードウェア専用です。 これは、蒸留版が模倣するよう学習する高品質な推論を生成するモデルです。
MoEとは、モデルが各トークンを少数の「エキスパート」サブネットワークに振り分けることを意味し、671Bのうち約37Bのみがトークンあたり発火します。これにより推論は密な671Bモデルより安価になりますが、671Bのすべてのパラメータは依然としてメモリに常駐する必要があり、そのためコンシューマー向けハードウェアには収まりません。
Unslothの1.58ビットビルド(IQ1_S、約131 GB)は存在し技術的には動作しますが、毎秒約0.3トークンでは実用的なローカル構成ではなく好奇心の対象です。実用上、完全版R1はクラウドに、蒸留版はあなたのマシンに存在します。
DeepSeek-R1の蒸留はどう機能するか?
DeepSeekは完全版R1で約80万件の推論サンプルを生成し、既存のオープンなベースモデル — Qwen2.5(1.5B、7B、14B、32B)とLlama 3(8B、70B)— をそのサンプルでファインチューニングしました。 ベースモデルは、R1のパラメータを一切含まずに、R1の段階的な推論パターンを再現することを学びます。
これは高品質な推論トレースに対する教師ありファインチューニングであり、小型モデルへの強化学習ではありません。蒸留版はR1の思考の*形*を継承します。いつ思考の連鎖を展開し、いつ後戻りし、いつ検証するか、それがベースモデルの既知の内容の上に重ねられます。
だからこそベースの選択が極めて重要です。蒸留版は、そのベースの知識に、R1からコピーした推論の規律を加えた分だけの賢さしか持ちません。優れた推論トレースを与えても、弱いベースは生の能力で天井に当たります。
📍 一文で説明
DeepSeekは、完全版R1が生成した約80万件の推論サンプルでQwen2.5とLlama 3のベースモデルをファインチューニングし、その推論スタイルを小型モデルへ移転しました。
蒸留は何を保持するか?
蒸留は、R1を強力な推論器にする3つの振る舞いを確実に移転します:思考の連鎖、自己検証、再考。 これらが残るのは、トークン生成のパターンであり、パターンこそ教師ありファインチューニングがうまくコピーするものだからです。
- 思考の連鎖:蒸留版は最終回答の前に中間ステップを書き出します。これが数学・論理の強さの核心です。
- 自己検証:自らの中間結果をチェックし、最後だけでなく推論の途中で誤りを捉えます。
- 再考:道筋が誤って見えるとき、最初の試みに固執せず後戻りして再検討します。
- 結果:7B蒸留版はAIME 2024で55.5%を記録します。同サイズのチャットモデルが到達できない競技数学です。
蒸留は何を失うか?
蒸留は、完全な671Bモデルの生の能力、知識の広さ、最難問での信頼性を移転できません — 小型ベースは情報を保存し組み合わせる余地が単純に少ないからです。 蒸留版が小さいほど、このギャップは大きくなります。
| 能力 | 完全版671B R1 | 32B蒸留版 | 7B蒸留版 |
|---|---|---|---|
| 推論構造(CoT、再考) | 基準 | 非常に近い | 近い |
| 最難問での信頼性 | 最高 | 強い | 中程度 |
| 世界知識の広さ | 最高 | 良好 | 限定的 |
| 長く制約の多い問題 | 最良 | 良好 | 低下する |
| コンシューマーハードで動作 | 不可 | 可(24 GB) | 可(8 GB) |
ランク付けは方向性を示すもので、ベンチマークの厳密値ではありません。ギャップは一般的な推論タスクでは小さく、フロンティア級の難易度や広範な知識を要する作業で大きくなります。
そのギャップはあなたの用途で問題になるか?
ほとんどのローカル推論ではギャップは無視できるほど小さく、決定的になるのはフロンティア級の難易度の問題や広範な世界知識を要するタスクだけです。 最大のモデルを追うのではなく、用途で判断してください。
蒸留版で十分か?
Use a local LLM if:
- •学校・競技の数学、論理パズル、段階的な計画 → 蒸留版で十分(余裕を見て32B、多くは14B)
- •データがマシンから出てはならないプライベート/オフライン推論 → 蒸留版が唯一の選択肢であり、良い選択肢です
- •ホスト型APIに対するコスト管理 → ローカルの蒸留版はトークンあたりのコストを完全に取り除きます
Use a cloud model if:
- •分野の最先端での研究数学や証明 → 完全版のホスト型R1のほうが信頼できます
- •広範で最新の世界知識を要するタスク → より大きなモデルや検索拡張構成が勝ります
- •コストに関わらず最も信頼できる単一の回答が必要 → PromptQuorum経由でフロンティアモデルと比較してください
Quick decision:
- →迷ったら32B蒸留版を実行し、明らかに苦戦したときだけホスト版R1へエスカレーションしてください。
- →小型側では大きなサイズより大きなベースが勝ります — 下記のR1-0528-Qwen3-8Bを参照してください。
R1-0528-Qwen3-8B:より良いベースがギャップを縮める
DeepSeek-R1-0528-Qwen3-8Bは、より強いベースが蒸留のギャップを縮めることを示します。更新版R1-0528の推論を備えたQwen3 8B上に構築され、AIME 2024でオープンな8Bモデルの首位に立ち、ベースのQwen3 8Bより約10ポイント高いスコアを記録します。 元の8B蒸留版と同じサイズクラスでありながら、推論は明確に優れています。ベースがより良く、推論の出所がより新しいからです。
蒸留版を選ぶ際の教訓:小型側では、同じパラメータ数の古い蒸留版よりも、より強く新しいベースのモデルを優先してください。ギガバイトあたりの能力は、生のサイズよりも良いベースによってより速く向上しています。
設定のコツ:温度0.6、システムプロンプトなし
すべてのDeepSeek-R1蒸留版を温度0.6(0.5–0.7が安全)、システムプロンプトなしで実行し、すべての指示をユーザープロンプトに入れてください。 これにより、システムプロンプトや0付近もしくは約0.8超の温度を与えたときにR1ファミリーが陥りやすい、繰り返しと不整合の失敗モードを回避できます。
蒸留版を完全版のホスト型R1と比較していて、蒸留版がループしたり脱線したりする場合は、蒸留版が弱いと結論づける前に設定を直してください。不適切なサンプリング設定はその真の品質を覆い隠します。
よくある質問
DeepSeek-R1蒸留版は、DeepSeek-R1の単に小さいだけの同じモデルですか?
いいえ。蒸留版は、R1の推論を約800Kのサンプルで模倣するようにファインチューニングされた別のベースモデル(Qwen2.5またはLlama 3)です。R1の推論スタイルは保持しますが、R1のパラメータは一切含みません。
蒸留は完全版R1から正確に何を保持しますか?
推論の振る舞いです:思考の連鎖、自己検証、再考。これらは教師ありファインチューニングが確実に移転するトークン生成パターンであり、だからこそ7B蒸留版はAIME 2024で55.5%に達します。
蒸留版は完全な671B R1と比べて何を失いますか?
生の能力、世界知識の広さ、最難問での信頼性です。蒸留版が小さいほどギャップは大きくなりますが、一般的な推論タスクでは小さいままです。
なぜ完全な671BのDeepSeek-R1を自宅で動かせないのですか?
トークンあたり約37Bしか活性化しなくても671Bのパラメータすべてが常駐する必要があるため、Q4で約376–404 GBのVRAMが必要です。これはデータセンターのハードウェアです。1.58ビットビルドは約0.3トークン/秒で動作し、好奇心の対象であり実用的ではありません。
日常使いでギャップは問題になりますか?
通常はなりません。学校・競技の数学、論理、多段階の計画には14Bまたは32B蒸留版で十分です。ギャップが問題になるのは、フロンティア級の難易度の問題や、広範で最新の知識を要するタスクです。
どの蒸留版が完全版R1に最も近いですか?
70B蒸留版は6つの中で最も強く生の能力で最も近いですが、デュアルGPUが必要です。32Bは最良のシングルGPU選択肢で、複数の推論ベンチマークでOpenAI o1-miniを上回ります。
なぜR1-0528-Qwen3-8Bは元の8B蒸留版より優れているのですか?
より強いQwen3 8Bベースと更新版R1-0528の推論を用いるため、AIME 2024でオープンな8Bモデルの首位に立ちます — 同サイズでベースのQwen3 8Bより約10ポイント上です。
DeepSeek-V3はR1の蒸留版ですか?
いいえ。DeepSeek-V3は別個の671B MoEチャットモデルであり、推論モデルでも蒸留版でもありません。R1が推論モデルであり、蒸留版はV3ではなくR1を模倣します。
更新ログ
- 2026-06-19公開。次回レビュー予定は2027-06-19(年次のフレッシュネス階層 — 年に紐づくモデル事実を含む不変の解説)。
- 完全な671B R1と6つの公式蒸留版、およびDeepSeek-R1-0528-Qwen3-8Bを扱います。推論内部の比較のみで、モデル横断のコーディング比較はコーディングガイドにあります。