重要なポイント
- フル671BのDeepSeek-R1は自宅では動かせません — Q4で約376〜404 GBのVRAMを必要とします(データセンター専用)。そのディスティルのいずれかを動かします。
- 公式ディスティルは6つあります: 1.5B、7B、14B、32B(Qwen2.5ベース)、および8B、70B(Llama 3ベース)。
- スイートスポット: 16 GB GPU上のDeepSeek-R1-Distill-Qwen-14B — Q4_K_Mで約9 GB、強力な多段階数学。
- 最良のシングルGPU推論モデル: 32Bディスティルは複数の推論ベンチマークでOpenAI o1-miniを上回ります。24 GBではぎりぎりです。
- 最良の小型モデル: DeepSeek-R1-0528-Qwen3-8Bはオープンな8BモデルのAIME 2024で首位に立ち、8 GBカードに収まります。
- すべてのディスティルは1コマンドでインストールできます。例: `ollama run deepseek-r1:14b`(デフォルトはQ4_K_M)。
- 温度を0.6に設定し、システムプロンプトを使わない — すべての指示をユーザープロンプトに入れて、R1の繰り返し障害を回避します。
- 本ページは推論(数学・論理・多段階)のみをランキングします。コーディングについてはDeepSeek vs Qwenコーディングガイドを参照してください。
ローカル推論モデルとは?
推論モデルとは、最終回答の前に明示的な思考の連鎖(chain-of-thought)を生成するよう訓練されたLLMで、これにより同サイズの標準的なチャットモデルよりも数学・論理・多段階問題に格段に強くなります。 DeepSeek-R1ディスティルは推論モデルであり、回答の中で「声に出して考え」、回答を確定する前に各ステップを確認・修正します。
トレードオフはレイテンシと冗長さです。推論モデルは問題を解くために余分なトークンを費やすため、1つの回答に数秒と数百トークンの可視的な推論がかかることがあります。数学の証明や論理パズルにはまさに求めるものですが、手早い事実検索には無駄な時間です。
人が混乱しがちな区別: DeepSeek-V3はチャットモデルで、DeepSeek-R1は推論モデルです。両者はアーキテクチャの系譜を共有しますが、異なる仕事向けにチューニングされています。会話的な回答が欲しいならV3を、ステップバイステップの問題解決が欲しいならR1かそのディスティルを使ってください。ディスティレーションが何を残し何を失うかはDeepSeek-R1とディスティルの違いで正確に解説します。
これらのモデルを動かすためのより深い入門としては、ローカルLLMハードウェアガイド2026とLLM量子化の解説から始めてください。本ガイドが依拠するVRAMの計算を扱っています。
📍 一文で説明
ローカル推論モデルとは、回答の前に明示的な思考の連鎖を書くLLMであり、同サイズのチャットモデルよりも数学と論理に強くなります。
💬 簡潔に説明
推論モデルは、途中の計算を見せる学生だと考えてください。遅くて書く量も多いですが、答えを口走るだけのモデルよりも多段階問題を格段に正しく解きます。
6つのDeepSeek-R1ディスティル一覧
DeepSeekはR1の公式ディスティルを6つリリースしました。それぞれ、既存のオープンなベースモデルをフル671B R1の推論トレースでファインチューニングして作られています。4つはQwen2.5ベース(1.5B、7B、14B、32B)、2つはLlama 3ベース(8B、70B)を使います。以下のVRAM数値はOllamaデフォルトのQ4_K_M量子化での値です。
📍 一文で説明
DeepSeek-R1にはQwen2.5とLlama 3のベース上に構築された1.5Bから70Bまでの6つの公式ディスティルがあり、14Bモデルが16 GB GPUにとって最良のバランスです。
| Distill | ベースモデル | File Size (Q4_K_M) | Min VRAM | 最適用途 |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5 1.5B | ~1.1 GB | 4 GB / CPU | エッジデバイス、手早いテスト |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5 7B | ~4.7 GB | 8 GB | エントリーGPU、AIME 2024で55.5% |
| DeepSeek-R1-Distill-Llama-8B | Llama 3 8B | ~4.9 GB | 8 GB | Llamaライセンスのワークフロー |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5 14B | ~9 GB | 16 GB | 総合的に最良のバランス |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5 32B | ~18–20 GB | 24 GB | o1-miniに勝つ、最良のシングルGPU |
| DeepSeek-R1-Distill-Llama-70B | Llama 3 70B | ~40 GB | デュアルGPU / 48 GB | 最強のディスティル、最高精度 |
DeepSeek-R1-Distill-Llama-8BはLlama 3ライセンスとMITライセンスの両方を持ちます。QwenベースのディスティルはQwenのライセンスを継承します。商用利用の前には必ずライセンスを確認してください。
最良の小型推論ディスティル: DeepSeek-R1-0528-Qwen3-8B
DeepSeek-R1-0528-Qwen3-8Bは、8 GB GPUで動かせる最強の小型推論モデルで、更新されたR1-0528からQwen3 8Bベース上にディスティルされています。 オープンな8BモデルのAIME 2024で首位に立ち、そのベンチマークでベースのQwen3 8Bより約10パーセントポイント高いスコアを出します — このサイズで数学と論理にとって意味のある飛躍です。
最良の小型モデルの精度が欲しく、ハードウェアの上限が8 GBであるなら、オリジナルの7Bおよび8Bディスティルよりもこれを選んでください。同じRTX 3060 12GBティアに収まり、Q4_K_Mで約5 GBで動作します。生の速度よりも推論品質を重視する大半のノートPCおよびエントリーGPUユーザーにとって、最初に動かすべきモデルです。
💬 簡潔に説明
GPUが8 GBなら、より新しいR1-0528-Qwen3-8Bが最も賢い小型推論モデルです — オリジナルのディスティルより優れたベースを使い、競技数学で高いスコアを出します。
ハードウェアティア別DeepSeek-R1ディスティルランキング
VRAMが対応する最も高いティアを選んでください。パラメータが多いほど推論は良くなりますが、それはモデルがシステムRAMにあふれ出さずに収まる場合に限ります(あふれると速度が崩壊します)。このランキングを使って、所有しているか購入予定のGPUにディスティルを合わせてください。
DeepSeek-R1ディスティルは推論ベンチマークでどのようなスコアを出すか?
これらは推論ベンチマークです — AIME 2024(競技数学)、MATH-500(混合数学)、GPQA Diamond(大学院レベルの科学Q&A)。コーディングではなく、ステップバイステップの問題解決を測定します。注目すべき結果: 32BディスティルはこれらのいくつかでOpenAI o1-miniを上回り、7BディスティルはAIME 2024で55.5%を記録します。これは同サイズのチャットモデルが到達しないスコアです。
📍 一文で説明
DeepSeek-R1-Distill-Qwen-32Bは複数の推論ベンチマークでOpenAI o1-miniを上回り、7BディスティルはAIME 2024で55.5%を記録します。
| Distill | AIME 2024 | 推論ティア | 備考 |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | 55.5% | 7Bとして強力 | 最良のエントリーGPU推論モデル |
| DeepSeek-R1-0528-Qwen3-8B | オープン8Bで首位 | 最良の小型 | ベースQwen3 8Bより約+10ポイント |
| DeepSeek-R1-Distill-Qwen-14B | 7Bより高い | 最良のバランス | 16 GBのスイートスポット |
| DeepSeek-R1-Distill-Qwen-32B | シングルGPUで最高 | o1-miniに勝つ | 最良の24 GB推論モデル |
| DeepSeek-R1-Distill-Llama-70B | 6つの中で最高 | 最大 | デュアルGPUが必要 |
公開されている正確なスコア(7B = 55.5% AIME 2024)を使い、それ以外は相対ランキングを使います。ベンチマーク数値は量子化とサンプリング設定で変動します。絶対値ではなく、ティア内での方向性として扱ってください。
推論モデルを使うべきでないのはどんなときか?
タスクが推論タスクでないときは推論モデルを避けてください — 遅く、より冗長で、単純な検索やチャットでは精度も変わりません。 代わりにDeepSeek-V3やLlama 3.3のような標準的なチャットモデルを使ってください。
- 手早い事実検索には避けてください — 可視的な思考の連鎖は、チャットモデルなら即座に返す回答に対してトークンと時間を浪費します。
- オープンエンドな会話には避けてください — 推論モデルは対話ではなく、正解のある問題向けにチューニングされています。
- 純粋なコーディングのスループットには避けてください — コード生成ではDeepSeek vs Qwenコーディングガイドに誘導します。本ページは推論のみを扱います。
- レイテンシが重要なときは避けてください — サブ秒の応答が必要なら、より小さなチャットモデルが勝ります。
- タスクが数学・論理・多段階の計画、または途中の計算を見せることで正確さが向上するものなら、推論モデルを使ってください。
設定の極意: 温度0.6、システムプロンプトなし
温度を0.6に設定し(0.5〜0.7の範囲が安全)、システムプロンプトを使わない — すべての指示をユーザープロンプトに入れてください。 これはDeepSeek-R1ディスティルにとって最も重要な単一の設定です。これらのモデルは、システムプロンプトを与えられたり、温度が0付近または約0.8以上のときに、繰り返しと支離滅裂の障害モードに陥りやすいです。
実践では: Ollama/LM Studioのシステムプロンプト欄を空のままにし、指示をユーザーメッセージの先頭に付け、温度を0.6に保ちます。モデルがループしたり推論の途中で逸れたりするのを見たら、ほぼ常にこの設定が解決策です。
セットアップ: ティア別Ollamaクイックスタート
すべてのディスティルは単一のOllamaコマンドでインストールして動作します(すべてデフォルトはQ4_K_M)。まだなら先にOllamaをインストールしてください — Ollamaのインストール方法を参照。そのうえで、自分のティアのコマンドを選んでください:
ollama run deepseek-r1:1.5b # edge / CPU
ollama run deepseek-r1:7b # 8 GB VRAM
ollama run deepseek-r1:8b # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b # 16 GB VRAM — recommended
ollama run deepseek-r1:32b # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b # dual-GPU / 48 GB結論: どのDeepSeek-R1ディスティルを動かすべきか?
判断はVRAMと、精度と速度のどちらを優先するかに帰着します。各ケースの一行回答はこちらです。
ディスティルを選ぶ
Use a local LLM if:
- •16 GB GPU → DeepSeek-R1-Distill-Qwen-14B(総合的に最良、デフォルトの選択)
- •24 GB GPU → DeepSeek-R1-Distill-Qwen-32B(o1-miniに勝つ、最良のシングルGPU推論モデル)
- •8 GB GPU → DeepSeek-R1-0528-Qwen3-8B(最良の小型)または7Bディスティル
- •デュアルGPU / 48 GB → DeepSeek-R1-Distill-Llama-70B(最高精度)
Use a cloud model if:
- •どのディスティルも超えるフロンティアの推論が必要 → PromptQuorum経由でGPT-4o / Claude / Geminiと比較
- •GPUを専用にできない → ホスト型推論APIの方がハードウェア購入より安いかもしれません
Quick decision:
- →迷ったら、16 GBカードで14Bから始めてください。
- →常に温度0.6、システムプロンプトなしで動かしてください。
- →コーディングには推論ディスティルではなく、コーディングモデルを使ってください。
よくある質問
フル671BのDeepSeek-R1をローカルで動かせますか?
いいえ。フルのDeepSeek-R1は671BパラメータのMixture-of-Expertsモデル(トークンあたり約37Bがアクティブ)で、Q4で約376〜404 GBのVRAMを必要とします — データセンターのハードウェア専用です。自宅ではそのディスティルのいずれか(1.5B〜70B)を動かします。Unslothの1.58ビットビルド(約131 GB)は存在しますが、毎秒約0.3トークンで動作し、実用的なセットアップというより珍品です。
どのDeepSeek-R1ディスティルが総合的に最良ですか?
大半の人にとって、16 GB GPU上のDeepSeek-R1-Distill-Qwen-14Bが、推論品質・速度・VRAM適合の最良のバランスです。24 GBカードがあるなら、32Bディスティルの方が強力で、複数の推論ベンチマークでOpenAI o1-miniを上回ります。
最良の小型DeepSeek推論モデルは何ですか?
DeepSeek-R1-0528-Qwen3-8Bです。更新されたR1-0528からQwen3 8Bベース上にディスティルされ、オープンな8BモデルのAIME 2024で首位に立ち、ベースのQwen3 8Bより約10ポイント高いスコアを出します。Q4_K_Mで8 GB GPUに収まります。
各ディスティルはどれだけのVRAMが必要ですか?
OllamaデフォルトのQ4_K_Mで: 7Bは約8 GB(ファイル約4.7 GB)、14Bは約16 GB(ファイル約9 GB)、32Bは約24 GB(ファイル約18〜20 GB)、70BはデュアルGPUまたは48 GB(ファイル約40 GB)が必要です。FP16はQ4_K_Mサイズのおよそ4倍、Q8_0はおよそ2倍です。
DeepSeek-R1はコーディングが得意ですか?
本ガイドは推論(数学・論理・多段階)のみをランキングします。コード生成ではトレードオフが異なります — コーディングのスループットのために推論ディスティルを選ぶのではなく、/power-local-llm/deepseek-vs-qwen-coding-local-2026 の専用比較を参照してください。
DeepSeek-V3とDeepSeek-R1の違いは何ですか?
DeepSeek-V3は会話向けにチューニングされたチャットモデルで、DeepSeek-R1は回答前に明示的な思考の連鎖を生成する推論モデルです。数学と論理にはR1かディスティルを、一般的なチャットにはV3を使ってください。
なぜ私のDeepSeek-R1ディスティルがループしたり意味不明な出力をするのですか?
ほぼ常に設定の問題です。温度を0.6に設定し(0.5〜0.7が適切)、システムプロンプトを削除してください — すべての指示をユーザーメッセージに入れます。R1ディスティルには、システムプロンプトと極端な温度によって引き起こされる既知の繰り返し障害モードがあります。
DeepSeek-R1ディスティルはどうやってインストールしますか?
Ollamaをインストールし、自分のティア向けに1つのコマンドを実行します。例: `ollama run deepseek-r1:14b`。すべてのディスティルはデフォルトでQ4_K_Mです。完全なコマンド一覧は上記のセットアップセクションを参照してください。
8Bディスティルは異なるライセンスを持ちますか?
はい。DeepSeek-R1-Distill-Llama-8Bは、ベースがLlama 3であるため、MITに加えてLlama 3ライセンスを持ちます。Qwベースのディスティル(1.5B、7B、14B、32B)はQwenのライセンスを継承します。商用利用の前にライセンスを確認してください。
推論のためにRTX 4060 Ti 16GBとRTX 4090のどちらを買うべきですか?
予算がRTX 4090を許し、(o1-miniに勝つ)32Bディスティルを動かしたいなら、4090を買ってください。最良のコスパが欲しく、14Bディスティルでニーズが満たせるなら、約$420のRTX 4060 Ti 16GBが賢い買い物です。
更新ログ
- 2026-06-19に公開。次回レビュー予定日2026-12-19(半年ごとのフレッシュネスティア)。
- 6つの公式DeepSeek-R1ディスティルとDeepSeek-R1-0528-Qwen3-8Bを網羅。2026年6月時点で、公開されたAIME 2024スコアおよびQ4_K_MのVRAM数値に対して検証済み。