DeepSeek-R1 Distill GPU別おすすめ早見表（2026）

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。リンクのクリックと次のステップはご自身の責任です。これらのリンクはPromptQuorumによる推奨や検証を表すものではありません。

クイック回答

カードを確認してください：RTX 3060 12GB → 7B、RTX 4060 Ti 16GB → 14B、RTX 4070/4080 → 14Bまたは32B、RTX 4090 → 32B、デュアルGPU/48 GB → 70B。8 GBでの最良の小型モデルはDeepSeek-R1-0528-Qwen3-8Bです。いずれも1つのOllamaコマンドでQ4_K_Mとして実行できます。

▸RTX 3060 12GB → deepseek-r1:7b — 約30–40 tok/s
▸RTX 4060 Ti 16GB → deepseek-r1:14b — 約25–35 tok/s（推奨）
▸RTX 4070 / 4080 → deepseek-r1:14b または :32b — 14B 約40–50、32B 約15–20 tok/s
▸RTX 4090 24GB → deepseek-r1:32b — 約30–40 tok/s、o1-miniを上回る
▸デュアルGPU / 48 GB → deepseek-r1:70b — 約12–18 tok/s
▸8 GBカード、最良の小型 → DeepSeek-R1-0528-Qwen3-8B

更新: 2026-06-19

Quantization & VRAM中級

重要なポイント

✓RTX 3060 12GB → 7B distill；RTX 4060 Ti 16GB → 14B（最適な選択）；RTX 4090 → 32B（o1-miniを上回る）。
✓デュアルGPUまたは48 GB → 70B distill、6つの中で最強です。
✓8 GBでの最良の小型モデルはDeepSeek-R1-0528-Qwen3-8Bです。
✓すべてのモデルは1つのコマンドでQ4_K_Mとしてインストールされます。例：`ollama run deepseek-r1:14b`。
✓R1の繰り返し不具合を避けるため、temperatureを0.6に設定し、system promptは使用しないでください。
✓これはR1推論ファミリーであり、チャットモデルであるDeepSeek-V3ではありません。

GPU → DeepSeek-R1 Distill → Ollamaコマンド

このセクションでは、最初の列でお使いのGPUを見つけ、横に読み進めてください。tok/sの数値はQ4_K_M推論ワークロードのおおよその値で、コンテキスト長やサンプリング設定によって変動します。2つのモデルが収まる場合、大きい方が推論に優れ、小さい方が高速です。

GPU (VRAM)	最適なDistill	Ollamaコマンド	予想tok/s
RTX 3060 12GB（8 GBクラス）	DeepSeek-R1-Distill-Qwen-7B	ollama run deepseek-r1:7b	~30–40
8 GB、最良の小型	DeepSeek-R1-0528-Qwen3-8B	ollama run deepseek-r1-0528-qwen3:8b	~30–40
RTX 4060 Ti 16GB	DeepSeek-R1-Distill-Qwen-14B	ollama run deepseek-r1:14b	~25–35
RTX 4070 / 4080	14B（高速）または32B（16 GB以上）	ollama run deepseek-r1:14b	14B ~40–50
RTX 4090 24GB	DeepSeek-R1-Distill-Qwen-32B	ollama run deepseek-r1:32b	~30–40
デュアルGPU / 48 GB	DeepSeek-R1-Distill-Llama-70B	ollama run deepseek-r1:70b	~12–18

AmazonでRTX 3060 12GB（製品リンク・開示済み）製品リンク · 開示済みAmazonでRTX 4060 Ti 16GB（製品リンク・開示済み）製品リンク · 開示済みAmazonでRTX 4070（製品リンク・開示済み）製品リンク · 開示済みAmazonでRTX 4090 24GB（製品リンク・開示済み）製品リンク · 開示済み

この表を3ステップで使う方法

3行で：(1) お使いのGPUとそのVRAMを確認し、(2) 対応するOllamaコマンドを実行し、(3) temperatureを0.6に設定してsystem promptをクリアします。モデルが遅すぎる場合は1段下げ、VRAMに余裕があれば推論を改善するため1段上げます。

V3とR1：この表はR1専用です

**DeepSeek-R1はこれらのコマンドがインストールする推論ファミリーであり、DeepSeek-V3は別個のチャットモデルです。** これらのdistillにV3のような体験を期待しないでください。数学と論理の段階的な推論を示すよう調整されています。さらにV3は671B MoEであり、コンシューマー向けハードウェアでは実行できません。[DeepSeek V3ハードウェアバイト](/prompt-bites/deepseek-v3-local-hardware-requirements)を参照してください。

よくある質問

RTX 4090ではどのDeepSeek distillが動きますか？▾

DeepSeek-R1-Distill-Qwen-32Bです。Q4_K_Mでは約20.5 GBが必要で、24 GBのRTX 4090に収まり（コンテキストは厳しめ）、複数の推論ベンチマークでOpenAI o1-miniを上回ります。コマンド：`ollama run deepseek-r1:32b`。

8 GB GPUに最適なDeepSeek distillは？▾

DeepSeek-R1-0528-Qwen3-8Bが最強の小型推論distillで、8 GBに収まります。元の7B distill（`ollama run deepseek-r1:7b`）は十分にサポートされた代替です。

distillが遅いのはなぜですか？▾

通常はVRAMのあふれです。モデルが収まらないとシステムRAMにあふれ、スループットが崩壊します。1段下げて（例：32B → 14B）、モデルがVRAMに完全に収まるようにしてください。

量子化を選ぶ必要はありますか？▾

いいえ。`ollama run deepseek-r1:`コマンドはデフォルトでQ4_K_M（サイズと品質の最良のトレードオフ）を使用します。Q8_0やFP16の数値が必要な場合はVRAM早見表を参照してください。

詳しく読みたいですか？

コンプリートガイドを読む →

DeepSeek-R1 Distill GPU別おすすめ早見表（2026）

GPU → DeepSeek-R1 Distill → Ollamaコマンド

この表を3ステップで使う方法

V3とR1：この表はR1専用です

関連ガイド

よくある質問