Skip to main content
PromptQuorumPromptQuorum

DeepSeek-R1 Distill GPU別おすすめ早見表(2026)

このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。リンクのクリックと次のステップはご自身の責任です。これらのリンクはPromptQuorumによる推奨や検証を表すものではありません。

クイック回答

カードを確認してください:RTX 3060 12GB → 7B、RTX 4060 Ti 16GB → 14B、RTX 4070/4080 → 14Bまたは32B、RTX 4090 → 32B、デュアルGPU/48 GB → 70B。8 GBでの最良の小型モデルはDeepSeek-R1-0528-Qwen3-8Bです。いずれも1つのOllamaコマンドでQ4_K_Mとして実行できます。

  • RTX 3060 12GB → deepseek-r1:7b — 約30–40 tok/s
  • RTX 4060 Ti 16GB → deepseek-r1:14b — 約25–35 tok/s(推奨)
  • RTX 4070 / 4080 → deepseek-r1:14b または :32b — 14B 約40–50、32B 約15–20 tok/s
  • RTX 4090 24GB → deepseek-r1:32b — 約30–40 tok/s、o1-miniを上回る
  • デュアルGPU / 48 GB → deepseek-r1:70b — 約12–18 tok/s
  • 8 GBカード、最良の小型 → DeepSeek-R1-0528-Qwen3-8B

更新: 2026-06-19

Quantization & VRAM中級

重要なポイント

  • RTX 3060 12GB → 7B distill;RTX 4060 Ti 16GB → 14B(最適な選択);RTX 4090 → 32B(o1-miniを上回る)。
  • デュアルGPUまたは48 GB → 70B distill、6つの中で最強です。
  • 8 GBでの最良の小型モデルはDeepSeek-R1-0528-Qwen3-8Bです。
  • すべてのモデルは1つのコマンドでQ4_K_Mとしてインストールされます。例:`ollama run deepseek-r1:14b`。
  • R1の繰り返し不具合を避けるため、temperatureを0.6に設定し、system promptは使用しないでください。
  • これはR1推論ファミリーであり、チャットモデルであるDeepSeek-V3ではありません。

GPU → DeepSeek-R1 Distill → Ollamaコマンド

このセクションでは、最初の列でお使いのGPUを見つけ、横に読み進めてください。tok/sの数値はQ4_K_M推論ワークロードのおおよその値で、コンテキスト長やサンプリング設定によって変動します。2つのモデルが収まる場合、大きい方が推論に優れ、小さい方が高速です。

GPU (VRAM)最適なDistillOllamaコマンド予想tok/s
RTX 3060 12GB(8 GBクラス)DeepSeek-R1-Distill-Qwen-7Bollama run deepseek-r1:7b~30–40
8 GB、最良の小型DeepSeek-R1-0528-Qwen3-8Bollama run deepseek-r1-0528-qwen3:8b~30–40
RTX 4060 Ti 16GBDeepSeek-R1-Distill-Qwen-14Bollama run deepseek-r1:14b~25–35
RTX 4070 / 408014B(高速)または32B(16 GB以上)ollama run deepseek-r1:14b14B ~40–50
RTX 4090 24GBDeepSeek-R1-Distill-Qwen-32Bollama run deepseek-r1:32b~30–40
デュアルGPU / 48 GBDeepSeek-R1-Distill-Llama-70Bollama run deepseek-r1:70b~12–18

この表を3ステップで使う方法

3行で:(1) お使いのGPUとそのVRAMを確認し、(2) 対応するOllamaコマンドを実行し、(3) temperatureを0.6に設定してsystem promptをクリアします。モデルが遅すぎる場合は1段下げ、VRAMに余裕があれば推論を改善するため1段上げます。

V3とR1:この表はR1専用です

**DeepSeek-R1はこれらのコマンドがインストールする推論ファミリーであり、DeepSeek-V3は別個のチャットモデルです。** これらのdistillにV3のような体験を期待しないでください。数学と論理の段階的な推論を示すよう調整されています。さらにV3は671B MoEであり、コンシューマー向けハードウェアでは実行できません。[DeepSeek V3ハードウェアバイト](/prompt-bites/deepseek-v3-local-hardware-requirements)を参照してください。

関連ガイド

よくある質問

RTX 4090ではどのDeepSeek distillが動きますか?
DeepSeek-R1-Distill-Qwen-32Bです。Q4_K_Mでは約20.5 GBが必要で、24 GBのRTX 4090に収まり(コンテキストは厳しめ)、複数の推論ベンチマークでOpenAI o1-miniを上回ります。コマンド:`ollama run deepseek-r1:32b`。
8 GB GPUに最適なDeepSeek distillは?
DeepSeek-R1-0528-Qwen3-8Bが最強の小型推論distillで、8 GBに収まります。元の7B distill(`ollama run deepseek-r1:7b`)は十分にサポートされた代替です。
distillが遅いのはなぜですか?
通常はVRAMのあふれです。モデルが収まらないとシステムRAMにあふれ、スループットが崩壊します。1段下げて(例:32B → 14B)、モデルがVRAMに完全に収まるようにしてください。
量子化を選ぶ必要はありますか?
いいえ。`ollama run deepseek-r1:`コマンドはデフォルトでQ4_K_M(サイズと品質の最良のトレードオフ)を使用します。Q8_0やFP16の数値が必要な場合はVRAM早見表を参照してください。