Skip to main content
PromptQuorumPromptQuorum

DeepSeek-R1 Distill VRAM 早見表(2026年版)

このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。リンクのクリックと次のステップはご自身の責任です。これらのリンクはPromptQuorumによる推奨や検証を表すものではありません。

クイック回答

Q4_K_M(Ollamaデフォルト)の場合:1.5B ≈ 4 GB、7B ≈ 5.5 GB、8B ≈ 6 GB、14B ≈ 9.5 GB、32B ≈ 20.5 GB、70B ≈ 42 GB。Q8_0はQ4_K_Mサイズの約2倍、FP16は約4倍なので、FP16の32Bには64 GBクラスの構成が必要です。

  • 1.5B:ファイル~1.1 GB、Q4_K_Mで~4 GB VRAM(またはCPU)
  • 7B:ファイル~4.7 GB、~5.5 GB VRAM — RTX 3060 12GB
  • 14B:ファイル~9 GB、~9.5 GB VRAM — RTX 4060 Ti 16GB
  • 32B:ファイル~19 GB、~20.5 GB VRAM — RTX 4090 24GB(ギリギリ)
  • 70B:ファイル~40 GB、~42 GB VRAM — デュアルGPUまたは48 GB
  • ルール:Q8_0 ≈ 2× Q4_K_M、FP16 ≈ 4× Q4_K_M

更新: 2026-06-19

Quantization & VRAM中級

重要なポイント

  • Q4_K_M(Ollamaデフォルト)VRAM:1.5B ~4 GB、7B ~5.5 GB、8B ~6 GB、14B ~9.5 GB、32B ~20.5 GB、70B ~42 GB。
  • Q8_0はQ4_K_Mサイズの約2倍、FP16はQ4_K_Mファイルサイズの約4倍です。
  • Q4_K_Mの14B(~9.5 GB)が最適解です — コンテキストの余裕を持って16 GBカードに収まります。
  • Q4_K_Mの32B(~20.5 GB)は24 GBのRTX 4090ではギリギリです。長いコンテキストには小さい量子化に下げてください。
  • フルの671B DeepSeek-R1はこの表に含まれません — Q4で~376–404 GBが必要(データセンター専用)。
  • これらはR1推論Distillであり、DeepSeek-V3(チャットモデル)ではありません。

量子化別 DeepSeek-R1 Distill VRAM

VRAMの数値には、生のファイルサイズに加えてコンテキストとKVキャッシュ用の小さな余裕が含まれています。Q4_K_MはOllamaのデフォルトで、推論におけるサイズと品質のバランスが最も優れています。VRAMに余裕があり、わずかな品質向上を求める場合のみQ8_0を使用してください。FP16はローカルでは価値があることはほとんどありません。

DistillQ4_K_M (VRAM)Q8_0 (VRAM)FP16 (VRAM)最小GPU (Q4_K_M)
1.5B~4 GB~5 GB~6 GB任意の4 GB GPU / CPU
7B (Qwen2.5)~5.5 GB~9.5 GB~16 GBRTX 3060 12GB
8B (Llama 3)~6 GB~10 GB~17 GBRTX 3060 12GB
14B (Qwen2.5)~9.5 GB~16 GB~29 GBRTX 4060 Ti 16GB
32B (Qwen2.5)~20.5 GB~35 GB~64 GBRTX 4090 24GB(ギリギリ)
70B (Llama 3)~42 GB~74 GB~140 GBデュアルGPU / 48 GB

どの量子化を選ぶべきか?

**ほぼすべてにQ4_K_Mを使用してください** — Ollamaのデフォルトで、GBあたり最も多くのモデルを収めながら推論品質を高く保ちます。特別な理由がない限りこれを選んでください。

**Q8_0はVRAMに余裕がある場合のみ使用してください** — フットプリントを約2倍にしますが、品質向上はわずかで、推論の回答を変えることはほとんどありません。24 GBカードで14Bを動かす場合には価値がありますが、それ以外ではほぼ不要です。

**ローカルではFP16を避けてください** — Q4_K_Mサイズの約4倍で、32Bを64 GBクラスのハードウェアに押し上げますが、Q8_0に対する実用的な推論上の利点はありません。

V3とR1:混同しないでください

**DeepSeek-V3はチャットモデルで、DeepSeek-R1(およびこれらのDistill)は推論モデルです。** この表はR1推論ファミリー専用です。V3をお探しの場合、それは671B MoEチャットモデルで、これも一般消費者向けハードウェアでは動作しません — [DeepSeek V3ハードウェアbite](/prompt-bites/deepseek-v3-local-hardware-requirements)をご覧ください。

関連ガイド

よくある質問

DeepSeek-R1-Distill-Qwen-32BのVRAMはどれくらいですか?
Q4_K_Mで約20.5 GBで、24 GBのRTX 4090に収まりますが、長いコンテキスト用の余裕はほとんどありません。Q8_0では~35 GB、FP16では~64 GBが必要です。
Q8_0はQ4_K_Mに対してどれくらい増えますか?
VRAMで約2倍です。ほとんどの推論タスクでは品質向上はわずかなので、VRAMに余裕がない限りQ4_K_Mがより良いデフォルトです。
70B Distillを1台のGPUで実行できますか?
いいえ。~42 GB(Q4_K_M)で、いかなる単一の消費者向けカードも超えます。24 GBのGPUを2台、または48 GBのワークステーションカードを使用してください。
フルのDeepSeek-R1はこの表にありますか?
いいえ。フルの671B R1はQ4で~376–404 GBが必要で、データセンター専用です。この早見表は一般消費者向けに実行可能なDistill(1.5B〜70B)をカバーしています。