DeepSeek-R1 Distill VRAM 早見表（2026年版）

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。リンクのクリックと次のステップはご自身の責任です。これらのリンクはPromptQuorumによる推奨や検証を表すものではありません。

クイック回答

Q4_K_M（Ollamaデフォルト）の場合：1.5B ≈ 4 GB、7B ≈ 5.5 GB、8B ≈ 6 GB、14B ≈ 9.5 GB、32B ≈ 20.5 GB、70B ≈ 42 GB。Q8_0はQ4_K_Mサイズの約2倍、FP16は約4倍なので、FP16の32Bには64 GBクラスの構成が必要です。

▸1.5B：ファイル~1.1 GB、Q4_K_Mで~4 GB VRAM（またはCPU）
▸7B：ファイル~4.7 GB、~5.5 GB VRAM — RTX 3060 12GB
▸14B：ファイル~9 GB、~9.5 GB VRAM — RTX 4060 Ti 16GB
▸32B：ファイル~19 GB、~20.5 GB VRAM — RTX 4090 24GB（ギリギリ）
▸70B：ファイル~40 GB、~42 GB VRAM — デュアルGPUまたは48 GB
▸ルール：Q8_0 ≈ 2× Q4_K_M、FP16 ≈ 4× Q4_K_M

更新: 2026-06-19

Quantization & VRAM中級

重要なポイント

✓Q4_K_M（Ollamaデフォルト）VRAM：1.5B ~4 GB、7B ~5.5 GB、8B ~6 GB、14B ~9.5 GB、32B ~20.5 GB、70B ~42 GB。
✓Q8_0はQ4_K_Mサイズの約2倍、FP16はQ4_K_Mファイルサイズの約4倍です。
✓Q4_K_Mの14B（~9.5 GB）が最適解です — コンテキストの余裕を持って16 GBカードに収まります。
✓Q4_K_Mの32B（~20.5 GB）は24 GBのRTX 4090ではギリギリです。長いコンテキストには小さい量子化に下げてください。
✓フルの671B DeepSeek-R1はこの表に含まれません — Q4で~376–404 GBが必要（データセンター専用）。
✓これらはR1推論Distillであり、DeepSeek-V3（チャットモデル）ではありません。

量子化別 DeepSeek-R1 Distill VRAM

VRAMの数値には、生のファイルサイズに加えてコンテキストとKVキャッシュ用の小さな余裕が含まれています。Q4_K_MはOllamaのデフォルトで、推論におけるサイズと品質のバランスが最も優れています。VRAMに余裕があり、わずかな品質向上を求める場合のみQ8_0を使用してください。FP16はローカルでは価値があることはほとんどありません。

Distill	Q4_K_M (VRAM)	Q8_0 (VRAM)	FP16 (VRAM)	最小GPU (Q4_K_M)
1.5B	~4 GB	~5 GB	~6 GB	任意の4 GB GPU / CPU
7B (Qwen2.5)	~5.5 GB	~9.5 GB	~16 GB	RTX 3060 12GB
8B (Llama 3)	~6 GB	~10 GB	~17 GB	RTX 3060 12GB
14B (Qwen2.5)	~9.5 GB	~16 GB	~29 GB	RTX 4060 Ti 16GB
32B (Qwen2.5)	~20.5 GB	~35 GB	~64 GB	RTX 4090 24GB（ギリギリ）
70B (Llama 3)	~42 GB	~74 GB	~140 GB	デュアルGPU / 48 GB

AmazonでRTX 3060 12GB（製品リンク・開示済み）製品リンク · 開示済みAmazonでRTX 4060 Ti 16GB（製品リンク・開示済み）製品リンク · 開示済みAmazonでRTX 4090 24GB（製品リンク・開示済み）製品リンク · 開示済み

どの量子化を選ぶべきか？

**ほぼすべてにQ4_K_Mを使用してください** — Ollamaのデフォルトで、GBあたり最も多くのモデルを収めながら推論品質を高く保ちます。特別な理由がない限りこれを選んでください。

**Q8_0はVRAMに余裕がある場合のみ使用してください** — フットプリントを約2倍にしますが、品質向上はわずかで、推論の回答を変えることはほとんどありません。24 GBカードで14Bを動かす場合には価値がありますが、それ以外ではほぼ不要です。

**ローカルではFP16を避けてください** — Q4_K_Mサイズの約4倍で、32Bを64 GBクラスのハードウェアに押し上げますが、Q8_0に対する実用的な推論上の利点はありません。

V3とR1：混同しないでください

**DeepSeek-V3はチャットモデルで、DeepSeek-R1（およびこれらのDistill）は推論モデルです。** この表はR1推論ファミリー専用です。V3をお探しの場合、それは671B MoEチャットモデルで、これも一般消費者向けハードウェアでは動作しません — [DeepSeek V3ハードウェアbite](/prompt-bites/deepseek-v3-local-hardware-requirements)をご覧ください。

よくある質問

DeepSeek-R1-Distill-Qwen-32BのVRAMはどれくらいですか？▾

Q4_K_Mで約20.5 GBで、24 GBのRTX 4090に収まりますが、長いコンテキスト用の余裕はほとんどありません。Q8_0では~35 GB、FP16では~64 GBが必要です。

Q8_0はQ4_K_Mに対してどれくらい増えますか？▾

VRAMで約2倍です。ほとんどの推論タスクでは品質向上はわずかなので、VRAMに余裕がない限りQ4_K_Mがより良いデフォルトです。

70B Distillを1台のGPUで実行できますか？▾

いいえ。~42 GB（Q4_K_M）で、いかなる単一の消費者向けカードも超えます。24 GBのGPUを2台、または48 GBのワークステーションカードを使用してください。

フルのDeepSeek-R1はこの表にありますか？▾

いいえ。フルの671B R1はQ4で~376–404 GBが必要で、データセンター専用です。この早見表は一般消費者向けに実行可能なDistill（1.5B〜70B）をカバーしています。

詳しく読みたいですか？

コンプリートガイドを読む →

DeepSeek-R1 Distill VRAM 早見表（2026年版）

量子化別 DeepSeek-R1 Distill VRAM

どの量子化を選ぶべきか？

V3とR1：混同しないでください

関連ガイド

よくある質問