DeepSeek-R1 Distill VRAM 早見表(2026年版)
このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。リンクのクリックと次のステップはご自身の責任です。これらのリンクはPromptQuorumによる推奨や検証を表すものではありません。
クイック回答
Q4_K_M(Ollamaデフォルト)の場合:1.5B ≈ 4 GB、7B ≈ 5.5 GB、8B ≈ 6 GB、14B ≈ 9.5 GB、32B ≈ 20.5 GB、70B ≈ 42 GB。Q8_0はQ4_K_Mサイズの約2倍、FP16は約4倍なので、FP16の32Bには64 GBクラスの構成が必要です。
- ▸1.5B:ファイル~1.1 GB、Q4_K_Mで~4 GB VRAM(またはCPU)
- ▸7B:ファイル~4.7 GB、~5.5 GB VRAM — RTX 3060 12GB
- ▸14B:ファイル~9 GB、~9.5 GB VRAM — RTX 4060 Ti 16GB
- ▸32B:ファイル~19 GB、~20.5 GB VRAM — RTX 4090 24GB(ギリギリ)
- ▸70B:ファイル~40 GB、~42 GB VRAM — デュアルGPUまたは48 GB
- ▸ルール:Q8_0 ≈ 2× Q4_K_M、FP16 ≈ 4× Q4_K_M
更新: 2026-06-19
重要なポイント
- ✓Q4_K_M(Ollamaデフォルト)VRAM:1.5B ~4 GB、7B ~5.5 GB、8B ~6 GB、14B ~9.5 GB、32B ~20.5 GB、70B ~42 GB。
- ✓Q8_0はQ4_K_Mサイズの約2倍、FP16はQ4_K_Mファイルサイズの約4倍です。
- ✓Q4_K_Mの14B(~9.5 GB)が最適解です — コンテキストの余裕を持って16 GBカードに収まります。
- ✓Q4_K_Mの32B(~20.5 GB)は24 GBのRTX 4090ではギリギリです。長いコンテキストには小さい量子化に下げてください。
- ✓フルの671B DeepSeek-R1はこの表に含まれません — Q4で~376–404 GBが必要(データセンター専用)。
- ✓これらはR1推論Distillであり、DeepSeek-V3(チャットモデル)ではありません。
量子化別 DeepSeek-R1 Distill VRAM
VRAMの数値には、生のファイルサイズに加えてコンテキストとKVキャッシュ用の小さな余裕が含まれています。Q4_K_MはOllamaのデフォルトで、推論におけるサイズと品質のバランスが最も優れています。VRAMに余裕があり、わずかな品質向上を求める場合のみQ8_0を使用してください。FP16はローカルでは価値があることはほとんどありません。
| Distill | Q4_K_M (VRAM) | Q8_0 (VRAM) | FP16 (VRAM) | 最小GPU (Q4_K_M) |
|---|---|---|---|---|
| 1.5B | ~4 GB | ~5 GB | ~6 GB | 任意の4 GB GPU / CPU |
| 7B (Qwen2.5) | ~5.5 GB | ~9.5 GB | ~16 GB | RTX 3060 12GB |
| 8B (Llama 3) | ~6 GB | ~10 GB | ~17 GB | RTX 3060 12GB |
| 14B (Qwen2.5) | ~9.5 GB | ~16 GB | ~29 GB | RTX 4060 Ti 16GB |
| 32B (Qwen2.5) | ~20.5 GB | ~35 GB | ~64 GB | RTX 4090 24GB(ギリギリ) |
| 70B (Llama 3) | ~42 GB | ~74 GB | ~140 GB | デュアルGPU / 48 GB |
どの量子化を選ぶべきか?
**ほぼすべてにQ4_K_Mを使用してください** — Ollamaのデフォルトで、GBあたり最も多くのモデルを収めながら推論品質を高く保ちます。特別な理由がない限りこれを選んでください。
**Q8_0はVRAMに余裕がある場合のみ使用してください** — フットプリントを約2倍にしますが、品質向上はわずかで、推論の回答を変えることはほとんどありません。24 GBカードで14Bを動かす場合には価値がありますが、それ以外ではほぼ不要です。
**ローカルではFP16を避けてください** — Q4_K_Mサイズの約4倍で、32Bを64 GBクラスのハードウェアに押し上げますが、Q8_0に対する実用的な推論上の利点はありません。
V3とR1:混同しないでください
**DeepSeek-V3はチャットモデルで、DeepSeek-R1(およびこれらのDistill)は推論モデルです。** この表はR1推論ファミリー専用です。V3をお探しの場合、それは671B MoEチャットモデルで、これも一般消費者向けハードウェアでは動作しません — [DeepSeek V3ハードウェアbite](/prompt-bites/deepseek-v3-local-hardware-requirements)をご覧ください。
関連ガイド
- ▸あなたのGPUに最適なDeepSeek Distill — カードをDistillに合わせ、Ollamaコマンドと想定tok/sも掲載
- ▸2026年版 最適なローカル推論モデル:DeepSeek-R1ランキング — ベンチマーク付きの完全なランキングガイド
- ▸DeepSeek V3 ローカルハードウェア要件 — V3チャットモデルの対応版
よくある質問
DeepSeek-R1-Distill-Qwen-32BのVRAMはどれくらいですか?▾
Q8_0はQ4_K_Mに対してどれくらい増えますか?▾
70B Distillを1台のGPUで実行できますか?▾
フルのDeepSeek-R1はこの表にありますか?▾
詳しく読みたいですか?
コンプリートガイドを読む →関連する Prompt Bites