DeepSeek-R1 Distill 显存速查表（2026）

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。

快速回答

在 Q4_K_M（Ollama 默认）下：1.5B ≈ 4 GB，7B ≈ 5.5 GB，8B ≈ 6 GB，14B ≈ 9.5 GB，32B ≈ 20.5 GB，70B ≈ 42 GB。Q8_0 约为 Q4_K_M 大小的 2 倍，FP16 约为 4 倍，因此 FP16 的 32B 需要 64 GB 级别的配置。

▸1.5B：文件 ~1.1 GB，Q4_K_M 下 ~4 GB 显存（或 CPU）
▸7B：文件 ~4.7 GB，~5.5 GB 显存 — RTX 3060 12GB
▸14B：文件 ~9 GB，~9.5 GB 显存 — RTX 4060 Ti 16GB
▸32B：文件 ~19 GB，~20.5 GB 显存 — RTX 4090 24GB（紧张）
▸70B：文件 ~40 GB，~42 GB 显存 — 双 GPU 或 48 GB
▸规则：Q8_0 ≈ 2× Q4_K_M；FP16 ≈ 4× Q4_K_M

更新于: 2026-06-19

Quantization & VRAM中级

关键要点

✓Q4_K_M（Ollama 默认）显存：1.5B ~4 GB，7B ~5.5 GB，8B ~6 GB，14B ~9.5 GB，32B ~20.5 GB，70B ~42 GB。
✓Q8_0 约为 Q4_K_M 大小的 2 倍；FP16 约为 Q4_K_M 文件大小的 4 倍。
✓Q4_K_M 下的 14B（~9.5 GB）是最佳选择——可装入 16 GB 显卡并留有上下文余量。
✓Q4_K_M 下的 32B（~20.5 GB）在 24 GB 的 RTX 4090 上较为紧张；如需更长上下文请降到更小的量化。
✓完整的 671B DeepSeek-R1 不在此表中——它在 Q4 下需要 ~376–404 GB（仅限数据中心）。
✓这些是 R1 推理 distill，而非 DeepSeek-V3（一款对话模型）。

按量化等级的 DeepSeek-R1 Distill 显存

显存数值在原始文件大小之上，包含了用于上下文和 KV 缓存的少量余量。Q4_K_M 是 Ollama 默认值，也是推理任务中大小与质量的最佳平衡。仅当你有富余显存并希望获得边际质量提升时才使用 Q8_0；FP16 在本地很少值得使用。

Distill	Q4_K_M (显存)	Q8_0 (显存)	FP16 (显存)	最低 GPU (Q4_K_M)
1.5B	~4 GB	~5 GB	~6 GB	任意 4 GB GPU / CPU
7B (Qwen2.5)	~5.5 GB	~9.5 GB	~16 GB	RTX 3060 12GB
8B (Llama 3)	~6 GB	~10 GB	~17 GB	RTX 3060 12GB
14B (Qwen2.5)	~9.5 GB	~16 GB	~29 GB	RTX 4060 Ti 16GB
32B (Qwen2.5)	~20.5 GB	~35 GB	~64 GB	RTX 4090 24GB（紧张）
70B (Llama 3)	~42 GB	~74 GB	~140 GB	双 GPU / 48 GB

在亚马逊购买 RTX 3060 12GB（产品链接 · 已披露）产品链接 · 已披露在亚马逊购买 RTX 4060 Ti 16GB（产品链接 · 已披露）产品链接 · 已披露在亚马逊购买 RTX 4090 24GB（产品链接 · 已披露）产品链接 · 已披露

应该选择哪种量化？

**几乎所有情况都用 Q4_K_M**——它是 Ollama 默认值，在保持高推理质量的同时让每 GB 容纳最多的模型。除非有特定理由，否则就选它。

**仅在有富余显存时使用 Q8_0**——它使占用大约翻倍，换来的质量提升微乎其微，几乎不会改变推理答案。在 24 GB 显卡上运行 14B 时值得，其他情况意义不大。

**本地请跳过 FP16**——它约为 Q4_K_M 大小的 4 倍，会把 32B 推到 64 GB 级别的硬件上，相比 Q8_0 却没有实际的推理收益。

V3 与 R1：不要混淆

**DeepSeek-V3 是对话模型；DeepSeek-R1（以及这些 distill）是推理模型。** 此表仅针对 R1 推理系列。如果你要找的是 V3，它是一款 671B MoE 对话模型，同样无法在消费级硬件上运行——参见 [DeepSeek V3 硬件速览](/prompt-bites/deepseek-v3-local-hardware-requirements)。

常见问题

DeepSeek-R1-Distill-Qwen-32B 的显存是多少？▾

在 Q4_K_M 下约为 20.5 GB，可装入 24 GB 的 RTX 4090，但留给长上下文的空间很小。Q8_0 下需要 ~35 GB，FP16 下需要 ~64 GB。

Q8_0 相比 Q4_K_M 增加多少？▾

大约 2 倍显存。对于大多数推理任务，质量提升微乎其微，因此除非有富余显存，否则 Q4_K_M 是更好的默认选择。

我能在单块 GPU 上运行 70B distill 吗？▾

不能。约 42 GB（Q4_K_M）超过了任何单块消费级显卡。请使用两块 24 GB GPU 或一块 48 GB 工作站显卡。

完整的 DeepSeek-R1 在此表中吗？▾

不在。完整的 671B R1 在 Q4 下需要 ~376–404 GB，仅限数据中心。此速查表涵盖可在消费级硬件上运行的 distill（1.5B–70B）。

想了解完整详情？

阅读完整指南 →

DeepSeek-R1 Distill 显存速查表（2026）

按量化等级的 DeepSeek-R1 Distill 显存

应该选择哪种量化？

V3 与 R1：不要混淆

相关指南

常见问题