Skip to main content
PromptQuorumPromptQuorum

DeepSeek-R1 Distill 显存速查表(2026)

本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。

快速回答

在 Q4_K_M(Ollama 默认)下:1.5B ≈ 4 GB,7B ≈ 5.5 GB,8B ≈ 6 GB,14B ≈ 9.5 GB,32B ≈ 20.5 GB,70B ≈ 42 GB。Q8_0 约为 Q4_K_M 大小的 2 倍,FP16 约为 4 倍,因此 FP16 的 32B 需要 64 GB 级别的配置。

  • 1.5B:文件 ~1.1 GB,Q4_K_M 下 ~4 GB 显存(或 CPU)
  • 7B:文件 ~4.7 GB,~5.5 GB 显存 — RTX 3060 12GB
  • 14B:文件 ~9 GB,~9.5 GB 显存 — RTX 4060 Ti 16GB
  • 32B:文件 ~19 GB,~20.5 GB 显存 — RTX 4090 24GB(紧张)
  • 70B:文件 ~40 GB,~42 GB 显存 — 双 GPU 或 48 GB
  • 规则:Q8_0 ≈ 2× Q4_K_M;FP16 ≈ 4× Q4_K_M

更新于: 2026-06-19

Quantization & VRAM中级

关键要点

  • Q4_K_M(Ollama 默认)显存:1.5B ~4 GB,7B ~5.5 GB,8B ~6 GB,14B ~9.5 GB,32B ~20.5 GB,70B ~42 GB。
  • Q8_0 约为 Q4_K_M 大小的 2 倍;FP16 约为 Q4_K_M 文件大小的 4 倍。
  • Q4_K_M 下的 14B(~9.5 GB)是最佳选择——可装入 16 GB 显卡并留有上下文余量。
  • Q4_K_M 下的 32B(~20.5 GB)在 24 GB 的 RTX 4090 上较为紧张;如需更长上下文请降到更小的量化。
  • 完整的 671B DeepSeek-R1 不在此表中——它在 Q4 下需要 ~376–404 GB(仅限数据中心)。
  • 这些是 R1 推理 distill,而非 DeepSeek-V3(一款对话模型)。

按量化等级的 DeepSeek-R1 Distill 显存

显存数值在原始文件大小之上,包含了用于上下文和 KV 缓存的少量余量。Q4_K_M 是 Ollama 默认值,也是推理任务中大小与质量的最佳平衡。仅当你有富余显存并希望获得边际质量提升时才使用 Q8_0;FP16 在本地很少值得使用。

DistillQ4_K_M (显存)Q8_0 (显存)FP16 (显存)最低 GPU (Q4_K_M)
1.5B~4 GB~5 GB~6 GB任意 4 GB GPU / CPU
7B (Qwen2.5)~5.5 GB~9.5 GB~16 GBRTX 3060 12GB
8B (Llama 3)~6 GB~10 GB~17 GBRTX 3060 12GB
14B (Qwen2.5)~9.5 GB~16 GB~29 GBRTX 4060 Ti 16GB
32B (Qwen2.5)~20.5 GB~35 GB~64 GBRTX 4090 24GB(紧张)
70B (Llama 3)~42 GB~74 GB~140 GB双 GPU / 48 GB

应该选择哪种量化?

**几乎所有情况都用 Q4_K_M**——它是 Ollama 默认值,在保持高推理质量的同时让每 GB 容纳最多的模型。除非有特定理由,否则就选它。

**仅在有富余显存时使用 Q8_0**——它使占用大约翻倍,换来的质量提升微乎其微,几乎不会改变推理答案。在 24 GB 显卡上运行 14B 时值得,其他情况意义不大。

**本地请跳过 FP16**——它约为 Q4_K_M 大小的 4 倍,会把 32B 推到 64 GB 级别的硬件上,相比 Q8_0 却没有实际的推理收益。

V3 与 R1:不要混淆

**DeepSeek-V3 是对话模型;DeepSeek-R1(以及这些 distill)是推理模型。** 此表仅针对 R1 推理系列。如果你要找的是 V3,它是一款 671B MoE 对话模型,同样无法在消费级硬件上运行——参见 [DeepSeek V3 硬件速览](/prompt-bites/deepseek-v3-local-hardware-requirements)。

相关指南

常见问题

DeepSeek-R1-Distill-Qwen-32B 的显存是多少?
在 Q4_K_M 下约为 20.5 GB,可装入 24 GB 的 RTX 4090,但留给长上下文的空间很小。Q8_0 下需要 ~35 GB,FP16 下需要 ~64 GB。
Q8_0 相比 Q4_K_M 增加多少?
大约 2 倍显存。对于大多数推理任务,质量提升微乎其微,因此除非有富余显存,否则 Q4_K_M 是更好的默认选择。
我能在单块 GPU 上运行 70B distill 吗?
不能。约 42 GB(Q4_K_M)超过了任何单块消费级显卡。请使用两块 24 GB GPU 或一块 48 GB 工作站显卡。
完整的 DeepSeek-R1 在此表中吗?
不在。完整的 671B R1 在 Q4 下需要 ~376–404 GB,仅限数据中心。此速查表涵盖可在消费级硬件上运行的 distill(1.5B–70B)。