DeepSeek-R1 Distill 显存速查表(2026)
本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。
快速回答
在 Q4_K_M(Ollama 默认)下:1.5B ≈ 4 GB,7B ≈ 5.5 GB,8B ≈ 6 GB,14B ≈ 9.5 GB,32B ≈ 20.5 GB,70B ≈ 42 GB。Q8_0 约为 Q4_K_M 大小的 2 倍,FP16 约为 4 倍,因此 FP16 的 32B 需要 64 GB 级别的配置。
- ▸1.5B:文件 ~1.1 GB,Q4_K_M 下 ~4 GB 显存(或 CPU)
- ▸7B:文件 ~4.7 GB,~5.5 GB 显存 — RTX 3060 12GB
- ▸14B:文件 ~9 GB,~9.5 GB 显存 — RTX 4060 Ti 16GB
- ▸32B:文件 ~19 GB,~20.5 GB 显存 — RTX 4090 24GB(紧张)
- ▸70B:文件 ~40 GB,~42 GB 显存 — 双 GPU 或 48 GB
- ▸规则:Q8_0 ≈ 2× Q4_K_M;FP16 ≈ 4× Q4_K_M
更新于: 2026-06-19
关键要点
- ✓Q4_K_M(Ollama 默认)显存:1.5B ~4 GB,7B ~5.5 GB,8B ~6 GB,14B ~9.5 GB,32B ~20.5 GB,70B ~42 GB。
- ✓Q8_0 约为 Q4_K_M 大小的 2 倍;FP16 约为 Q4_K_M 文件大小的 4 倍。
- ✓Q4_K_M 下的 14B(~9.5 GB)是最佳选择——可装入 16 GB 显卡并留有上下文余量。
- ✓Q4_K_M 下的 32B(~20.5 GB)在 24 GB 的 RTX 4090 上较为紧张;如需更长上下文请降到更小的量化。
- ✓完整的 671B DeepSeek-R1 不在此表中——它在 Q4 下需要 ~376–404 GB(仅限数据中心)。
- ✓这些是 R1 推理 distill,而非 DeepSeek-V3(一款对话模型)。
按量化等级的 DeepSeek-R1 Distill 显存
显存数值在原始文件大小之上,包含了用于上下文和 KV 缓存的少量余量。Q4_K_M 是 Ollama 默认值,也是推理任务中大小与质量的最佳平衡。仅当你有富余显存并希望获得边际质量提升时才使用 Q8_0;FP16 在本地很少值得使用。
| Distill | Q4_K_M (显存) | Q8_0 (显存) | FP16 (显存) | 最低 GPU (Q4_K_M) |
|---|---|---|---|---|
| 1.5B | ~4 GB | ~5 GB | ~6 GB | 任意 4 GB GPU / CPU |
| 7B (Qwen2.5) | ~5.5 GB | ~9.5 GB | ~16 GB | RTX 3060 12GB |
| 8B (Llama 3) | ~6 GB | ~10 GB | ~17 GB | RTX 3060 12GB |
| 14B (Qwen2.5) | ~9.5 GB | ~16 GB | ~29 GB | RTX 4060 Ti 16GB |
| 32B (Qwen2.5) | ~20.5 GB | ~35 GB | ~64 GB | RTX 4090 24GB(紧张) |
| 70B (Llama 3) | ~42 GB | ~74 GB | ~140 GB | 双 GPU / 48 GB |
应该选择哪种量化?
**几乎所有情况都用 Q4_K_M**——它是 Ollama 默认值,在保持高推理质量的同时让每 GB 容纳最多的模型。除非有特定理由,否则就选它。
**仅在有富余显存时使用 Q8_0**——它使占用大约翻倍,换来的质量提升微乎其微,几乎不会改变推理答案。在 24 GB 显卡上运行 14B 时值得,其他情况意义不大。
**本地请跳过 FP16**——它约为 Q4_K_M 大小的 4 倍,会把 32B 推到 64 GB 级别的硬件上,相比 Q8_0 却没有实际的推理收益。
V3 与 R1:不要混淆
**DeepSeek-V3 是对话模型;DeepSeek-R1(以及这些 distill)是推理模型。** 此表仅针对 R1 推理系列。如果你要找的是 V3,它是一款 671B MoE 对话模型,同样无法在消费级硬件上运行——参见 [DeepSeek V3 硬件速览](/prompt-bites/deepseek-v3-local-hardware-requirements)。
相关指南
- ▸适合你 GPU 的最佳 DeepSeek Distill — 为你的显卡匹配 distill,并附 Ollama 命令和预期 tok/s
- ▸2026 最佳本地推理模型:DeepSeek-R1 排名 — 含基准测试的完整排名指南
- ▸DeepSeek V3 本地硬件要求 — V3 对话模型的对应版本
常见问题
DeepSeek-R1-Distill-Qwen-32B 的显存是多少?▾
Q8_0 相比 Q4_K_M 增加多少?▾
我能在单块 GPU 上运行 70B distill 吗?▾
完整的 DeepSeek-R1 在此表中吗?▾
想了解完整详情?
阅读完整指南 →相关 Prompt Bites