为你的 GPU 选择最佳 DeepSeek 蒸馏模型(2026)
本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。
快速回答
找到你的显卡:RTX 3060 12GB → 7B,RTX 4060 Ti 16GB → 14B,RTX 4070/4080 → 14B 或 32B,RTX 4090 → 32B,双 GPU/48 GB → 70B。8 GB 上最佳的小型模型是 DeepSeek-R1-0528-Qwen3-8B。每个都用一条 Ollama 命令以 Q4_K_M 运行。
- ▸RTX 3060 12GB → deepseek-r1:7b — 约 30–40 tok/s
- ▸RTX 4060 Ti 16GB → deepseek-r1:14b — 约 25–35 tok/s(推荐)
- ▸RTX 4070 / 4080 → deepseek-r1:14b 或 :32b — 14B 约 40–50,32B 约 15–20 tok/s
- ▸RTX 4090 24GB → deepseek-r1:32b — 约 30–40 tok/s,超过 o1-mini
- ▸双 GPU / 48 GB → deepseek-r1:70b — 约 12–18 tok/s
- ▸8 GB 显卡,最佳小型 → DeepSeek-R1-0528-Qwen3-8B
更新于: 2026-06-19
Quantization & VRAM中级
关键要点
- ✓RTX 3060 12GB → 7B 蒸馏;RTX 4060 Ti 16GB → 14B(最佳平衡点);RTX 4090 → 32B(超过 o1-mini)。
- ✓双 GPU 或 48 GB → 70B 蒸馏,六者中最强。
- ✓在 8 GB 上,最佳的小型模型是 DeepSeek-R1-0528-Qwen3-8B。
- ✓每个模型都以 Q4_K_M 通过一条命令安装,例如 `ollama run deepseek-r1:14b`。
- ✓将 temperature 设为 0.6 且不使用 system prompt,以避免 R1 的重复故障。
- ✓这是 R1 推理家族——不是聊天模型 DeepSeek-V3。
GPU → DeepSeek-R1 蒸馏模型 → Ollama 命令
在第一列找到你拥有的 GPU 并横向阅读。tok/s 数值为 Q4_K_M 推理工作负载的近似值,会随上下文长度和采样设置而变化。当两个模型都能装下时,较大的推理更好,较小的更快。
| GPU (VRAM) | 最佳蒸馏 | Ollama 命令 | 预期 tok/s |
|---|---|---|---|
| RTX 3060 12GB(8 GB 档) | DeepSeek-R1-Distill-Qwen-7B | ollama run deepseek-r1:7b | ~30–40 |
| 8 GB,最佳小型 | DeepSeek-R1-0528-Qwen3-8B | ollama run deepseek-r1-0528-qwen3:8b | ~30–40 |
| RTX 4060 Ti 16GB | DeepSeek-R1-Distill-Qwen-14B | ollama run deepseek-r1:14b | ~25–35 |
| RTX 4070 / 4080 | 14B(快)或 32B(16 GB 以上) | ollama run deepseek-r1:14b | 14B ~40–50 |
| RTX 4090 24GB | DeepSeek-R1-Distill-Qwen-32B | ollama run deepseek-r1:32b | ~30–40 |
| 双 GPU / 48 GB | DeepSeek-R1-Distill-Llama-70B | ollama run deepseek-r1:70b | ~12–18 |
在 Amazon 上购买 RTX 3060 12GB(产品链接·已披露)产品链接 · 已披露在 Amazon 上购买 RTX 4060 Ti 16GB(产品链接·已披露)产品链接 · 已披露在 Amazon 上购买 RTX 4070(产品链接·已披露)产品链接 · 已披露在 Amazon 上购买 RTX 4090 24GB(产品链接·已披露)产品链接 · 已披露
如何分 3 步使用此表
三行:(1) 找到你的 GPU 及其 VRAM,(2) 运行对应的 Ollama 命令,(3) 将 temperature 设为 0.6 并清空 system prompt。如果模型太慢,下降一档;如果还有富余 VRAM,上升一档以获得更好的推理。
V3 与 R1:此表仅针对 R1
**DeepSeek-R1 是这些命令安装的推理家族;DeepSeek-V3 是另一个独立的聊天模型。** 不要指望这些蒸馏模型提供 V3 体验——它们经过调优以展示数学和逻辑的逐步推理。此外 V3 是 671B MoE,无法在消费级硬件上运行;参见 [DeepSeek V3 硬件简报](/prompt-bites/deepseek-v3-local-hardware-requirements)。
相关指南
- ▸DeepSeek-R1 蒸馏 VRAM 速查表 — 按量化(Q4_K_M、Q8、FP16)列出每个蒸馏模型及 VRAM 和最低 GPU
- ▸2026 最佳本地推理模型:DeepSeek-R1 排名 — 含基准和分级的完整排名指南
- ▸DeepSeek V3 本地硬件要求 — V3 聊天模型对应版
常见问题
RTX 4090 上能运行哪个 DeepSeek 蒸馏模型?▾
DeepSeek-R1-Distill-Qwen-32B。在 Q4_K_M 下需要约 20.5 GB,可装入 24 GB 的 RTX 4090(上下文较紧),并在多项推理基准上超过 OpenAI o1-mini。命令:`ollama run deepseek-r1:32b`。
8 GB GPU 最佳的 DeepSeek 蒸馏模型是什么?▾
DeepSeek-R1-0528-Qwen3-8B 是最强的小型推理蒸馏模型,可装入 8 GB。原始 7B 蒸馏(`ollama run deepseek-r1:7b`)是受良好支持的备选。
我的蒸馏模型为什么慢?▾
通常是 VRAM 溢出——如果模型装不下,就会溢出到系统 RAM,吞吐量随之崩溃。下降一档(例如 32B → 14B),让模型完全装入 VRAM。
我需要选择量化吗?▾
不需要。`ollama run deepseek-r1:` 命令默认使用 Q4_K_M,这是体积与质量的最佳折中。如果你想要 Q8_0 或 FP16 数据,请参阅 VRAM 速查表。
想了解完整详情?
阅读完整指南 →相关 Prompt Bites