为你的 GPU 选择最佳 DeepSeek 蒸馏模型（2026）

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。

快速回答

找到你的显卡：RTX 3060 12GB → 7B，RTX 4060 Ti 16GB → 14B，RTX 4070/4080 → 14B 或 32B，RTX 4090 → 32B，双 GPU/48 GB → 70B。8 GB 上最佳的小型模型是 DeepSeek-R1-0528-Qwen3-8B。每个都用一条 Ollama 命令以 Q4_K_M 运行。

▸RTX 3060 12GB → deepseek-r1:7b — 约 30–40 tok/s
▸RTX 4060 Ti 16GB → deepseek-r1:14b — 约 25–35 tok/s（推荐）
▸RTX 4070 / 4080 → deepseek-r1:14b 或 :32b — 14B 约 40–50，32B 约 15–20 tok/s
▸RTX 4090 24GB → deepseek-r1:32b — 约 30–40 tok/s，超过 o1-mini
▸双 GPU / 48 GB → deepseek-r1:70b — 约 12–18 tok/s
▸8 GB 显卡，最佳小型 → DeepSeek-R1-0528-Qwen3-8B

更新于: 2026-06-19

Quantization & VRAM中级

关键要点

✓RTX 3060 12GB → 7B 蒸馏；RTX 4060 Ti 16GB → 14B（最佳平衡点）；RTX 4090 → 32B（超过 o1-mini）。
✓双 GPU 或 48 GB → 70B 蒸馏，六者中最强。
✓在 8 GB 上，最佳的小型模型是 DeepSeek-R1-0528-Qwen3-8B。
✓每个模型都以 Q4_K_M 通过一条命令安装，例如 `ollama run deepseek-r1:14b`。
✓将 temperature 设为 0.6 且不使用 system prompt，以避免 R1 的重复故障。
✓这是 R1 推理家族——不是聊天模型 DeepSeek-V3。

GPU → DeepSeek-R1 蒸馏模型 → Ollama 命令

在第一列找到你拥有的 GPU 并横向阅读。tok/s 数值为 Q4_K_M 推理工作负载的近似值，会随上下文长度和采样设置而变化。当两个模型都能装下时，较大的推理更好，较小的更快。

GPU (VRAM)	最佳蒸馏	Ollama 命令	预期 tok/s
RTX 3060 12GB（8 GB 档）	DeepSeek-R1-Distill-Qwen-7B	ollama run deepseek-r1:7b	~30–40
8 GB，最佳小型	DeepSeek-R1-0528-Qwen3-8B	ollama run deepseek-r1-0528-qwen3:8b	~30–40
RTX 4060 Ti 16GB	DeepSeek-R1-Distill-Qwen-14B	ollama run deepseek-r1:14b	~25–35
RTX 4070 / 4080	14B（快）或 32B（16 GB 以上）	ollama run deepseek-r1:14b	14B ~40–50
RTX 4090 24GB	DeepSeek-R1-Distill-Qwen-32B	ollama run deepseek-r1:32b	~30–40
双 GPU / 48 GB	DeepSeek-R1-Distill-Llama-70B	ollama run deepseek-r1:70b	~12–18

在 Amazon 上购买 RTX 3060 12GB（产品链接·已披露）产品链接 · 已披露在 Amazon 上购买 RTX 4060 Ti 16GB（产品链接·已披露）产品链接 · 已披露在 Amazon 上购买 RTX 4070（产品链接·已披露）产品链接 · 已披露在 Amazon 上购买 RTX 4090 24GB（产品链接·已披露）产品链接 · 已披露

如何分 3 步使用此表

三行：(1) 找到你的 GPU 及其 VRAM，(2) 运行对应的 Ollama 命令，(3) 将 temperature 设为 0.6 并清空 system prompt。如果模型太慢，下降一档；如果还有富余 VRAM，上升一档以获得更好的推理。

V3 与 R1：此表仅针对 R1

**DeepSeek-R1 是这些命令安装的推理家族；DeepSeek-V3 是另一个独立的聊天模型。** 不要指望这些蒸馏模型提供 V3 体验——它们经过调优以展示数学和逻辑的逐步推理。此外 V3 是 671B MoE，无法在消费级硬件上运行；参见 [DeepSeek V3 硬件简报](/prompt-bites/deepseek-v3-local-hardware-requirements)。

常见问题

RTX 4090 上能运行哪个 DeepSeek 蒸馏模型？▾

DeepSeek-R1-Distill-Qwen-32B。在 Q4_K_M 下需要约 20.5 GB，可装入 24 GB 的 RTX 4090（上下文较紧），并在多项推理基准上超过 OpenAI o1-mini。命令：`ollama run deepseek-r1:32b`。

8 GB GPU 最佳的 DeepSeek 蒸馏模型是什么？▾

DeepSeek-R1-0528-Qwen3-8B 是最强的小型推理蒸馏模型，可装入 8 GB。原始 7B 蒸馏（`ollama run deepseek-r1:7b`）是受良好支持的备选。

我的蒸馏模型为什么慢？▾

通常是 VRAM 溢出——如果模型装不下，就会溢出到系统 RAM，吞吐量随之崩溃。下降一档（例如 32B → 14B），让模型完全装入 VRAM。

我需要选择量化吗？▾

不需要。`ollama run deepseek-r1:` 命令默认使用 Q4_K_M，这是体积与质量的最佳折中。如果你想要 Q8_0 或 FP16 数据，请参阅 VRAM 速查表。

想了解完整详情？

阅读完整指南 →

为你的 GPU 选择最佳 DeepSeek 蒸馏模型（2026）

GPU → DeepSeek-R1 蒸馏模型 → Ollama 命令

如何分 3 步使用此表

V3 与 R1：此表仅针对 R1

相关指南

常见问题