Skip to main content
PromptQuorumPromptQuorum

为你的 GPU 选择最佳 DeepSeek 蒸馏模型(2026)

本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。

快速回答

找到你的显卡:RTX 3060 12GB → 7B,RTX 4060 Ti 16GB → 14B,RTX 4070/4080 → 14B 或 32B,RTX 4090 → 32B,双 GPU/48 GB → 70B。8 GB 上最佳的小型模型是 DeepSeek-R1-0528-Qwen3-8B。每个都用一条 Ollama 命令以 Q4_K_M 运行。

  • RTX 3060 12GB → deepseek-r1:7b — 约 30–40 tok/s
  • RTX 4060 Ti 16GB → deepseek-r1:14b — 约 25–35 tok/s(推荐)
  • RTX 4070 / 4080 → deepseek-r1:14b 或 :32b — 14B 约 40–50,32B 约 15–20 tok/s
  • RTX 4090 24GB → deepseek-r1:32b — 约 30–40 tok/s,超过 o1-mini
  • 双 GPU / 48 GB → deepseek-r1:70b — 约 12–18 tok/s
  • 8 GB 显卡,最佳小型 → DeepSeek-R1-0528-Qwen3-8B

更新于: 2026-06-19

Quantization & VRAM中级

关键要点

  • RTX 3060 12GB → 7B 蒸馏;RTX 4060 Ti 16GB → 14B(最佳平衡点);RTX 4090 → 32B(超过 o1-mini)。
  • 双 GPU 或 48 GB → 70B 蒸馏,六者中最强。
  • 在 8 GB 上,最佳的小型模型是 DeepSeek-R1-0528-Qwen3-8B。
  • 每个模型都以 Q4_K_M 通过一条命令安装,例如 `ollama run deepseek-r1:14b`。
  • 将 temperature 设为 0.6 且不使用 system prompt,以避免 R1 的重复故障。
  • 这是 R1 推理家族——不是聊天模型 DeepSeek-V3。

GPU → DeepSeek-R1 蒸馏模型 → Ollama 命令

在第一列找到你拥有的 GPU 并横向阅读。tok/s 数值为 Q4_K_M 推理工作负载的近似值,会随上下文长度和采样设置而变化。当两个模型都能装下时,较大的推理更好,较小的更快。

GPU (VRAM)最佳蒸馏Ollama 命令预期 tok/s
RTX 3060 12GB(8 GB 档)DeepSeek-R1-Distill-Qwen-7Bollama run deepseek-r1:7b~30–40
8 GB,最佳小型DeepSeek-R1-0528-Qwen3-8Bollama run deepseek-r1-0528-qwen3:8b~30–40
RTX 4060 Ti 16GBDeepSeek-R1-Distill-Qwen-14Bollama run deepseek-r1:14b~25–35
RTX 4070 / 408014B(快)或 32B(16 GB 以上)ollama run deepseek-r1:14b14B ~40–50
RTX 4090 24GBDeepSeek-R1-Distill-Qwen-32Bollama run deepseek-r1:32b~30–40
双 GPU / 48 GBDeepSeek-R1-Distill-Llama-70Bollama run deepseek-r1:70b~12–18

如何分 3 步使用此表

三行:(1) 找到你的 GPU 及其 VRAM,(2) 运行对应的 Ollama 命令,(3) 将 temperature 设为 0.6 并清空 system prompt。如果模型太慢,下降一档;如果还有富余 VRAM,上升一档以获得更好的推理。

V3 与 R1:此表仅针对 R1

**DeepSeek-R1 是这些命令安装的推理家族;DeepSeek-V3 是另一个独立的聊天模型。** 不要指望这些蒸馏模型提供 V3 体验——它们经过调优以展示数学和逻辑的逐步推理。此外 V3 是 671B MoE,无法在消费级硬件上运行;参见 [DeepSeek V3 硬件简报](/prompt-bites/deepseek-v3-local-hardware-requirements)。

相关指南

常见问题

RTX 4090 上能运行哪个 DeepSeek 蒸馏模型?
DeepSeek-R1-Distill-Qwen-32B。在 Q4_K_M 下需要约 20.5 GB,可装入 24 GB 的 RTX 4090(上下文较紧),并在多项推理基准上超过 OpenAI o1-mini。命令:`ollama run deepseek-r1:32b`。
8 GB GPU 最佳的 DeepSeek 蒸馏模型是什么?
DeepSeek-R1-0528-Qwen3-8B 是最强的小型推理蒸馏模型,可装入 8 GB。原始 7B 蒸馏(`ollama run deepseek-r1:7b`)是受良好支持的备选。
我的蒸馏模型为什么慢?
通常是 VRAM 溢出——如果模型装不下,就会溢出到系统 RAM,吞吐量随之崩溃。下降一档(例如 32B → 14B),让模型完全装入 VRAM。
我需要选择量化吗?
不需要。`ollama run deepseek-r1:` 命令默认使用 Q4_K_M,这是体积与质量的最佳折中。如果你想要 Q8_0 或 FP16 数据,请参阅 VRAM 速查表。