关键要点
- 你无法在家里运行完整的 671B DeepSeek-R1——它在 Q4 下需要约 376–404 GB VRAM(仅限数据中心)。你运行的是它的某个蒸馏版。
- 共有 6 个官方蒸馏版:1.5B、7B、14B、32B(Qwen2.5 基座)以及 8B、70B(Llama 3 基座)。
- 甜点档:16 GB GPU 上的 DeepSeek-R1-Distill-Qwen-14B——Q4_K_M 下约 9 GB,多步数学能力强。
- 最佳单 GPU 推理器:32B 蒸馏版在多项推理基准上击败 OpenAI o1-mini;它在 24 GB 上略显吃紧。
- 最佳小型模型:DeepSeek-R1-0528-Qwen3-8B 在 AIME 2024 上领跑开源 8B 模型,并能装进一张 8 GB 显卡。
- 所有蒸馏版都可用一条命令安装,例如 `ollama run deepseek-r1:14b`(默认 Q4_K_M)。
- 将温度设为 0.6 并且不使用系统提示——把所有指令放进用户提示中,以避免 R1 的重复故障。
- 本页只对推理(数学、逻辑、多步)排名。编程请参阅 DeepSeek vs Qwen 编程指南。
什么是本地推理模型?
推理模型是一种经过训练、会在给出最终答案前先产出显式思维链的 LLM,这使它在数学、逻辑和多步问题上远强于同等规模的标准聊天模型。 DeepSeek-R1 蒸馏版就是推理模型:它们会在回复中“出声思考”,在确定答案前检查并修正各个步骤。
代价是延迟与冗长。推理模型会花费额外的 token 来推演问题,因此单个答案可能耗时数秒、并产生数百个可见的推理 token。对于一道数学证明题或逻辑谜题,这正是你想要的;但对于一次快速的事实查询,这就是浪费时间。
让人混淆的区别在于:DeepSeek-V3 是聊天模型,DeepSeek-R1 才是推理模型。它们共享架构血缘,但针对不同任务进行了调优。如果你想要对话式回答,用 V3;如果你想要逐步的问题求解,用 R1 或它的某个蒸馏版。我们在 DeepSeek-R1 与各蒸馏版对比 中详细说明了蒸馏究竟保留了什么、又损失了什么。
若想更深入了解如何运行这些模型,可从 2026 本地 LLM 硬件指南 和 LLM 量化详解 入手,它们涵盖了本指南所依赖的 VRAM 计算。
📍 简单一句话
本地推理模型是一种在回答前先写出显式思维链的 LLM,这让它在数学和逻辑上比同等规模的聊天模型更强。
💬 简单来说
把推理模型想象成一个会展示解题过程的学生。它更慢、写得更多,但在多步问题上比脱口而出答案的模型正确率高得多。
6 个 DeepSeek-R1 蒸馏版速览
DeepSeek 发布了 R1 的六个官方蒸馏版,每个都是通过在一个现有的开源基座模型上、用来自完整 671B R1 的推理轨迹进行微调而成。四个使用 Qwen2.5 基座(1.5B、7B、14B、32B),两个使用 Llama 3 基座(8B、70B)。下方的 VRAM 数据针对 Ollama 默认的 Q4_K_M 量化。
📍 简单一句话
DeepSeek-R1 有六个官方蒸馏版,从 1.5B 到 70B,基于 Qwen2.5 和 Llama 3 基座,其中 14B 模型是 16 GB GPU 的最佳平衡之选。
| 蒸馏版 | 基座模型 | 文件大小(Q4_K_M) | 最低 VRAM | 最适合 |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5 1.5B | ~1.1 GB | 4 GB / CPU | 边缘设备、快速测试 |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5 7B | ~4.7 GB | 8 GB | 入门 GPU,AIME 2024 得 55.5% |
| DeepSeek-R1-Distill-Llama-8B | Llama 3 8B | ~4.9 GB | 8 GB | Llama 许可证工作流 |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5 14B | ~9 GB | 16 GB | 综合平衡最佳 |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5 32B | ~18–20 GB | 24 GB | 击败 o1-mini,最佳单 GPU |
| DeepSeek-R1-Distill-Llama-70B | Llama 3 70B | ~40 GB | 双 GPU / 48 GB | 最强蒸馏版,最高精度 |
DeepSeek-R1-Distill-Llama-8B 同时受 Llama 3 许可证和 MIT 许可证约束。基于 Qwen 的蒸馏版继承 Qwen 许可。商用前请务必查看许可证。
最佳小型推理蒸馏版:DeepSeek-R1-0528-Qwen3-8B
DeepSeek-R1-0528-Qwen3-8B 是你能在 8 GB GPU 上运行的最强小型推理模型,它从更新后的 R1-0528 蒸馏到 Qwen3 8B 基座上。 它在 AIME 2024 上领跑开源 8B 模型,并在该基准上比基座 Qwen3 8B 高出大约 10 个百分点——对于这个规模的数学和逻辑来说,这是一次有意义的跃升。
当你想要最佳的小模型精度、而硬件上限只有 8 GB 时,就选它而非原始的 7B 和 8B 蒸馏版。它适配同一个 RTX 3060 12GB 档位,在 Q4_K_M 下约占 5 GB。对于大多数看重推理质量胜过纯速度的笔记本和入门 GPU 用户来说,这就是首选起步模型。
💬 简单来说
如果你的 GPU 有 8 GB,更新的 R1-0528-Qwen3-8B 是最聪明的小型推理模型——它用了比原始蒸馏版更好的基座,在竞赛数学上得分更高。
DeepSeek-R1 蒸馏版按硬件档位排名
选择你的 VRAM 所能支持的最高档位。参数越多意味着推理越好,但前提是模型能装下而不溢出到系统内存(那会让速度崩溃)。用这个排名把蒸馏版与你拥有或打算购买的 GPU 匹配起来。
DeepSeek-R1 蒸馏版在推理基准上得分如何?
这些是推理基准——AIME 2024(竞赛数学)、MATH-500(混合数学)和 GPQA Diamond(研究生级科学问答)。它们衡量的是逐步问题求解,而非编程。主要结论:32B 蒸馏版在其中多项上击败 OpenAI o1-mini,而 7B 蒸馏版在 AIME 2024 上取得 55.5%——这是任何同等规模聊天模型都达不到的分数。
📍 简单一句话
DeepSeek-R1-Distill-Qwen-32B 在多项推理基准上击败 OpenAI o1-mini,而 7B 蒸馏版在 AIME 2024 上得分 55.5%。
| 蒸馏版 | AIME 2024 | 推理档位 | 备注 |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | 55.5% | 7B 中表现强 | 最佳入门 GPU 推理器 |
| DeepSeek-R1-0528-Qwen3-8B | 领跑开源 8B | 最佳小型 | 比基座 Qwen3 8B 约高 +10 分 |
| DeepSeek-R1-Distill-Qwen-14B | 高于 7B | 最佳平衡 | 16 GB 甜点档 |
| DeepSeek-R1-Distill-Qwen-32B | 单 GPU 之首 | 击败 o1-mini | 最佳 24 GB 推理器 |
| DeepSeek-R1-Distill-Llama-70B | 六者中最高 | 最高 | 需要双 GPU |
在已公布的地方使用精确分数(7B = 55.5% AIME 2024),其余地方使用相对排名。基准数字会随量化和采样设置而变化;请把它们视为档位内的方向性参考,而非绝对值。
什么时候不该使用推理模型?
当任务并非推理任务时,避免使用推理模型——它们更慢、更冗长,而在简单检索或聊天上并不更准确。 改用 DeepSeek-V3 或 Llama 3.3 这样的标准聊天模型。
- 避免用于快速事实查询——可见的思维链会在聊天模型瞬间就能给出的答案上浪费 token 和时间。
- 避免用于开放式对话——推理模型是为有标准答案的问题调优的,而非为对话。
- 避免用于纯编程吞吐——代码生成请转向 DeepSeek vs Qwen 编程指南;本页只涵盖推理。
- 避免在延迟至关重要时使用——如果你需要亚秒级响应,更小的聊天模型会胜出。
- 当任务是数学、逻辑、多步规划,或任何展示解题过程能提升正确率的场景时,才使用推理模型。
配置专业提示:温度 0.6 且不用系统提示
将温度设为 0.6(0.5–0.7 区间是安全的)并且不使用系统提示——把每一条指令都放进用户提示中。 这是 DeepSeek-R1 蒸馏版最重要的单项配置。当被赋予系统提示,或温度接近 0、或高于约 0.8 时,这些模型容易陷入重复与不连贯的故障模式。
实操上:让 Ollama/LM Studio 的系统提示字段留空,把你的指令前置到用户消息中,并把温度保持在 0.6。如果你看到模型在推理中途循环或跑偏,这个设置几乎总是解药。
安装:各档位 Ollama 快速上手
每个蒸馏版都可用一条 Ollama 命令安装并运行(全部默认 Q4_K_M)。如果你还没装,请先安装 Ollama——参见 如何安装 Ollama。然后为你的档位选择命令:
ollama run deepseek-r1:1.5b # edge / CPU
ollama run deepseek-r1:7b # 8 GB VRAM
ollama run deepseek-r1:8b # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b # 16 GB VRAM — recommended
ollama run deepseek-r1:32b # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b # dual-GPU / 48 GB结论:你应该运行哪个 DeepSeek-R1 蒸馏版?
这个决定归结于你的 VRAM,以及你更看重精度还是速度。下面是每种情况的一句话答案。
挑选你的蒸馏版
Use a local LLM if:
- •16 GB GPU → DeepSeek-R1-Distill-Qwen-14B(综合最佳,默认之选)
- •24 GB GPU → DeepSeek-R1-Distill-Qwen-32B(击败 o1-mini,最佳单 GPU 推理器)
- •8 GB GPU → DeepSeek-R1-0528-Qwen3-8B(最佳小型)或 7B 蒸馏版
- •双 GPU / 48 GB → DeepSeek-R1-Distill-Llama-70B(最高精度)
Use a cloud model if:
- •你需要超越任何蒸馏版的前沿推理 → 通过 PromptQuorum 与 GPT-4o / Claude / Gemini 对比
- •你无法专门腾出一张 GPU → 托管推理 API 可能比购买硬件更便宜
Quick decision:
- →若拿不定主意,从 16 GB 显卡上的 14B 开始。
- →始终在温度 0.6、不用系统提示的设置下运行。
- →编程请用编程模型——而非推理蒸馏版。
常见问题
我能在本地运行完整的 671B DeepSeek-R1 吗?
不能。完整的 DeepSeek-R1 是一个 671B 参数的混合专家(MoE)模型(每个 token 约 37B 活跃参数),在 Q4 下需要大约 376–404 GB VRAM——只有数据中心硬件能胜任。在家里你运行的是它的某个蒸馏版(1.5B 到 70B)。存在一个 Unsloth 1.58 位构建(约 131 GB),但它以每秒约 0.3 个 token 的速度运行,这更像是个稀奇玩意儿,而非可用的方案。
哪个 DeepSeek-R1 蒸馏版综合最佳?
对大多数人来说,16 GB GPU 上的 DeepSeek-R1-Distill-Qwen-14B 在推理质量、速度和 VRAM 适配上达到最佳平衡。如果你有一张 24 GB 显卡,32B 蒸馏版更强,并在多项推理基准上击败 OpenAI o1-mini。
最佳的小型 DeepSeek 推理模型是哪个?
DeepSeek-R1-0528-Qwen3-8B。它从更新后的 R1-0528 蒸馏到 Qwen3 8B 基座上,在 AIME 2024 上领跑开源 8B 模型,并比基座 Qwen3 8B 高出约 10 分。它在 Q4_K_M 下能装进一张 8 GB GPU。
每个蒸馏版需要多少 VRAM?
在 Ollama 默认的 Q4_K_M 下:7B 需要约 8 GB(文件约 4.7 GB),14B 需要约 16 GB(文件约 9 GB),32B 需要约 24 GB(文件约 18–20 GB),70B 需要双 GPU 或 48 GB(文件约 40 GB)。FP16 大约是 Q4_K_M 大小的 4 倍;Q8_0 大约是 2 倍。
DeepSeek-R1 擅长编程吗?
本指南只对推理(数学、逻辑、多步)排名。代码生成的取舍不同——请参阅我们在 /power-local-llm/deepseek-vs-qwen-coding-local-2026 的专门对比,而不要为了编程吞吐去选一个推理蒸馏版。
DeepSeek-V3 和 DeepSeek-R1 有什么区别?
DeepSeek-V3 是为对话调优的聊天模型;DeepSeek-R1 是在回答前会产出显式思维链的推理模型。对于数学和逻辑,用 R1 或某个蒸馏版;对于通用聊天,用 V3。
为什么我的 DeepSeek-R1 蒸馏版会循环或产出乱码?
这几乎总是配置问题。把温度设为 0.6(0.5–0.7 都行)并移除任何系统提示——把所有指令放进用户消息中。R1 蒸馏版有一个已知的重复故障模式,由系统提示和极端温度触发。
我该如何安装一个 DeepSeek-R1 蒸馏版?
安装 Ollama,然后为你的档位运行一条命令,例如 `ollama run deepseek-r1:14b`。所有蒸馏版默认 Q4_K_M。完整的命令列表见上方的安装小节。
8B 蒸馏版的许可证不同吗?
是的。DeepSeek-R1-Distill-Llama-8B 因其基座是 Llama 3,所以在 MIT 之外还附带 Llama 3 许可证。基于 Qwen 的蒸馏版(1.5B、7B、14B、32B)继承 Qwen 许可。商用前请查看许可证。
做推理我该买 RTX 4060 Ti 16GB 还是 RTX 4090?
如果你的预算允许 RTX 4090,并且你想运行 32B 蒸馏版(它击败 o1-mini),就买 4090。如果你想要最佳性价比,且 14B 蒸馏版已能满足你的需求,那么约 $420 的 RTX 4060 Ti 16GB 是更明智的选择。
更新日志
- 发布于 2026-06-19。下次审阅到期 2026-12-19(半年度新鲜度档)。
- 涵盖 6 个官方 DeepSeek-R1 蒸馏版以及 DeepSeek-R1-0528-Qwen3-8B。已对照截至 2026 年 6 月已公布的 AIME 2024 分数和 Q4_K_M VRAM 数据进行核实。