Melhor destilação DeepSeek para sua GPU (2026)
Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.
Resposta rápida
Encontre sua placa: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B ou 32B, RTX 4090 → 32B, GPU duplo/48 GB → 70B. Para o melhor modelo pequeno em 8 GB, rode a DeepSeek-R1-0528-Qwen3-8B. Cada um roda com um único comando Ollama em Q4_K_M.
- ▸RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
- ▸RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recomendado)
- ▸RTX 4070 / 4080 → deepseek-r1:14b ou :32b — 14B ~40–50, 32B ~15–20 tok/s
- ▸RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, supera a o1-mini
- ▸GPU duplo / 48 GB → deepseek-r1:70b — ~12–18 tok/s
- ▸Placa de 8 GB, melhor pequeno → DeepSeek-R1-0528-Qwen3-8B
Atualizado: 2026-06-19
Pontos principais
- ✓RTX 3060 12GB → destilação 7B; RTX 4060 Ti 16GB → 14B (o ponto ideal); RTX 4090 → 32B (supera a o1-mini).
- ✓GPU duplo ou 48 GB → destilação 70B, a mais forte das seis.
- ✓Em 8 GB, o melhor modelo pequeno é a DeepSeek-R1-0528-Qwen3-8B.
- ✓Cada modelo é instalado em Q4_K_M com um comando, por exemplo `ollama run deepseek-r1:14b`.
- ✓Defina a temperatura em 0.6 e não use system prompt para evitar falhas de repetição da R1.
- ✓Esta é a família de raciocínio R1 — não a DeepSeek-V3, que é um modelo de chat.
GPU → destilação DeepSeek-R1 → comando Ollama
Encontre a GPU que você possui na primeira coluna e leia a linha. Os números de tok/s são aproximados para cargas de raciocínio Q4_K_M e variam conforme o comprimento do contexto e os ajustes de amostragem. Quando dois modelos cabem, o maior raciocina melhor; o menor é mais rápido.
| GPU (VRAM) | Melhor destilação | Comando Ollama | tok/s esperado |
|---|---|---|---|
| RTX 3060 12GB (faixa 8 GB) | DeepSeek-R1-Distill-Qwen-7B | ollama run deepseek-r1:7b | ~30–40 |
| 8 GB, melhor pequeno | DeepSeek-R1-0528-Qwen3-8B | ollama run deepseek-r1-0528-qwen3:8b | ~30–40 |
| RTX 4060 Ti 16GB | DeepSeek-R1-Distill-Qwen-14B | ollama run deepseek-r1:14b | ~25–35 |
| RTX 4070 / 4080 | 14B (rápido) ou 32B (se 16 GB+) | ollama run deepseek-r1:14b | 14B ~40–50 |
| RTX 4090 24GB | DeepSeek-R1-Distill-Qwen-32B | ollama run deepseek-r1:32b | ~30–40 |
| GPU duplo / 48 GB | DeepSeek-R1-Distill-Llama-70B | ollama run deepseek-r1:70b | ~12–18 |
Como usar esta tabela em 3 passos
Três linhas: (1) encontre sua GPU e sua VRAM, (2) rode o comando Ollama correspondente, (3) defina a temperatura em 0.6 e limpe o system prompt. Se um modelo estiver lento demais, desça um nível; se sobrar VRAM, suba um nível para um raciocínio melhor.
V3 vs R1: esta tabela é só de R1
**A DeepSeek-R1 é a família de raciocínio que estes comandos instalam; a DeepSeek-V3 é um modelo de chat separado.** Não espere uma experiência V3 dessas destilações — elas são ajustadas para mostrar raciocínio passo a passo em matemática e lógica. A V3 também é um MoE de 671B e não roda em hardware de consumo; veja a [ficha de hardware da DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).
Guias relacionados
- ▸Tabela de VRAM das destilações DeepSeek-R1 — cada destilação por quantização (Q4_K_M, Q8, FP16) com VRAM e GPU mínima
- ▸Melhor modelo de raciocínio local 2026: DeepSeek-R1 classificado — o guia classificado completo com benchmarks e níveis
- ▸Requisitos de hardware local da DeepSeek V3 — a contraparte do modelo de chat V3
Perguntas frequentes
Qual destilação DeepSeek roda em uma RTX 4090?▾
Qual é a melhor destilação DeepSeek para uma GPU de 8 GB?▾
Por que minha destilação está lenta?▾
Preciso escolher uma quantização?▾
Quer a análise completa?
Ler o guia completo →Prompt Bites relacionados