Skip to main content
PromptQuorumPromptQuorum

Melhor destilação DeepSeek para sua GPU (2026)

Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.

Resposta rápida

Encontre sua placa: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B ou 32B, RTX 4090 → 32B, GPU duplo/48 GB → 70B. Para o melhor modelo pequeno em 8 GB, rode a DeepSeek-R1-0528-Qwen3-8B. Cada um roda com um único comando Ollama em Q4_K_M.

  • RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
  • RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recomendado)
  • RTX 4070 / 4080 → deepseek-r1:14b ou :32b — 14B ~40–50, 32B ~15–20 tok/s
  • RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, supera a o1-mini
  • GPU duplo / 48 GB → deepseek-r1:70b — ~12–18 tok/s
  • Placa de 8 GB, melhor pequeno → DeepSeek-R1-0528-Qwen3-8B

Atualizado: 2026-06-19

Quantization & VRAMIntermediário

Pontos principais

  • RTX 3060 12GB → destilação 7B; RTX 4060 Ti 16GB → 14B (o ponto ideal); RTX 4090 → 32B (supera a o1-mini).
  • GPU duplo ou 48 GB → destilação 70B, a mais forte das seis.
  • Em 8 GB, o melhor modelo pequeno é a DeepSeek-R1-0528-Qwen3-8B.
  • Cada modelo é instalado em Q4_K_M com um comando, por exemplo `ollama run deepseek-r1:14b`.
  • Defina a temperatura em 0.6 e não use system prompt para evitar falhas de repetição da R1.
  • Esta é a família de raciocínio R1 — não a DeepSeek-V3, que é um modelo de chat.

GPU → destilação DeepSeek-R1 → comando Ollama

Encontre a GPU que você possui na primeira coluna e leia a linha. Os números de tok/s são aproximados para cargas de raciocínio Q4_K_M e variam conforme o comprimento do contexto e os ajustes de amostragem. Quando dois modelos cabem, o maior raciocina melhor; o menor é mais rápido.

GPU (VRAM)Melhor destilaçãoComando Ollamatok/s esperado
RTX 3060 12GB (faixa 8 GB)DeepSeek-R1-Distill-Qwen-7Bollama run deepseek-r1:7b~30–40
8 GB, melhor pequenoDeepSeek-R1-0528-Qwen3-8Bollama run deepseek-r1-0528-qwen3:8b~30–40
RTX 4060 Ti 16GBDeepSeek-R1-Distill-Qwen-14Bollama run deepseek-r1:14b~25–35
RTX 4070 / 408014B (rápido) ou 32B (se 16 GB+)ollama run deepseek-r1:14b14B ~40–50
RTX 4090 24GBDeepSeek-R1-Distill-Qwen-32Bollama run deepseek-r1:32b~30–40
GPU duplo / 48 GBDeepSeek-R1-Distill-Llama-70Bollama run deepseek-r1:70b~12–18

Como usar esta tabela em 3 passos

Três linhas: (1) encontre sua GPU e sua VRAM, (2) rode o comando Ollama correspondente, (3) defina a temperatura em 0.6 e limpe o system prompt. Se um modelo estiver lento demais, desça um nível; se sobrar VRAM, suba um nível para um raciocínio melhor.

V3 vs R1: esta tabela é só de R1

**A DeepSeek-R1 é a família de raciocínio que estes comandos instalam; a DeepSeek-V3 é um modelo de chat separado.** Não espere uma experiência V3 dessas destilações — elas são ajustadas para mostrar raciocínio passo a passo em matemática e lógica. A V3 também é um MoE de 671B e não roda em hardware de consumo; veja a [ficha de hardware da DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guias relacionados

Perguntas frequentes

Qual destilação DeepSeek roda em uma RTX 4090?
DeepSeek-R1-Distill-Qwen-32B. Em Q4_K_M ela precisa de ~20.5 GB, cabe em uma RTX 4090 de 24 GB (apertado no contexto) e supera a OpenAI o1-mini em vários benchmarks de raciocínio. Comando: `ollama run deepseek-r1:32b`.
Qual é a melhor destilação DeepSeek para uma GPU de 8 GB?
A DeepSeek-R1-0528-Qwen3-8B é a melhor destilação de raciocínio pequena e cabe em 8 GB. A destilação 7B original (`ollama run deepseek-r1:7b`) é a alternativa bem suportada.
Por que minha destilação está lenta?
Geralmente é transbordamento de VRAM — se o modelo não cabe, ele transborda para a RAM do sistema e a taxa de geração despenca. Desça um nível (por exemplo 32B → 14B) para que o modelo caiba inteiro na VRAM.
Preciso escolher uma quantização?
Não. Os comandos `ollama run deepseek-r1:` usam Q4_K_M por padrão, o melhor equilíbrio entre tamanho e qualidade. Veja a tabela de VRAM se quiser os números de Q8_0 ou FP16.

Quer a análise completa?

Ler o guia completo →

Prompt Bites relacionados