Melhor destilação DeepSeek para sua GPU (2026)

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.

Resposta rápida

Encontre sua placa: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B ou 32B, RTX 4090 → 32B, GPU duplo/48 GB → 70B. Para o melhor modelo pequeno em 8 GB, rode a DeepSeek-R1-0528-Qwen3-8B. Cada um roda com um único comando Ollama em Q4_K_M.

▸RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
▸RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recomendado)
▸RTX 4070 / 4080 → deepseek-r1:14b ou :32b — 14B ~40–50, 32B ~15–20 tok/s
▸RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, supera a o1-mini
▸GPU duplo / 48 GB → deepseek-r1:70b — ~12–18 tok/s
▸Placa de 8 GB, melhor pequeno → DeepSeek-R1-0528-Qwen3-8B

Atualizado: 2026-06-19

Quantization & VRAMIntermediário

Pontos principais

✓RTX 3060 12GB → destilação 7B; RTX 4060 Ti 16GB → 14B (o ponto ideal); RTX 4090 → 32B (supera a o1-mini).
✓GPU duplo ou 48 GB → destilação 70B, a mais forte das seis.
✓Em 8 GB, o melhor modelo pequeno é a DeepSeek-R1-0528-Qwen3-8B.
✓Cada modelo é instalado em Q4_K_M com um comando, por exemplo `ollama run deepseek-r1:14b`.
✓Defina a temperatura em 0.6 e não use system prompt para evitar falhas de repetição da R1.
✓Esta é a família de raciocínio R1 — não a DeepSeek-V3, que é um modelo de chat.

GPU → destilação DeepSeek-R1 → comando Ollama

Encontre a GPU que você possui na primeira coluna e leia a linha. Os números de tok/s são aproximados para cargas de raciocínio Q4_K_M e variam conforme o comprimento do contexto e os ajustes de amostragem. Quando dois modelos cabem, o maior raciocina melhor; o menor é mais rápido.

GPU (VRAM)	Melhor destilação	Comando Ollama	tok/s esperado
RTX 3060 12GB (faixa 8 GB)	DeepSeek-R1-Distill-Qwen-7B	ollama run deepseek-r1:7b	~30–40
8 GB, melhor pequeno	DeepSeek-R1-0528-Qwen3-8B	ollama run deepseek-r1-0528-qwen3:8b	~30–40
RTX 4060 Ti 16GB	DeepSeek-R1-Distill-Qwen-14B	ollama run deepseek-r1:14b	~25–35
RTX 4070 / 4080	14B (rápido) ou 32B (se 16 GB+)	ollama run deepseek-r1:14b	14B ~40–50
RTX 4090 24GB	DeepSeek-R1-Distill-Qwen-32B	ollama run deepseek-r1:32b	~30–40
GPU duplo / 48 GB	DeepSeek-R1-Distill-Llama-70B	ollama run deepseek-r1:70b	~12–18

RTX 3060 12GB na Amazon (link de produto · divulgado)link de produto · divulgadoRTX 4060 Ti 16GB na Amazon (link de produto · divulgado)link de produto · divulgadoRTX 4070 na Amazon (link de produto · divulgado)link de produto · divulgadoRTX 4090 24GB na Amazon (link de produto · divulgado)link de produto · divulgado

Como usar esta tabela em 3 passos

Três linhas: (1) encontre sua GPU e sua VRAM, (2) rode o comando Ollama correspondente, (3) defina a temperatura em 0.6 e limpe o system prompt. Se um modelo estiver lento demais, desça um nível; se sobrar VRAM, suba um nível para um raciocínio melhor.

V3 vs R1: esta tabela é só de R1

**A DeepSeek-R1 é a família de raciocínio que estes comandos instalam; a DeepSeek-V3 é um modelo de chat separado.** Não espere uma experiência V3 dessas destilações — elas são ajustadas para mostrar raciocínio passo a passo em matemática e lógica. A V3 também é um MoE de 671B e não roda em hardware de consumo; veja a [ficha de hardware da DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guias relacionados

▸Tabela de VRAM das destilações DeepSeek-R1 — cada destilação por quantização (Q4_K_M, Q8, FP16) com VRAM e GPU mínima
▸Melhor modelo de raciocínio local 2026: DeepSeek-R1 classificado — o guia classificado completo com benchmarks e níveis
▸Requisitos de hardware local da DeepSeek V3 — a contraparte do modelo de chat V3

Perguntas frequentes

Qual destilação DeepSeek roda em uma RTX 4090?▾

DeepSeek-R1-Distill-Qwen-32B. Em Q4_K_M ela precisa de ~20.5 GB, cabe em uma RTX 4090 de 24 GB (apertado no contexto) e supera a OpenAI o1-mini em vários benchmarks de raciocínio. Comando: `ollama run deepseek-r1:32b`.

Qual é a melhor destilação DeepSeek para uma GPU de 8 GB?▾

A DeepSeek-R1-0528-Qwen3-8B é a melhor destilação de raciocínio pequena e cabe em 8 GB. A destilação 7B original (`ollama run deepseek-r1:7b`) é a alternativa bem suportada.

Por que minha destilação está lenta?▾

Geralmente é transbordamento de VRAM — se o modelo não cabe, ele transborda para a RAM do sistema e a taxa de geração despenca. Desça um nível (por exemplo 32B → 14B) para que o modelo caiba inteiro na VRAM.

Preciso escolher uma quantização?▾

Não. Os comandos `ollama run deepseek-r1:` usam Q4_K_M por padrão, o melhor equilíbrio entre tamanho e qualidade. Veja a tabela de VRAM se quiser os números de Q8_0 ou FP16.

Quer a análise completa?

Ler o guia completo →

Prompt Bites relacionados

▸Tabela de VRAM do DeepSeek-R1 Distill (2026)

← Voltar para Prompts em resumo