Tabela de VRAM do DeepSeek-R1 Distill (2026)

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.

Resposta rápida

No Q4_K_M (padrão do Ollama): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. O Q8_0 é cerca de 2× o tamanho do Q4_K_M e o FP16 cerca de 4×, então o 32B em FP16 precisa de uma configuração da classe de 64 GB.

▸1.5B: arquivo ~1.1 GB, ~4 GB de VRAM (ou CPU) no Q4_K_M
▸7B: arquivo ~4.7 GB, ~5.5 GB de VRAM — RTX 3060 12GB
▸14B: arquivo ~9 GB, ~9.5 GB de VRAM — RTX 4060 Ti 16GB
▸32B: arquivo ~19 GB, ~20.5 GB de VRAM — RTX 4090 24GB (apertado)
▸70B: arquivo ~40 GB, ~42 GB de VRAM — duas GPUs ou 48 GB
▸Regra: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M

Atualizado: 2026-06-19

Quantization & VRAMIntermediário

Pontos principais

✓VRAM no Q4_K_M (padrão do Ollama): 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
✓O Q8_0 é cerca de 2× o tamanho do Q4_K_M; o FP16 cerca de 4× o tamanho do arquivo Q4_K_M.
✓O 14B no Q4_K_M (~9.5 GB) é o ponto ideal — cabe em uma placa de 16 GB com folga de contexto.
✓O 32B no Q4_K_M (~20.5 GB) fica apertado em uma RTX 4090 de 24 GB; reduza para uma quantização menor para contexto mais longo.
✓O DeepSeek-R1 completo de 671B não está nesta tabela — ele precisa de ~376–404 GB no Q4 (apenas data center).
✓Estes são distills de raciocínio R1, não o DeepSeek-V3 (um modelo de chat).

VRAM do DeepSeek-R1 Distill por quantização

Os valores de VRAM incluem uma pequena folga para contexto e cache KV além do tamanho bruto do arquivo. O Q4_K_M é o padrão do Ollama e o melhor equilíbrio entre tamanho e qualidade para raciocínio. Use o Q8_0 apenas se tiver VRAM sobrando e quiser um ganho marginal de qualidade; o FP16 raramente vale a pena localmente.

Distill	Q4_K_M (VRAM)	Q8_0 (VRAM)	FP16 (VRAM)	GPU mínima (Q4_K_M)
1.5B	~4 GB	~5 GB	~6 GB	Qualquer GPU de 4 GB / CPU
7B (Qwen2.5)	~5.5 GB	~9.5 GB	~16 GB	RTX 3060 12GB
8B (Llama 3)	~6 GB	~10 GB	~17 GB	RTX 3060 12GB
14B (Qwen2.5)	~9.5 GB	~16 GB	~29 GB	RTX 4060 Ti 16GB
32B (Qwen2.5)	~20.5 GB	~35 GB	~64 GB	RTX 4090 24GB (apertado)
70B (Llama 3)	~42 GB	~74 GB	~140 GB	Duas GPUs / 48 GB

RTX 3060 12GB na Amazon (link de produto · divulgado)link de produto · divulgadoRTX 4060 Ti 16GB na Amazon (link de produto · divulgado)link de produto · divulgadoRTX 4090 24GB na Amazon (link de produto · divulgado)link de produto · divulgado

Qual quantização você deve escolher?

**Use o Q4_K_M para quase tudo** — é o padrão do Ollama e mantém alta a qualidade de raciocínio enquanto acomoda o maior número de modelos por GB. Escolha-o a menos que tenha um motivo específico para não fazê-lo.

**Use o Q8_0 apenas com VRAM sobrando** — ele praticamente dobra o consumo em troca de um ganho marginal de qualidade que raramente muda uma resposta de raciocínio. Vale a pena em uma placa de 24 GB rodando o 14B, e pouco mais.

**Pule o FP16 localmente** — com cerca de 4× o tamanho do Q4_K_M, ele empurra o 32B para hardware da classe de 64 GB sem benefício prático de raciocínio em relação ao Q8_0.

V3 vs R1: não confunda

**O DeepSeek-V3 é um modelo de chat; o DeepSeek-R1 (e estes distills) são modelos de raciocínio.** Esta tabela é só para a família de raciocínio R1. Se você procura o V3, ele é um modelo de chat MoE de 671B que também não roda em hardware de consumo — veja a [análise de hardware do DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guias relacionados

▸Melhor distill do DeepSeek para sua GPU — combine sua placa com um distill, além do comando do Ollama e os tok/s esperados
▸Melhor modelo de raciocínio local 2026: DeepSeek-R1 no ranking — o guia completo com ranking e benchmarks
▸Requisitos de hardware local do DeepSeek V3 — a contraparte do modelo de chat V3

Perguntas frequentes

Qual é a VRAM do DeepSeek-R1-Distill-Qwen-32B?▾

Cerca de 20.5 GB no Q4_K_M, o que cabe em uma RTX 4090 de 24 GB, mas deixa pouco espaço para contexto longo. No Q8_0 ele precisa de ~35 GB e no FP16 de ~64 GB.

Quanto o Q8_0 adiciona em relação ao Q4_K_M?▾

Cerca de 2× a VRAM. Para a maioria das tarefas de raciocínio o ganho de qualidade é marginal, então o Q4_K_M é o melhor padrão, a menos que você tenha VRAM sobrando.

Posso rodar o distill de 70B em uma única GPU?▾

Não. Com ~42 GB (Q4_K_M), ele ultrapassa qualquer placa de consumo individual. Use duas GPUs de 24 GB ou uma placa de estação de trabalho de 48 GB.

O DeepSeek-R1 completo está nesta tabela?▾

Não. O R1 completo de 671B precisa de ~376–404 GB no Q4 e é apenas para data center. Esta tabela cobre os distills que rodam em hardware de consumo (1.5B–70B).

Quer a análise completa?

Ler o guia completo →

Prompt Bites relacionados

▸Melhor destilação DeepSeek para sua GPU (2026)

← Voltar para Prompts em resumo