Skip to main content
PromptQuorumPromptQuorum

Tabela de VRAM do DeepSeek-R1 Distill (2026)

Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.

Resposta rápida

No Q4_K_M (padrão do Ollama): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. O Q8_0 é cerca de 2× o tamanho do Q4_K_M e o FP16 cerca de 4×, então o 32B em FP16 precisa de uma configuração da classe de 64 GB.

  • 1.5B: arquivo ~1.1 GB, ~4 GB de VRAM (ou CPU) no Q4_K_M
  • 7B: arquivo ~4.7 GB, ~5.5 GB de VRAM — RTX 3060 12GB
  • 14B: arquivo ~9 GB, ~9.5 GB de VRAM — RTX 4060 Ti 16GB
  • 32B: arquivo ~19 GB, ~20.5 GB de VRAM — RTX 4090 24GB (apertado)
  • 70B: arquivo ~40 GB, ~42 GB de VRAM — duas GPUs ou 48 GB
  • Regra: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M

Atualizado: 2026-06-19

Quantization & VRAMIntermediário

Pontos principais

  • VRAM no Q4_K_M (padrão do Ollama): 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
  • O Q8_0 é cerca de 2× o tamanho do Q4_K_M; o FP16 cerca de 4× o tamanho do arquivo Q4_K_M.
  • O 14B no Q4_K_M (~9.5 GB) é o ponto ideal — cabe em uma placa de 16 GB com folga de contexto.
  • O 32B no Q4_K_M (~20.5 GB) fica apertado em uma RTX 4090 de 24 GB; reduza para uma quantização menor para contexto mais longo.
  • O DeepSeek-R1 completo de 671B não está nesta tabela — ele precisa de ~376–404 GB no Q4 (apenas data center).
  • Estes são distills de raciocínio R1, não o DeepSeek-V3 (um modelo de chat).

VRAM do DeepSeek-R1 Distill por quantização

Os valores de VRAM incluem uma pequena folga para contexto e cache KV além do tamanho bruto do arquivo. O Q4_K_M é o padrão do Ollama e o melhor equilíbrio entre tamanho e qualidade para raciocínio. Use o Q8_0 apenas se tiver VRAM sobrando e quiser um ganho marginal de qualidade; o FP16 raramente vale a pena localmente.

DistillQ4_K_M (VRAM)Q8_0 (VRAM)FP16 (VRAM)GPU mínima (Q4_K_M)
1.5B~4 GB~5 GB~6 GBQualquer GPU de 4 GB / CPU
7B (Qwen2.5)~5.5 GB~9.5 GB~16 GBRTX 3060 12GB
8B (Llama 3)~6 GB~10 GB~17 GBRTX 3060 12GB
14B (Qwen2.5)~9.5 GB~16 GB~29 GBRTX 4060 Ti 16GB
32B (Qwen2.5)~20.5 GB~35 GB~64 GBRTX 4090 24GB (apertado)
70B (Llama 3)~42 GB~74 GB~140 GBDuas GPUs / 48 GB

Qual quantização você deve escolher?

**Use o Q4_K_M para quase tudo** — é o padrão do Ollama e mantém alta a qualidade de raciocínio enquanto acomoda o maior número de modelos por GB. Escolha-o a menos que tenha um motivo específico para não fazê-lo.

**Use o Q8_0 apenas com VRAM sobrando** — ele praticamente dobra o consumo em troca de um ganho marginal de qualidade que raramente muda uma resposta de raciocínio. Vale a pena em uma placa de 24 GB rodando o 14B, e pouco mais.

**Pule o FP16 localmente** — com cerca de 4× o tamanho do Q4_K_M, ele empurra o 32B para hardware da classe de 64 GB sem benefício prático de raciocínio em relação ao Q8_0.

V3 vs R1: não confunda

**O DeepSeek-V3 é um modelo de chat; o DeepSeek-R1 (e estes distills) são modelos de raciocínio.** Esta tabela é só para a família de raciocínio R1. Se você procura o V3, ele é um modelo de chat MoE de 671B que também não roda em hardware de consumo — veja a [análise de hardware do DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guias relacionados

Perguntas frequentes

Qual é a VRAM do DeepSeek-R1-Distill-Qwen-32B?
Cerca de 20.5 GB no Q4_K_M, o que cabe em uma RTX 4090 de 24 GB, mas deixa pouco espaço para contexto longo. No Q8_0 ele precisa de ~35 GB e no FP16 de ~64 GB.
Quanto o Q8_0 adiciona em relação ao Q4_K_M?
Cerca de 2× a VRAM. Para a maioria das tarefas de raciocínio o ganho de qualidade é marginal, então o Q4_K_M é o melhor padrão, a menos que você tenha VRAM sobrando.
Posso rodar o distill de 70B em uma única GPU?
Não. Com ~42 GB (Q4_K_M), ele ultrapassa qualquer placa de consumo individual. Use duas GPUs de 24 GB ou uma placa de estação de trabalho de 48 GB.
O DeepSeek-R1 completo está nesta tabela?
Não. O R1 completo de 671B precisa de ~376–404 GB no Q4 e é apenas para data center. Esta tabela cobre os distills que rodam em hardware de consumo (1.5B–70B).

Quer a análise completa?

Ler o guia completo →

Prompt Bites relacionados