Tabela de VRAM do DeepSeek-R1 Distill (2026)
Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.
Resposta rápida
No Q4_K_M (padrão do Ollama): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. O Q8_0 é cerca de 2× o tamanho do Q4_K_M e o FP16 cerca de 4×, então o 32B em FP16 precisa de uma configuração da classe de 64 GB.
- ▸1.5B: arquivo ~1.1 GB, ~4 GB de VRAM (ou CPU) no Q4_K_M
- ▸7B: arquivo ~4.7 GB, ~5.5 GB de VRAM — RTX 3060 12GB
- ▸14B: arquivo ~9 GB, ~9.5 GB de VRAM — RTX 4060 Ti 16GB
- ▸32B: arquivo ~19 GB, ~20.5 GB de VRAM — RTX 4090 24GB (apertado)
- ▸70B: arquivo ~40 GB, ~42 GB de VRAM — duas GPUs ou 48 GB
- ▸Regra: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M
Atualizado: 2026-06-19
Pontos principais
- ✓VRAM no Q4_K_M (padrão do Ollama): 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
- ✓O Q8_0 é cerca de 2× o tamanho do Q4_K_M; o FP16 cerca de 4× o tamanho do arquivo Q4_K_M.
- ✓O 14B no Q4_K_M (~9.5 GB) é o ponto ideal — cabe em uma placa de 16 GB com folga de contexto.
- ✓O 32B no Q4_K_M (~20.5 GB) fica apertado em uma RTX 4090 de 24 GB; reduza para uma quantização menor para contexto mais longo.
- ✓O DeepSeek-R1 completo de 671B não está nesta tabela — ele precisa de ~376–404 GB no Q4 (apenas data center).
- ✓Estes são distills de raciocínio R1, não o DeepSeek-V3 (um modelo de chat).
VRAM do DeepSeek-R1 Distill por quantização
Os valores de VRAM incluem uma pequena folga para contexto e cache KV além do tamanho bruto do arquivo. O Q4_K_M é o padrão do Ollama e o melhor equilíbrio entre tamanho e qualidade para raciocínio. Use o Q8_0 apenas se tiver VRAM sobrando e quiser um ganho marginal de qualidade; o FP16 raramente vale a pena localmente.
| Distill | Q4_K_M (VRAM) | Q8_0 (VRAM) | FP16 (VRAM) | GPU mínima (Q4_K_M) |
|---|---|---|---|---|
| 1.5B | ~4 GB | ~5 GB | ~6 GB | Qualquer GPU de 4 GB / CPU |
| 7B (Qwen2.5) | ~5.5 GB | ~9.5 GB | ~16 GB | RTX 3060 12GB |
| 8B (Llama 3) | ~6 GB | ~10 GB | ~17 GB | RTX 3060 12GB |
| 14B (Qwen2.5) | ~9.5 GB | ~16 GB | ~29 GB | RTX 4060 Ti 16GB |
| 32B (Qwen2.5) | ~20.5 GB | ~35 GB | ~64 GB | RTX 4090 24GB (apertado) |
| 70B (Llama 3) | ~42 GB | ~74 GB | ~140 GB | Duas GPUs / 48 GB |
Qual quantização você deve escolher?
**Use o Q4_K_M para quase tudo** — é o padrão do Ollama e mantém alta a qualidade de raciocínio enquanto acomoda o maior número de modelos por GB. Escolha-o a menos que tenha um motivo específico para não fazê-lo.
**Use o Q8_0 apenas com VRAM sobrando** — ele praticamente dobra o consumo em troca de um ganho marginal de qualidade que raramente muda uma resposta de raciocínio. Vale a pena em uma placa de 24 GB rodando o 14B, e pouco mais.
**Pule o FP16 localmente** — com cerca de 4× o tamanho do Q4_K_M, ele empurra o 32B para hardware da classe de 64 GB sem benefício prático de raciocínio em relação ao Q8_0.
V3 vs R1: não confunda
**O DeepSeek-V3 é um modelo de chat; o DeepSeek-R1 (e estes distills) são modelos de raciocínio.** Esta tabela é só para a família de raciocínio R1. Se você procura o V3, ele é um modelo de chat MoE de 671B que também não roda em hardware de consumo — veja a [análise de hardware do DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).
Guias relacionados
- ▸Melhor distill do DeepSeek para sua GPU — combine sua placa com um distill, além do comando do Ollama e os tok/s esperados
- ▸Melhor modelo de raciocínio local 2026: DeepSeek-R1 no ranking — o guia completo com ranking e benchmarks
- ▸Requisitos de hardware local do DeepSeek V3 — a contraparte do modelo de chat V3
Perguntas frequentes
Qual é a VRAM do DeepSeek-R1-Distill-Qwen-32B?▾
Quanto o Q8_0 adiciona em relação ao Q4_K_M?▾
Posso rodar o distill de 70B em uma única GPU?▾
O DeepSeek-R1 completo está nesta tabela?▾
Quer a análise completa?
Ler o guia completo →Prompt Bites relacionados