Tabla de VRAM de DeepSeek-R1 Distill (2026)
Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.
Respuesta rápida
En Q4_K_M (predeterminado de Ollama): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 es unas 2× el tamaño de Q4_K_M y FP16 unas 4×, por lo que el 32B en FP16 necesita una configuración de clase 64 GB.
- ▸1.5B: archivo ~1.1 GB, ~4 GB de VRAM (o CPU) en Q4_K_M
- ▸7B: archivo ~4.7 GB, ~5.5 GB de VRAM — RTX 3060 12GB
- ▸14B: archivo ~9 GB, ~9.5 GB de VRAM — RTX 4060 Ti 16GB
- ▸32B: archivo ~19 GB, ~20.5 GB de VRAM — RTX 4090 24GB (ajustado)
- ▸70B: archivo ~40 GB, ~42 GB de VRAM — doble GPU o 48 GB
- ▸Regla: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M
Actualizado: 2026-06-19
Puntos clave
- ✓VRAM en Q4_K_M (predeterminado de Ollama): 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
- ✓Q8_0 es unas 2× el tamaño de Q4_K_M; FP16 unas 4× el tamaño del archivo Q4_K_M.
- ✓El 14B en Q4_K_M (~9.5 GB) es el punto óptimo: cabe en una tarjeta de 16 GB con margen para el contexto.
- ✓El 32B en Q4_K_M (~20.5 GB) va ajustado en una RTX 4090 de 24 GB; baja a una cuantización menor para un contexto más largo.
- ✓El DeepSeek-R1 completo de 671B no está en esta tabla: necesita ~376–404 GB en Q4 (solo centros de datos).
- ✓Estos son distills de razonamiento R1, no DeepSeek-V3 (un modelo de chat).
VRAM de DeepSeek-R1 Distill por cuantización
Las cifras de VRAM incluyen un pequeño margen para el contexto y la caché KV además del tamaño bruto del archivo. Q4_K_M es el predeterminado de Ollama y el mejor equilibrio entre tamaño y calidad para el razonamiento. Usa Q8_0 solo si tienes VRAM de sobra y quieres una mejora marginal de calidad; FP16 rara vez vale la pena en local.
| Distill | Q4_K_M (VRAM) | Q8_0 (VRAM) | FP16 (VRAM) | GPU mínima (Q4_K_M) |
|---|---|---|---|---|
| 1.5B | ~4 GB | ~5 GB | ~6 GB | Cualquier GPU de 4 GB / CPU |
| 7B (Qwen2.5) | ~5.5 GB | ~9.5 GB | ~16 GB | RTX 3060 12GB |
| 8B (Llama 3) | ~6 GB | ~10 GB | ~17 GB | RTX 3060 12GB |
| 14B (Qwen2.5) | ~9.5 GB | ~16 GB | ~29 GB | RTX 4060 Ti 16GB |
| 32B (Qwen2.5) | ~20.5 GB | ~35 GB | ~64 GB | RTX 4090 24GB (ajustado) |
| 70B (Llama 3) | ~42 GB | ~74 GB | ~140 GB | Doble GPU / 48 GB |
¿Qué cuantización deberías elegir?
**Usa Q4_K_M para casi todo**: es el predeterminado de Ollama y mantiene alta la calidad de razonamiento mientras alberga la mayor cantidad de modelos por GB. Elígelo a menos que tengas una razón concreta para no hacerlo.
**Usa Q8_0 solo con VRAM de sobra**: duplica aproximadamente el consumo a cambio de una mejora de calidad marginal que rara vez cambia una respuesta de razonamiento. Vale la pena en una tarjeta de 24 GB con el 14B, poco más.
**Evita FP16 en local**: con unas 4× el tamaño de Q4_K_M, empuja el 32B a hardware de clase 64 GB sin beneficio práctico de razonamiento frente a Q8_0.
V3 vs R1: no los confundas
**DeepSeek-V3 es un modelo de chat; DeepSeek-R1 (y estos distills) son modelos de razonamiento.** Esta tabla es solo para la familia de razonamiento R1. Si buscas V3, es un modelo de chat MoE de 671B que tampoco puede ejecutarse en hardware de consumo; consulta el [resumen de hardware de DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).
Guías relacionadas
- ▸El mejor distill de DeepSeek para tu GPU — empareja tu tarjeta con un distill, más el comando de Ollama y los tok/s esperados
- ▸Mejor modelo de razonamiento local 2026: DeepSeek-R1 clasificado — la guía completa con clasificación y benchmarks
- ▸Requisitos de hardware local de DeepSeek V3 — la contraparte del modelo de chat V3
Preguntas frecuentes
¿Cuánta VRAM necesita DeepSeek-R1-Distill-Qwen-32B?▾
¿Cuánto añade Q8_0 sobre Q4_K_M?▾
¿Puedo ejecutar el distill de 70B en una sola GPU?▾
¿Está el DeepSeek-R1 completo en esta tabla?▾
¿Quieres el desglose completo?
Leer la guía completa →Prompt Bites relacionados