Tabla de VRAM de DeepSeek-R1 Distill (2026)

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Respuesta rápida

En Q4_K_M (predeterminado de Ollama): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 es unas 2× el tamaño de Q4_K_M y FP16 unas 4×, por lo que el 32B en FP16 necesita una configuración de clase 64 GB.

▸1.5B: archivo ~1.1 GB, ~4 GB de VRAM (o CPU) en Q4_K_M
▸7B: archivo ~4.7 GB, ~5.5 GB de VRAM — RTX 3060 12GB
▸14B: archivo ~9 GB, ~9.5 GB de VRAM — RTX 4060 Ti 16GB
▸32B: archivo ~19 GB, ~20.5 GB de VRAM — RTX 4090 24GB (ajustado)
▸70B: archivo ~40 GB, ~42 GB de VRAM — doble GPU o 48 GB
▸Regla: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M

Actualizado: 2026-06-19

Quantization & VRAMIntermedio

Puntos clave

✓VRAM en Q4_K_M (predeterminado de Ollama): 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
✓Q8_0 es unas 2× el tamaño de Q4_K_M; FP16 unas 4× el tamaño del archivo Q4_K_M.
✓El 14B en Q4_K_M (~9.5 GB) es el punto óptimo: cabe en una tarjeta de 16 GB con margen para el contexto.
✓El 32B en Q4_K_M (~20.5 GB) va ajustado en una RTX 4090 de 24 GB; baja a una cuantización menor para un contexto más largo.
✓El DeepSeek-R1 completo de 671B no está en esta tabla: necesita ~376–404 GB en Q4 (solo centros de datos).
✓Estos son distills de razonamiento R1, no DeepSeek-V3 (un modelo de chat).

VRAM de DeepSeek-R1 Distill por cuantización

Las cifras de VRAM incluyen un pequeño margen para el contexto y la caché KV además del tamaño bruto del archivo. Q4_K_M es el predeterminado de Ollama y el mejor equilibrio entre tamaño y calidad para el razonamiento. Usa Q8_0 solo si tienes VRAM de sobra y quieres una mejora marginal de calidad; FP16 rara vez vale la pena en local.

Distill	Q4_K_M (VRAM)	Q8_0 (VRAM)	FP16 (VRAM)	GPU mínima (Q4_K_M)
1.5B	~4 GB	~5 GB	~6 GB	Cualquier GPU de 4 GB / CPU
7B (Qwen2.5)	~5.5 GB	~9.5 GB	~16 GB	RTX 3060 12GB
8B (Llama 3)	~6 GB	~10 GB	~17 GB	RTX 3060 12GB
14B (Qwen2.5)	~9.5 GB	~16 GB	~29 GB	RTX 4060 Ti 16GB
32B (Qwen2.5)	~20.5 GB	~35 GB	~64 GB	RTX 4090 24GB (ajustado)
70B (Llama 3)	~42 GB	~74 GB	~140 GB	Doble GPU / 48 GB

RTX 3060 12GB en Amazon (enlace de producto · divulgado)enlace de producto · divulgadoRTX 4060 Ti 16GB en Amazon (enlace de producto · divulgado)enlace de producto · divulgadoRTX 4090 24GB en Amazon (enlace de producto · divulgado)enlace de producto · divulgado

¿Qué cuantización deberías elegir?

**Usa Q4_K_M para casi todo**: es el predeterminado de Ollama y mantiene alta la calidad de razonamiento mientras alberga la mayor cantidad de modelos por GB. Elígelo a menos que tengas una razón concreta para no hacerlo.

**Usa Q8_0 solo con VRAM de sobra**: duplica aproximadamente el consumo a cambio de una mejora de calidad marginal que rara vez cambia una respuesta de razonamiento. Vale la pena en una tarjeta de 24 GB con el 14B, poco más.

**Evita FP16 en local**: con unas 4× el tamaño de Q4_K_M, empuja el 32B a hardware de clase 64 GB sin beneficio práctico de razonamiento frente a Q8_0.

V3 vs R1: no los confundas

**DeepSeek-V3 es un modelo de chat; DeepSeek-R1 (y estos distills) son modelos de razonamiento.** Esta tabla es solo para la familia de razonamiento R1. Si buscas V3, es un modelo de chat MoE de 671B que tampoco puede ejecutarse en hardware de consumo; consulta el [resumen de hardware de DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guías relacionadas

▸El mejor distill de DeepSeek para tu GPU — empareja tu tarjeta con un distill, más el comando de Ollama y los tok/s esperados
▸Mejor modelo de razonamiento local 2026: DeepSeek-R1 clasificado — la guía completa con clasificación y benchmarks
▸Requisitos de hardware local de DeepSeek V3 — la contraparte del modelo de chat V3

Preguntas frecuentes

¿Cuánta VRAM necesita DeepSeek-R1-Distill-Qwen-32B?▾

Unos 20.5 GB en Q4_K_M, lo que cabe en una RTX 4090 de 24 GB pero deja poco espacio para un contexto largo. En Q8_0 necesita ~35 GB y en FP16 ~64 GB.

¿Cuánto añade Q8_0 sobre Q4_K_M?▾

Aproximadamente 2× la VRAM. Para la mayoría de las tareas de razonamiento la mejora de calidad es marginal, así que Q4_K_M es la mejor opción predeterminada salvo que tengas VRAM de sobra.

¿Puedo ejecutar el distill de 70B en una sola GPU?▾

No. Con ~42 GB (Q4_K_M) supera cualquier tarjeta de consumo individual. Usa dos GPU de 24 GB o una tarjeta de estación de trabajo de 48 GB.

¿Está el DeepSeek-R1 completo en esta tabla?▾

No. El R1 completo de 671B necesita ~376–404 GB en Q4 y es solo para centros de datos. Esta tabla cubre los distills ejecutables en hardware de consumo (1.5B–70B).

¿Quieres el desglose completo?

Leer la guía completa →

Prompt Bites relacionados

▸Mejor destilación DeepSeek para tu GPU (2026)

← Volver a Prompts en breve