Skip to main content
PromptQuorumPromptQuorum

Tabla de VRAM de DeepSeek-R1 Distill (2026)

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Respuesta rápida

En Q4_K_M (predeterminado de Ollama): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 es unas 2× el tamaño de Q4_K_M y FP16 unas 4×, por lo que el 32B en FP16 necesita una configuración de clase 64 GB.

  • 1.5B: archivo ~1.1 GB, ~4 GB de VRAM (o CPU) en Q4_K_M
  • 7B: archivo ~4.7 GB, ~5.5 GB de VRAM — RTX 3060 12GB
  • 14B: archivo ~9 GB, ~9.5 GB de VRAM — RTX 4060 Ti 16GB
  • 32B: archivo ~19 GB, ~20.5 GB de VRAM — RTX 4090 24GB (ajustado)
  • 70B: archivo ~40 GB, ~42 GB de VRAM — doble GPU o 48 GB
  • Regla: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M

Actualizado: 2026-06-19

Quantization & VRAMIntermedio

Puntos clave

  • VRAM en Q4_K_M (predeterminado de Ollama): 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
  • Q8_0 es unas 2× el tamaño de Q4_K_M; FP16 unas 4× el tamaño del archivo Q4_K_M.
  • El 14B en Q4_K_M (~9.5 GB) es el punto óptimo: cabe en una tarjeta de 16 GB con margen para el contexto.
  • El 32B en Q4_K_M (~20.5 GB) va ajustado en una RTX 4090 de 24 GB; baja a una cuantización menor para un contexto más largo.
  • El DeepSeek-R1 completo de 671B no está en esta tabla: necesita ~376–404 GB en Q4 (solo centros de datos).
  • Estos son distills de razonamiento R1, no DeepSeek-V3 (un modelo de chat).

VRAM de DeepSeek-R1 Distill por cuantización

Las cifras de VRAM incluyen un pequeño margen para el contexto y la caché KV además del tamaño bruto del archivo. Q4_K_M es el predeterminado de Ollama y el mejor equilibrio entre tamaño y calidad para el razonamiento. Usa Q8_0 solo si tienes VRAM de sobra y quieres una mejora marginal de calidad; FP16 rara vez vale la pena en local.

DistillQ4_K_M (VRAM)Q8_0 (VRAM)FP16 (VRAM)GPU mínima (Q4_K_M)
1.5B~4 GB~5 GB~6 GBCualquier GPU de 4 GB / CPU
7B (Qwen2.5)~5.5 GB~9.5 GB~16 GBRTX 3060 12GB
8B (Llama 3)~6 GB~10 GB~17 GBRTX 3060 12GB
14B (Qwen2.5)~9.5 GB~16 GB~29 GBRTX 4060 Ti 16GB
32B (Qwen2.5)~20.5 GB~35 GB~64 GBRTX 4090 24GB (ajustado)
70B (Llama 3)~42 GB~74 GB~140 GBDoble GPU / 48 GB

¿Qué cuantización deberías elegir?

**Usa Q4_K_M para casi todo**: es el predeterminado de Ollama y mantiene alta la calidad de razonamiento mientras alberga la mayor cantidad de modelos por GB. Elígelo a menos que tengas una razón concreta para no hacerlo.

**Usa Q8_0 solo con VRAM de sobra**: duplica aproximadamente el consumo a cambio de una mejora de calidad marginal que rara vez cambia una respuesta de razonamiento. Vale la pena en una tarjeta de 24 GB con el 14B, poco más.

**Evita FP16 en local**: con unas 4× el tamaño de Q4_K_M, empuja el 32B a hardware de clase 64 GB sin beneficio práctico de razonamiento frente a Q8_0.

V3 vs R1: no los confundas

**DeepSeek-V3 es un modelo de chat; DeepSeek-R1 (y estos distills) son modelos de razonamiento.** Esta tabla es solo para la familia de razonamiento R1. Si buscas V3, es un modelo de chat MoE de 671B que tampoco puede ejecutarse en hardware de consumo; consulta el [resumen de hardware de DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guías relacionadas

Preguntas frecuentes

¿Cuánta VRAM necesita DeepSeek-R1-Distill-Qwen-32B?
Unos 20.5 GB en Q4_K_M, lo que cabe en una RTX 4090 de 24 GB pero deja poco espacio para un contexto largo. En Q8_0 necesita ~35 GB y en FP16 ~64 GB.
¿Cuánto añade Q8_0 sobre Q4_K_M?
Aproximadamente 2× la VRAM. Para la mayoría de las tareas de razonamiento la mejora de calidad es marginal, así que Q4_K_M es la mejor opción predeterminada salvo que tengas VRAM de sobra.
¿Puedo ejecutar el distill de 70B en una sola GPU?
No. Con ~42 GB (Q4_K_M) supera cualquier tarjeta de consumo individual. Usa dos GPU de 24 GB o una tarjeta de estación de trabajo de 48 GB.
¿Está el DeepSeek-R1 completo en esta tabla?
No. El R1 completo de 671B necesita ~376–404 GB en Q4 y es solo para centros de datos. Esta tabla cubre los distills ejecutables en hardware de consumo (1.5B–70B).

¿Quieres el desglose completo?

Leer la guía completa →

Prompt Bites relacionados