Mejor destilación DeepSeek para tu GPU (2026)

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Respuesta rápida

Localiza tu tarjeta: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B o 32B, RTX 4090 → 32B, doble GPU/48 GB → 70B. Para el mejor modelo pequeño en 8 GB, ejecuta DeepSeek-R1-0528-Qwen3-8B. Cada uno se ejecuta con un solo comando Ollama en Q4_K_M.

▸RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
▸RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recomendado)
▸RTX 4070 / 4080 → deepseek-r1:14b o :32b — 14B ~40–50, 32B ~15–20 tok/s
▸RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, supera a o1-mini
▸Doble GPU / 48 GB → deepseek-r1:70b — ~12–18 tok/s
▸Tarjeta de 8 GB, mejor pequeño → DeepSeek-R1-0528-Qwen3-8B

Actualizado: 2026-06-19

Quantization & VRAMIntermedio

Puntos clave

✓RTX 3060 12GB → destilación 7B; RTX 4060 Ti 16GB → 14B (el punto óptimo); RTX 4090 → 32B (supera a o1-mini).
✓Doble GPU o 48 GB → destilación 70B, la más potente de las seis.
✓En 8 GB, el mejor modelo pequeño es DeepSeek-R1-0528-Qwen3-8B.
✓Cada modelo se instala en Q4_K_M con un comando, p. ej. `ollama run deepseek-r1:14b`.
✓Ajusta la temperatura a 0.6 y no uses system prompt para evitar fallos de repetición de R1.
✓Esta es la familia de razonamiento R1, no DeepSeek-V3, que es un modelo de chat.

GPU → destilación DeepSeek-R1 → comando Ollama

Localiza tu GPU en la primera columna y lee la fila. Las cifras de tok/s son aproximadas para cargas de razonamiento Q4_K_M y varían según la longitud del contexto y los ajustes de muestreo. Cuando caben dos modelos, el más grande razona mejor; el más pequeño es más rápido.

GPU (VRAM)	Mejor destilación	Comando Ollama	tok/s esperados
RTX 3060 12GB (nivel 8 GB)	DeepSeek-R1-Distill-Qwen-7B	ollama run deepseek-r1:7b	~30–40
8 GB, mejor pequeño	DeepSeek-R1-0528-Qwen3-8B	ollama run deepseek-r1-0528-qwen3:8b	~30–40
RTX 4060 Ti 16GB	DeepSeek-R1-Distill-Qwen-14B	ollama run deepseek-r1:14b	~25–35
RTX 4070 / 4080	14B (rápido) o 32B (si 16 GB+)	ollama run deepseek-r1:14b	14B ~40–50
RTX 4090 24GB	DeepSeek-R1-Distill-Qwen-32B	ollama run deepseek-r1:32b	~30–40
Doble GPU / 48 GB	DeepSeek-R1-Distill-Llama-70B	ollama run deepseek-r1:70b	~12–18

RTX 3060 12GB en Amazon (enlace de producto · divulgado)enlace de producto · divulgadoRTX 4060 Ti 16GB en Amazon (enlace de producto · divulgado)enlace de producto · divulgadoRTX 4070 en Amazon (enlace de producto · divulgado)enlace de producto · divulgadoRTX 4090 24GB en Amazon (enlace de producto · divulgado)enlace de producto · divulgado

Cómo usar esta tabla en 3 pasos

Tres líneas: (1) localiza tu GPU y su VRAM, (2) ejecuta el comando Ollama correspondiente, (3) ajusta la temperatura a 0.6 y borra el system prompt. Si un modelo es demasiado lento, baja un nivel; si te sobra VRAM, sube un nivel para un mejor razonamiento.

V3 vs R1: esta tabla es solo para R1

**DeepSeek-R1 es la familia de razonamiento que instalan estos comandos; DeepSeek-V3 es un modelo de chat aparte.** No esperes una experiencia V3 de estas destilaciones: están ajustadas para mostrar razonamiento paso a paso en matemáticas y lógica. Además, V3 es un MoE de 671B y no se puede ejecutar en hardware de consumo; consulta la [ficha de hardware de DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guías relacionadas

▸Chuleta de VRAM de destilaciones DeepSeek-R1 — cada destilación por cuantización (Q4_K_M, Q8, FP16) con VRAM y GPU mínima
▸Mejor modelo de razonamiento local 2026: DeepSeek-R1 clasificado — la guía completa clasificada con benchmarks y niveles
▸Requisitos de hardware local de DeepSeek V3 — la contraparte del modelo de chat V3

Preguntas frecuentes

¿Qué destilación DeepSeek se ejecuta en una RTX 4090?▾

DeepSeek-R1-Distill-Qwen-32B. En Q4_K_M necesita ~20.5 GB, cabe en una RTX 4090 de 24 GB (justo en contexto) y supera a OpenAI o1-mini en varios benchmarks de razonamiento. Comando: `ollama run deepseek-r1:32b`.

¿Cuál es la mejor destilación DeepSeek para una GPU de 8 GB?▾

DeepSeek-R1-0528-Qwen3-8B es la mejor destilación de razonamiento pequeña y cabe en 8 GB. La destilación 7B original (`ollama run deepseek-r1:7b`) es la alternativa bien soportada.

¿Por qué va lenta mi destilación?▾

Normalmente es desbordamiento de VRAM: si el modelo no cabe, se vuelca a la RAM del sistema y el rendimiento se desploma. Baja un nivel (p. ej. 32B → 14B) para que el modelo quepa por completo en VRAM.

¿Necesito elegir una cuantización?▾

No. Los comandos `ollama run deepseek-r1:` usan Q4_K_M por defecto, el mejor equilibrio entre tamaño y calidad. Consulta la chuleta de VRAM si quieres cifras de Q8_0 o FP16.

¿Quieres el desglose completo?

Leer la guía completa →

Prompt Bites relacionados

▸Tabla de VRAM de DeepSeek-R1 Distill (2026)

← Volver a Prompts en breve