Skip to main content
PromptQuorumPromptQuorum

Mejor destilación DeepSeek para tu GPU (2026)

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Respuesta rápida

Localiza tu tarjeta: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B o 32B, RTX 4090 → 32B, doble GPU/48 GB → 70B. Para el mejor modelo pequeño en 8 GB, ejecuta DeepSeek-R1-0528-Qwen3-8B. Cada uno se ejecuta con un solo comando Ollama en Q4_K_M.

  • RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
  • RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recomendado)
  • RTX 4070 / 4080 → deepseek-r1:14b o :32b — 14B ~40–50, 32B ~15–20 tok/s
  • RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, supera a o1-mini
  • Doble GPU / 48 GB → deepseek-r1:70b — ~12–18 tok/s
  • Tarjeta de 8 GB, mejor pequeño → DeepSeek-R1-0528-Qwen3-8B

Actualizado: 2026-06-19

Quantization & VRAMIntermedio

Puntos clave

  • RTX 3060 12GB → destilación 7B; RTX 4060 Ti 16GB → 14B (el punto óptimo); RTX 4090 → 32B (supera a o1-mini).
  • Doble GPU o 48 GB → destilación 70B, la más potente de las seis.
  • En 8 GB, el mejor modelo pequeño es DeepSeek-R1-0528-Qwen3-8B.
  • Cada modelo se instala en Q4_K_M con un comando, p. ej. `ollama run deepseek-r1:14b`.
  • Ajusta la temperatura a 0.6 y no uses system prompt para evitar fallos de repetición de R1.
  • Esta es la familia de razonamiento R1, no DeepSeek-V3, que es un modelo de chat.

GPU → destilación DeepSeek-R1 → comando Ollama

Localiza tu GPU en la primera columna y lee la fila. Las cifras de tok/s son aproximadas para cargas de razonamiento Q4_K_M y varían según la longitud del contexto y los ajustes de muestreo. Cuando caben dos modelos, el más grande razona mejor; el más pequeño es más rápido.

GPU (VRAM)Mejor destilaciónComando Ollamatok/s esperados
RTX 3060 12GB (nivel 8 GB)DeepSeek-R1-Distill-Qwen-7Bollama run deepseek-r1:7b~30–40
8 GB, mejor pequeñoDeepSeek-R1-0528-Qwen3-8Bollama run deepseek-r1-0528-qwen3:8b~30–40
RTX 4060 Ti 16GBDeepSeek-R1-Distill-Qwen-14Bollama run deepseek-r1:14b~25–35
RTX 4070 / 408014B (rápido) o 32B (si 16 GB+)ollama run deepseek-r1:14b14B ~40–50
RTX 4090 24GBDeepSeek-R1-Distill-Qwen-32Bollama run deepseek-r1:32b~30–40
Doble GPU / 48 GBDeepSeek-R1-Distill-Llama-70Bollama run deepseek-r1:70b~12–18

Cómo usar esta tabla en 3 pasos

Tres líneas: (1) localiza tu GPU y su VRAM, (2) ejecuta el comando Ollama correspondiente, (3) ajusta la temperatura a 0.6 y borra el system prompt. Si un modelo es demasiado lento, baja un nivel; si te sobra VRAM, sube un nivel para un mejor razonamiento.

V3 vs R1: esta tabla es solo para R1

**DeepSeek-R1 es la familia de razonamiento que instalan estos comandos; DeepSeek-V3 es un modelo de chat aparte.** No esperes una experiencia V3 de estas destilaciones: están ajustadas para mostrar razonamiento paso a paso en matemáticas y lógica. Además, V3 es un MoE de 671B y no se puede ejecutar en hardware de consumo; consulta la [ficha de hardware de DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).

Guías relacionadas

Preguntas frecuentes

¿Qué destilación DeepSeek se ejecuta en una RTX 4090?
DeepSeek-R1-Distill-Qwen-32B. En Q4_K_M necesita ~20.5 GB, cabe en una RTX 4090 de 24 GB (justo en contexto) y supera a OpenAI o1-mini en varios benchmarks de razonamiento. Comando: `ollama run deepseek-r1:32b`.
¿Cuál es la mejor destilación DeepSeek para una GPU de 8 GB?
DeepSeek-R1-0528-Qwen3-8B es la mejor destilación de razonamiento pequeña y cabe en 8 GB. La destilación 7B original (`ollama run deepseek-r1:7b`) es la alternativa bien soportada.
¿Por qué va lenta mi destilación?
Normalmente es desbordamiento de VRAM: si el modelo no cabe, se vuelca a la RAM del sistema y el rendimiento se desploma. Baja un nivel (p. ej. 32B → 14B) para que el modelo quepa por completo en VRAM.
¿Necesito elegir una cuantización?
No. Los comandos `ollama run deepseek-r1:` usan Q4_K_M por defecto, el mejor equilibrio entre tamaño y calidad. Consulta la chuleta de VRAM si quieres cifras de Q8_0 o FP16.

¿Quieres el desglose completo?

Leer la guía completa →

Prompt Bites relacionados