Mejor destilación DeepSeek para tu GPU (2026)
Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.
Respuesta rápida
Localiza tu tarjeta: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B o 32B, RTX 4090 → 32B, doble GPU/48 GB → 70B. Para el mejor modelo pequeño en 8 GB, ejecuta DeepSeek-R1-0528-Qwen3-8B. Cada uno se ejecuta con un solo comando Ollama en Q4_K_M.
- ▸RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
- ▸RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (recomendado)
- ▸RTX 4070 / 4080 → deepseek-r1:14b o :32b — 14B ~40–50, 32B ~15–20 tok/s
- ▸RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, supera a o1-mini
- ▸Doble GPU / 48 GB → deepseek-r1:70b — ~12–18 tok/s
- ▸Tarjeta de 8 GB, mejor pequeño → DeepSeek-R1-0528-Qwen3-8B
Actualizado: 2026-06-19
Puntos clave
- ✓RTX 3060 12GB → destilación 7B; RTX 4060 Ti 16GB → 14B (el punto óptimo); RTX 4090 → 32B (supera a o1-mini).
- ✓Doble GPU o 48 GB → destilación 70B, la más potente de las seis.
- ✓En 8 GB, el mejor modelo pequeño es DeepSeek-R1-0528-Qwen3-8B.
- ✓Cada modelo se instala en Q4_K_M con un comando, p. ej. `ollama run deepseek-r1:14b`.
- ✓Ajusta la temperatura a 0.6 y no uses system prompt para evitar fallos de repetición de R1.
- ✓Esta es la familia de razonamiento R1, no DeepSeek-V3, que es un modelo de chat.
GPU → destilación DeepSeek-R1 → comando Ollama
Localiza tu GPU en la primera columna y lee la fila. Las cifras de tok/s son aproximadas para cargas de razonamiento Q4_K_M y varían según la longitud del contexto y los ajustes de muestreo. Cuando caben dos modelos, el más grande razona mejor; el más pequeño es más rápido.
| GPU (VRAM) | Mejor destilación | Comando Ollama | tok/s esperados |
|---|---|---|---|
| RTX 3060 12GB (nivel 8 GB) | DeepSeek-R1-Distill-Qwen-7B | ollama run deepseek-r1:7b | ~30–40 |
| 8 GB, mejor pequeño | DeepSeek-R1-0528-Qwen3-8B | ollama run deepseek-r1-0528-qwen3:8b | ~30–40 |
| RTX 4060 Ti 16GB | DeepSeek-R1-Distill-Qwen-14B | ollama run deepseek-r1:14b | ~25–35 |
| RTX 4070 / 4080 | 14B (rápido) o 32B (si 16 GB+) | ollama run deepseek-r1:14b | 14B ~40–50 |
| RTX 4090 24GB | DeepSeek-R1-Distill-Qwen-32B | ollama run deepseek-r1:32b | ~30–40 |
| Doble GPU / 48 GB | DeepSeek-R1-Distill-Llama-70B | ollama run deepseek-r1:70b | ~12–18 |
Cómo usar esta tabla en 3 pasos
Tres líneas: (1) localiza tu GPU y su VRAM, (2) ejecuta el comando Ollama correspondiente, (3) ajusta la temperatura a 0.6 y borra el system prompt. Si un modelo es demasiado lento, baja un nivel; si te sobra VRAM, sube un nivel para un mejor razonamiento.
V3 vs R1: esta tabla es solo para R1
**DeepSeek-R1 es la familia de razonamiento que instalan estos comandos; DeepSeek-V3 es un modelo de chat aparte.** No esperes una experiencia V3 de estas destilaciones: están ajustadas para mostrar razonamiento paso a paso en matemáticas y lógica. Además, V3 es un MoE de 671B y no se puede ejecutar en hardware de consumo; consulta la [ficha de hardware de DeepSeek V3](/prompt-bites/deepseek-v3-local-hardware-requirements).
Guías relacionadas
- ▸Chuleta de VRAM de destilaciones DeepSeek-R1 — cada destilación por cuantización (Q4_K_M, Q8, FP16) con VRAM y GPU mínima
- ▸Mejor modelo de razonamiento local 2026: DeepSeek-R1 clasificado — la guía completa clasificada con benchmarks y niveles
- ▸Requisitos de hardware local de DeepSeek V3 — la contraparte del modelo de chat V3
Preguntas frecuentes
¿Qué destilación DeepSeek se ejecuta en una RTX 4090?▾
¿Cuál es la mejor destilación DeepSeek para una GPU de 8 GB?▾
¿Por qué va lenta mi destilación?▾
¿Necesito elegir una cuantización?▾
¿Quieres el desglose completo?
Leer la guía completa →Prompt Bites relacionados