Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Mejor modelo de razonamiento local 2026: DeepSeek-R1 clasificado
Models & Benchmarks

Mejor modelo de razonamiento local 2026: DeepSeek-R1 clasificado

·15 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

El mejor modelo de razonamiento local para la mayoría de la gente en 2026 es DeepSeek-R1-Distill-Qwen-14B en una GPU de 16 GB, con DeepSeek-R1-Distill-Qwen-32B como la mejor opción si tienes 24 GB. El destilado de 14B corre en Q4_K_M con ~9 GB, maneja matemáticas multipaso al estilo AIME y encaja en una RTX 4060 Ti 16GB. El destilado de 32B supera a OpenAI o1-mini en varios benchmarks de razonamiento y es el mejor modelo de razonamiento para una sola GPU de consumo. Si solo tienes 8 GB, ejecuta el destilado de 7B o el más nuevo DeepSeek-R1-0528-Qwen3-8B, el destilado de razonamiento pequeño más potente disponible.

El DeepSeek-R1 completo de 671B es solo para centros de datos, así que el modelo que realmente ejecutas en casa es uno de sus destilados. Esta guía clasifica los seis destilados oficiales de DeepSeek-R1 (de 1.5B a 70B) más el destacado DeepSeek-R1-0528-Qwen3-8B por nivel de hardware, con puntuaciones reales de razonamiento en AIME 2024 y MATH-500, el comando exacto de Ollama por modelo y la GPU que encaja en cada uno.

Key Takeaways

  • No puedes ejecutar el DeepSeek-R1 completo de 671B en casa: necesita ~376–404 GB de VRAM en Q4 (solo centros de datos). Ejecutas uno de sus destilados.
  • Hay 6 destilados oficiales: 1.5B, 7B, 14B, 32B (base Qwen2.5) y 8B, 70B (base Llama 3).
  • Punto óptimo: DeepSeek-R1-Distill-Qwen-14B en una GPU de 16 GB — ~9 GB en Q4_K_M, matemáticas multipaso sólidas.
  • Mejor razonador de una sola GPU: el destilado de 32B supera a OpenAI o1-mini en varios benchmarks de razonamiento; va justo en 24 GB.
  • Mejor modelo pequeño: DeepSeek-R1-0528-Qwen3-8B lidera los modelos abiertos de 8B en AIME 2024 y encaja en una tarjeta de 8 GB.
  • Todos los destilados se instalan con un solo comando, p. ej. `ollama run deepseek-r1:14b` (Q4_K_M por defecto).
  • Pon la temperatura en 0.6 y no uses system prompt: coloca todas las instrucciones en el user prompt para evitar los fallos de repetición de R1.
  • Esta página clasifica solo razonamiento (matemáticas, lógica, multipaso). Para programación, consulta la guía de programación DeepSeek vs Qwen.

¿Qué es un modelo de razonamiento local?

Un modelo de razonamiento es un LLM entrenado para producir una cadena de pensamiento explícita antes de su respuesta final, lo que lo hace mucho más fuerte en matemáticas, lógica y problemas multipaso que un modelo de chat estándar del mismo tamaño. Los destilados de DeepSeek-R1 son modelos de razonamiento: "piensan en voz alta" dentro de la respuesta, comprobando y revisando pasos antes de comprometerse con una respuesta.

La contrapartida es la latencia y la verbosidad. Un modelo de razonamiento gasta tokens adicionales trabajando el problema, así que una sola respuesta puede tardar varios segundos y cientos de tokens de razonamiento visible. Para una demostración matemática o un acertijo lógico eso es exactamente lo que quieres; para una consulta factual rápida es tiempo perdido.

La distinción que confunde a la gente: DeepSeek-V3 es un modelo de chat, DeepSeek-R1 es el modelo de razonamiento. Comparten linaje de arquitectura pero están ajustados para trabajos diferentes. Si quieres respuestas conversacionales, usa V3; si quieres resolución de problemas paso a paso, usa R1 o uno de sus destilados. Explicamos exactamente qué conserva y qué pierde la destilación en DeepSeek-R1 frente a los destilados.

Para una introducción más a fondo sobre ejecutar estos modelos, empieza con la Guía de hardware para LLM local 2026 y La cuantización de LLM explicada, que cubren las cuentas de VRAM en las que se basa esta guía.

Un modelo de razonamiento local es un LLM que escribe una cadena de pensamiento explícita antes de responder, lo que lo hace más fuerte en matemáticas y lógica que un modelo de chat del mismo tamaño.

Piensa en un modelo de razonamiento como un estudiante que muestra su trabajo. Es más lento y escribe más, pero acierta los problemas multipaso mucho más a menudo que un modelo que suelta una respuesta sin pensar.

Los 6 destilados de DeepSeek-R1 de un vistazo

DeepSeek lanzó seis destilados oficiales de R1, cada uno creado ajustando un modelo base abierto existente con trazas de razonamiento del R1 completo de 671B. Cuatro usan una base Qwen2.5 (1.5B, 7B, 14B, 32B) y dos usan una base Llama 3 (8B, 70B). Las cifras de VRAM de abajo son para la cuantización Q4_K_M por defecto de Ollama.

DeepSeek-R1 tiene seis destilados oficiales de 1.5B a 70B, construidos sobre bases Qwen2.5 y Llama 3, siendo el modelo de 14B el mejor equilibrio para una GPU de 16 GB.

DestiladoModelo baseTamaño de archivo (Q4_K_M)VRAM mín.Mejor para
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5 1.5B~1.1 GB4 GB / CPUDispositivos edge, pruebas rápidas
DeepSeek-R1-Distill-Qwen-7BQwen2.5 7B~4.7 GB8 GBGPU de entrada, 55.5% AIME 2024
DeepSeek-R1-Distill-Llama-8BLlama 3 8B~4.9 GB8 GBFlujos con licencia Llama
DeepSeek-R1-Distill-Qwen-14BQwen2.5 14B~9 GB16 GBMejor equilibrio general
DeepSeek-R1-Distill-Qwen-32BQwen2.5 32B~18–20 GB24 GBSupera a o1-mini, mejor GPU única
DeepSeek-R1-Distill-Llama-70BLlama 3 70B~40 GBGPU dual / 48 GBDestilado más potente, máxima precisión

El DeepSeek-R1-Distill-Llama-8B lleva tanto la licencia Llama 3 como la licencia MIT. Los destilados basados en Qwen heredan la licencia de Qwen. Comprueba siempre la licencia para uso comercial.

El mejor destilado de razonamiento pequeño: DeepSeek-R1-0528-Qwen3-8B

DeepSeek-R1-0528-Qwen3-8B es el modelo de razonamiento pequeño más potente que puedes ejecutar en una GPU de 8 GB, destilado del R1-0528 actualizado sobre una base Qwen3 8B. Lidera los modelos abiertos de 8B en AIME 2024 y puntúa unos 10 puntos porcentuales más alto que el Qwen3 8B base en ese benchmark, un salto significativo para matemáticas y lógica a este tamaño.

Elígelo en lugar de los destilados originales de 7B y 8B cuando quieras la mejor precisión de modelo pequeño y tu hardware llegue como máximo a 8 GB. Encaja en el mismo nivel de RTX 3060 12GB y corre en Q4_K_M con aproximadamente 5 GB. Para la mayoría de usuarios de portátiles y GPU de entrada que valoran la calidad del razonamiento por encima de la velocidad pura, este es el modelo con el que empezar.

Si tu GPU tiene 8 GB, el más nuevo R1-0528-Qwen3-8B es el modelo de razonamiento pequeño más inteligente: usa una base mejor que los destilados originales y puntúa más alto en matemáticas de competición.

Destilados de DeepSeek-R1 clasificados por nivel de hardware

Elige el nivel más alto que tu VRAM admita. Más parámetros significa mejor razonamiento, pero solo si el modelo encaja sin desbordarse a la RAM del sistema (lo que hunde la velocidad). Usa esta clasificación para emparejar un destilado con la GPU que tienes o planeas comprar.

¿Cómo puntúan los destilados de DeepSeek-R1 en los benchmarks de razonamiento?

Estos son benchmarks de razonamiento: AIME 2024 (matemáticas de competición), MATH-500 (matemáticas mixtas) y GPQA Diamond (preguntas y respuestas de ciencia de nivel de posgrado). Miden la resolución de problemas paso a paso, no la programación. El resultado destacado: el destilado de 32B supera a OpenAI o1-mini en varios de estos, y el destilado de 7B obtiene 55.5% en AIME 2024, una puntuación que ningún modelo de chat del mismo tamaño alcanza.

El DeepSeek-R1-Distill-Qwen-32B supera a OpenAI o1-mini en varios benchmarks de razonamiento, y el destilado de 7B puntúa 55.5% en AIME 2024.

DestiladoAIME 2024Nivel de razonamientoNotas
DeepSeek-R1-Distill-Qwen-7B55.5%Fuerte para 7BMejor razonador de GPU de entrada
DeepSeek-R1-0528-Qwen3-8BLidera abiertos de 8BMejor pequeño~+10 pts sobre Qwen3 8B base
DeepSeek-R1-Distill-Qwen-14BMayor que el 7BMejor equilibrioPunto óptimo de 16 GB
DeepSeek-R1-Distill-Qwen-32BMejor GPU únicaSupera a o1-miniMejor razonador de 24 GB
DeepSeek-R1-Distill-Llama-70BEl más alto de los seisMáximoNecesita GPU dual

Usa puntuaciones exactas donde estén publicadas (7B = 55.5% AIME 2024) y clasificaciones relativas en el resto. Los números de benchmark varían con la cuantización y los ajustes de muestreo; trátalos como orientativos dentro de un nivel, no como absolutos.

¿Cuándo NO deberías usar un modelo de razonamiento?

Evita un modelo de razonamiento cuando la tarea no sea de razonamiento: son más lentos, más verbosos y no más precisos en recuperación simple o chat. Usa en su lugar un modelo de chat estándar como DeepSeek-V3 o Llama 3.3.

  • Evítalo para consultas factuales rápidas: la cadena de pensamiento visible desperdicia tokens y tiempo en respuestas que un modelo de chat devuelve al instante.
  • Evítalo para conversación abierta: los modelos de razonamiento están ajustados para problemas con una respuesta correcta, no para el diálogo.
  • Evítalo para puro rendimiento de programación: para generación de código, dirígete a la guía de programación DeepSeek vs Qwen; esta página cubre solo razonamiento.
  • Evítalo cuando la latencia sea crítica: si necesitas respuestas por debajo del segundo, gana un modelo de chat más pequeño.
  • Usa un modelo de razonamiento cuando la tarea sea matemáticas, lógica, planificación multipaso o cualquier cosa donde mostrar el trabajo mejore la corrección.

Consejo de configuración: temperatura 0.6 y sin system prompt

Pon la temperatura en 0.6 (el rango 0.5–0.7 es seguro) y no uses system prompt: coloca cada instrucción en el user prompt. Esta es la configuración más importante para los destilados de DeepSeek-R1. Los modelos son propensos a un fallo de repetición e incoherencia cuando se les da un system prompt o una temperatura cercana a 0 o por encima de ~0.8.

En la práctica: deja vacío el campo de system prompt de Ollama/LM Studio, antepón tus instrucciones al mensaje del usuario y mantén la temperatura en 0.6. Si ves que el modelo entra en bucle o se desvía a mitad del razonamiento, este ajuste es casi siempre la solución.

Instalación: inicio rápido de Ollama por nivel

Cada destilado se instala y ejecuta con un solo comando de Ollama (todos por defecto en Q4_K_M). Instala Ollama primero si aún no lo has hecho — consulta Cómo instalar Ollama. Luego elige el comando para tu nivel:

bash
ollama run deepseek-r1:1.5b   # edge / CPU
ollama run deepseek-r1:7b     # 8 GB VRAM
ollama run deepseek-r1:8b     # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b    # 16 GB VRAM — recommended
ollama run deepseek-r1:32b    # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b    # dual-GPU / 48 GB

Veredicto: ¿qué destilado de DeepSeek-R1 deberías ejecutar?

La decisión se reduce a tu VRAM y a si priorizas precisión o velocidad. Aquí está la respuesta de una línea para cada caso.

Elige tu destilado

Use a local LLM if:

  • GPU de 16 GB → DeepSeek-R1-Distill-Qwen-14B (mejor en general, la opción por defecto)
  • GPU de 24 GB → DeepSeek-R1-Distill-Qwen-32B (supera a o1-mini, mejor razonador de una sola GPU)
  • GPU de 8 GB → DeepSeek-R1-0528-Qwen3-8B (mejor pequeño) o el destilado de 7B
  • GPU dual / 48 GB → DeepSeek-R1-Distill-Llama-70B (máxima precisión)

Use a cloud model if:

  • Necesitas razonamiento de frontera más allá de cualquier destilado → compáralo con GPT-4o / Claude / Gemini vía PromptQuorum
  • No puedes dedicar una GPU → una API de razonamiento alojada puede salir más barata que comprar hardware

Quick decision:

  • Si tienes dudas, empieza con el 14B en una tarjeta de 16 GB.
  • Ejecuta siempre a temperatura 0.6 sin system prompt.
  • Para programación, usa un modelo de programación, no un destilado de razonamiento.

Preguntas frecuentes

¿Puedo ejecutar el DeepSeek-R1 completo de 671B en local?

No. El DeepSeek-R1 completo es un modelo Mixture-of-Experts de 671B parámetros (~37B activos por token) y necesita aproximadamente 376–404 GB de VRAM en Q4 — solo hardware de centro de datos. En casa ejecutas uno de sus destilados (de 1.5B a 70B). Existe una build Unsloth de 1.58 bits (~131 GB) pero corre a alrededor de 0.3 tokens/segundo, lo que es una curiosidad más que una configuración usable.

¿Qué destilado de DeepSeek-R1 es el mejor en general?

Para la mayoría de la gente, DeepSeek-R1-Distill-Qwen-14B en una GPU de 16 GB es el mejor equilibrio entre calidad de razonamiento, velocidad y ajuste de VRAM. Si tienes una tarjeta de 24 GB, el destilado de 32B es más potente y supera a OpenAI o1-mini en varios benchmarks de razonamiento.

¿Cuál es el mejor modelo de razonamiento pequeño de DeepSeek?

DeepSeek-R1-0528-Qwen3-8B. Está destilado del R1-0528 actualizado sobre una base Qwen3 8B, lidera los modelos abiertos de 8B en AIME 2024 y puntúa unos 10 puntos más alto que el Qwen3 8B base. Encaja en una GPU de 8 GB en Q4_K_M.

¿Cuánta VRAM necesita cada destilado?

En el Q4_K_M por defecto de Ollama: el 7B necesita ~8 GB (archivo ~4.7 GB), el 14B necesita ~16 GB (archivo ~9 GB), el 32B necesita ~24 GB (archivo ~18–20 GB) y el 70B necesita GPU dual o 48 GB (archivo ~40 GB). FP16 es aproximadamente 4× el tamaño de Q4_K_M; Q8_0 es aproximadamente 2×.

¿Es DeepSeek-R1 bueno programando?

Esta guía clasifica solo razonamiento (matemáticas, lógica, multipaso). Para generación de código, las contrapartidas son diferentes — consulta nuestra comparativa dedicada en /power-local-llm/deepseek-vs-qwen-coding-local-2026 en lugar de elegir un destilado de razonamiento para rendimiento de programación.

¿Cuál es la diferencia entre DeepSeek-V3 y DeepSeek-R1?

DeepSeek-V3 es un modelo de chat ajustado para conversación; DeepSeek-R1 es un modelo de razonamiento que produce una cadena de pensamiento explícita antes de responder. Para matemáticas y lógica, usa R1 o un destilado; para chat general, usa V3.

¿Por qué mi destilado de DeepSeek-R1 entra en bucle o produce galimatías?

Casi siempre es un problema de configuración. Pon la temperatura en 0.6 (0.5–0.7 está bien) y elimina cualquier system prompt — coloca todas las instrucciones en el mensaje del usuario. Los destilados de R1 tienen un fallo de repetición conocido que se dispara con los system prompts y las temperaturas extremas.

¿Cómo instalo un destilado de DeepSeek-R1?

Instala Ollama, luego ejecuta un comando para tu nivel, p. ej. `ollama run deepseek-r1:14b`. Todos los destilados van por defecto a Q4_K_M. Consulta la sección de instalación de arriba para la lista completa de comandos.

¿Tiene el destilado de 8B una licencia diferente?

Sí. DeepSeek-R1-Distill-Llama-8B lleva la licencia Llama 3 además de la MIT, porque su base es Llama 3. Los destilados basados en Qwen (1.5B, 7B, 14B, 32B) heredan la licencia de Qwen. Comprueba la licencia antes del uso comercial.

¿Debería comprar una RTX 4060 Ti 16GB o una RTX 4090 para razonamiento?

Si tu presupuesto permite la RTX 4090 y quieres ejecutar el destilado de 32B (que supera a o1-mini), compra la 4090. Si quieres la mejor relación calidad-precio y el destilado de 14B cubre tus necesidades, la RTX 4060 Ti 16GB a ~$420 es la compra más inteligente.

Registro de actualizaciones

  • Publicado el 2026-06-19. Próxima revisión prevista para el 2026-12-19 (nivel de frescura semestral).
  • Cubre los 6 destilados oficiales de DeepSeek-R1 más DeepSeek-R1-0528-Qwen3-8B. Verificado frente a las puntuaciones publicadas de AIME 2024 y las cifras de VRAM en Q4_K_M a fecha de junio de 2026.

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

¿Ejecutas un destilado de DeepSeek-R1 en local? Envía el mismo prompt de razonamiento a tu modelo local y a GPT-4o, Claude y Gemini de una sola vez con PromptQuorum: descubre exactamente dónde el destilado iguala al razonamiento de frontera y dónde se queda corto.

Join the PromptQuorum Waitlist →

← Back to Local LLMs