¿Qué modelo para matemáticas con 8 GB VRAM?

DeepSeek-R1-Distill-Qwen-7B. Obtiene un 88% MATH-500 frente al 62,5% de Qwen2.5 7B con VRAM idéntico.

Inicio/Power Local LLM/DeepSeek vs Qwen: Comparativa de LLM local 2026

Overview & Reference

DeepSeek vs Qwen: Comparativa de LLM local 2026

Última actualización: 2026-05-26·11 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es

Para matemáticas y razonamiento paso a paso, DeepSeek-R1-Distill-Qwen-32B obtiene un 94% en MATH-500 frente al 90,3% de Qwen2.5 32B. Para programación y texto en chino, Qwen2.5 32B logra un 91,5% en HumanEval frente al 83% del destilado DeepSeek. Ambos requieren VRAM idéntico con el mismo número de parámetros.

Los modelos destilados de DeepSeek-R1 y Qwen2.5 son las dos familias dominantes para despliegue local en 2026. Ambas requieren el mismo VRAM con igual número de parámetros — 5,5 GB para 7B en Q4_K_M — pero están optimizadas para fortalezas opuestas. Los destilados de DeepSeek-R1 lideran en matemáticas y razonamiento paso a paso; Qwen2.5 lidera en programación y tareas con texto en chino. Esta guía ofrece una tabla de benchmarks directa, un desglose por nivel de hardware y un veredicto en una frase para cada caso de uso habitual.

Conclusiones clave

Mismo VRAM: ambos modelos 7B necesitan 5,5 GB en Q4_K_M; ambos 32B necesitan 20,5 GB
Matemáticas: DeepSeek-R1-Distill-Qwen-32B gana (94% MATH-500 vs 90,3%)
Programación: Qwen2.5-Coder 32B gana (91,5% HumanEval vs 83%)
Texto en chino: Qwen2.5 gana — tokenización nativa, 30–40% más eficiente en texto CJK
Cadenas de razonamiento: los destilados DeepSeek-R1 producen cadenas de pensamiento largas por defecto
Asistente general: Qwen2.5 14B es algo más fluido; el destilado DeepSeek 14B tiende a razonar en exceso

Tabla de benchmarks comparativa

Todos los resultados con cuantización Q4_K_M. Velocidad medida en NVIDIA RTX 4090 (24 GB VRAM) para filas GPU y Apple M3 Max 48 GB para filas Mac.

Qué modelo ejecutar en cada nivel de hardware

Los requisitos de VRAM son idénticos entre ambas familias para cada tamaño de parámetros. La elección entre DeepSeek y Qwen es una preferencia de tarea, no una restricción de hardware.

8 GB VRAM (RTX 3060 / M2 16 GB): Qwen2.5 7B para programación/chat; DS-R1-Distill-Qwen-7B para tutoría matemática
12 GB VRAM (RTX 3080 / M2 Pro 24 GB): Qwen2.5 14B para uso general; DS-R1-Distill-Qwen-14B para cadenas de razonamiento
24 GB VRAM (RTX 4090 / M3 Max 48 GB): Qwen2.5-Coder 32B o Qwen2.5 32B — el mejor modelo local de propósito general en este nivel
48 GB+ (M2/M3 Ultra / RTX 4090 dual): Qwen2.5 72B (86,1% MMLU, 97% HumanEval) — casi al nivel de GPT-4
Solo CPU (32+ GB RAM): Qwen2.5 7B o DS-R1-Distill 7B — ambos funcionan a 3–8 tok/s en CPUs de portátiles modernos

Modelos locales de DeepSeek explicados

DeepSeek publicó su modelo de razonamiento R1 como una arquitectura MoE (mezcla de expertos) de 671B que requiere hardware de nivel servidor. Para uso local en hardware de consumo, la opción práctica son las versiones destiladas — modelos densos más pequeños entrenados para replicar el razonamiento en cadena de R1.

DeepSeek-R1-Distill-Qwen-7B: 5,5 GB VRAM en Q4_K_M. El modelo matemático más potente en el nivel 7B (88% MATH-500). Produce cadenas de razonamiento largas; desactiva la cadena de pensamiento mediante system prompt para chat más rápido.
DeepSeek-R1-Distill-Qwen-14B: 9,5 GB VRAM. Mejor razonamiento por VRAM en el nivel 14B. Ideal para tutoría matemática, acertijos lógicos y tareas de análisis estructurado.
DeepSeek-R1-Distill-Qwen-32B: 20,5 GB VRAM. La puntuación MATH-500 más alta de cualquier modelo ejecutable en hardware de consumo: 94%. Úsalo cuando la precisión matemática sea prioritaria sobre la programación.
DeepSeek-V3 (completo): 671B MoE — más de 400 GB de RAM en Q4 — impracticable en hardware de consumo. Usa las versiones destiladas en su lugar.
Comando Ollama: ollama run deepseek-r1:7b (usa el destilado Q4_K_M por defecto)

Modelos locales de Qwen2.5 explicados

Qwen2.5 es el lanzamiento de Alibaba de octubre de 2025 que abarca variantes base, Coder y Vision-Language. Todos los modelos base utilizan una ventana de contexto de 128K y licencia Apache 2.0.

Qwen2.5 7B: 5,5 GB VRAM. El mejor 7B de propósito general para programación y texto en chino. Un 74,6% en HumanEval supera a todos los competidores 7B en código.
Qwen2.5 14B: 9,5 GB VRAM. El punto óptimo entre calidad y velocidad. 82,1% HumanEval, 79,2% MMLU. La mejor opción para la mayoría de configuraciones con 12 GB VRAM.
Qwen2.5 32B: 20,5 GB VRAM. 91,5% HumanEval — la mejor puntuación de benchmark de programación por debajo de 48 GB VRAM.
Qwen2.5-Coder 32B: Mismo VRAM que el base 32B, ajustado específicamente para generación y revisión de código. Úsalo en lugar del base cuando la programación sea la tarea principal.
Qwen2.5 72B: 46 GB VRAM. 86,1% MMLU, 97% HumanEval. Solo funciona en memoria unificada de 48+ GB (M2/M3 Ultra) o configuraciones multi-GPU.
Comando Ollama: ollama run qwen2.5:14b-instruct-q4_K_M

Apple Silicon vs NVIDIA: ejecutar ambas familias

Tanto los destilados de DeepSeek como Qwen2.5 funcionan bien en Apple Silicon mediante Ollama o llama.cpp con aceleración Metal. La diferencia clave es el ancho de banda de memoria.

Veredictos por caso de uso

Respuesta en una frase para cada caso de uso habitual de LLM local:

Deberes de matemáticas / tutoría: DS-R1-Distill-Qwen-7B — 88% MATH-500 supera a Qwen2.5 7B (62,5%) con el mismo VRAM
Generación / revisión de código: Qwen2.5-Coder 32B — 91,5% HumanEval, el más alto de cualquier modelo ejecutable en hardware de consumo
Chat en chino: Qwen2.5 7B — tokenización CJK nativa, 30–40% más eficiente en token con texto chino
Análisis paso a paso / cadenas de razonamiento: DS-R1-Distill-Qwen-14B — produce cadena de pensamiento explícita por defecto
Asistente general diario (8 GB VRAM): Qwen2.5 7B — conversación más fluida, evita el exceso de razonamiento de DeepSeek en tareas simples
Despliegue empresarial privado (China): Qwen2.5 — licencia Apache 2.0, procedencia Alibaba simplifica la documentación de cumplimiento CAC

FAQ

¿DeepSeek-R1 es lo mismo que los modelos destilados?

No. DeepSeek-R1 es el modelo de mezcla de expertos de 671B que requiere hardware de servidor. Las versiones destiladas (7B, 14B, 32B) son modelos densos independientes entrenados para replicar su estilo de razonamiento — estas son las opciones prácticas para uso local.

¿DeepSeek y Qwen usan el mismo VRAM en cada tamaño de parámetros?

Sí, al mismo nivel de cuantización. Ambos modelos 7B necesitan aproximadamente 5,5 GB en Q4_K_M; ambos modelos 32B necesitan 20,5 GB. La elección de hardware es sobre preferencia de tarea, no diferencia de VRAM.

¿Puedo ejecutar modelos destilados de DeepSeek-R1 con Ollama?

Sí. Ejecuta ollama run deepseek-r1:7b para el destilado 7B o ollama run deepseek-r1:32b para el 32B. Ollama descarga Q4_K_M por defecto.

¿Cuál es mejor para texto en chino: DeepSeek o Qwen?

Qwen2.5 es significativamente mejor para texto en chino. Utiliza un tokenizador chino diseñado específicamente que es un 30–40% más eficiente en texto CJK. Los modelos destilados de DeepSeek-R1 están construidos sobre pesos de Qwen2.5, por lo que también heredan un soporte razonable de chino, pero los modelos base de Qwen2.5 son la primera elección.

¿Qué modelo debo usar para matemáticas con 8 GB VRAM?

DeepSeek-R1-Distill-Qwen-7B. Obtiene un 88% en MATH-500 frente al 62,5% de Qwen2.5 7B — una diferencia de 25 puntos — con un uso de VRAM idéntico.

¿Ejecutar DeepSeek-R1 localmente cumple con las leyes de datos?

Ejecutar cualquier modelo localmente significa que los datos nunca salen de tu hardware, lo que satisface los requisitos de residencia de datos independientemente del origen del modelo. La pregunta de cumplimiento es sobre el manejo de datos, no la procedencia del modelo.

← Volver a Power Local LLM