Conclusiones clave
- Mismo VRAM: ambos modelos 7B necesitan 5,5 GB en Q4_K_M; ambos 32B necesitan 20,5 GB
- Matemáticas: DeepSeek-R1-Distill-Qwen-32B gana (94% MATH-500 vs 90,3%)
- Programación: Qwen2.5-Coder 32B gana (91,5% HumanEval vs 83%)
- Texto en chino: Qwen2.5 gana — tokenización nativa, 30–40% más eficiente en texto CJK
- Cadenas de razonamiento: los destilados DeepSeek-R1 producen cadenas de pensamiento largas por defecto
- Asistente general: Qwen2.5 14B es algo más fluido; el destilado DeepSeek 14B tiende a razonar en exceso
Tabla de benchmarks comparativa
Todos los resultados con cuantización Q4_K_M. Velocidad medida en NVIDIA RTX 4090 (24 GB VRAM) para filas GPU y Apple M3 Max 48 GB para filas Mac.
Qué modelo ejecutar en cada nivel de hardware
Los requisitos de VRAM son idénticos entre ambas familias para cada tamaño de parámetros. La elección entre DeepSeek y Qwen es una preferencia de tarea, no una restricción de hardware.
- 8 GB VRAM (RTX 3060 / M2 16 GB): Qwen2.5 7B para programación/chat; DS-R1-Distill-Qwen-7B para tutoría matemática
- 12 GB VRAM (RTX 3080 / M2 Pro 24 GB): Qwen2.5 14B para uso general; DS-R1-Distill-Qwen-14B para cadenas de razonamiento
- 24 GB VRAM (RTX 4090 / M3 Max 48 GB): Qwen2.5-Coder 32B o Qwen2.5 32B — el mejor modelo local de propósito general en este nivel
- 48 GB+ (M2/M3 Ultra / RTX 4090 dual): Qwen2.5 72B (86,1% MMLU, 97% HumanEval) — casi al nivel de GPT-4
- Solo CPU (32+ GB RAM): Qwen2.5 7B o DS-R1-Distill 7B — ambos funcionan a 3–8 tok/s en CPUs de portátiles modernos
Modelos locales de DeepSeek explicados
DeepSeek publicó su modelo de razonamiento R1 como una arquitectura MoE (mezcla de expertos) de 671B que requiere hardware de nivel servidor. Para uso local en hardware de consumo, la opción práctica son las versiones destiladas — modelos densos más pequeños entrenados para replicar el razonamiento en cadena de R1.
- DeepSeek-R1-Distill-Qwen-7B: 5,5 GB VRAM en Q4_K_M. El modelo matemático más potente en el nivel 7B (88% MATH-500). Produce cadenas de razonamiento largas; desactiva la cadena de pensamiento mediante system prompt para chat más rápido.
- DeepSeek-R1-Distill-Qwen-14B: 9,5 GB VRAM. Mejor razonamiento por VRAM en el nivel 14B. Ideal para tutoría matemática, acertijos lógicos y tareas de análisis estructurado.
- DeepSeek-R1-Distill-Qwen-32B: 20,5 GB VRAM. La puntuación MATH-500 más alta de cualquier modelo ejecutable en hardware de consumo: 94%. Úsalo cuando la precisión matemática sea prioritaria sobre la programación.
- DeepSeek-V3 (completo): 671B MoE — más de 400 GB de RAM en Q4 — impracticable en hardware de consumo. Usa las versiones destiladas en su lugar.
- Comando Ollama:
ollama run deepseek-r1:7b(usa el destilado Q4_K_M por defecto)
Modelos locales de Qwen2.5 explicados
Qwen2.5 es el lanzamiento de Alibaba de octubre de 2025 que abarca variantes base, Coder y Vision-Language. Todos los modelos base utilizan una ventana de contexto de 128K y licencia Apache 2.0.
- Qwen2.5 7B: 5,5 GB VRAM. El mejor 7B de propósito general para programación y texto en chino. Un 74,6% en HumanEval supera a todos los competidores 7B en código.
- Qwen2.5 14B: 9,5 GB VRAM. El punto óptimo entre calidad y velocidad. 82,1% HumanEval, 79,2% MMLU. La mejor opción para la mayoría de configuraciones con 12 GB VRAM.
- Qwen2.5 32B: 20,5 GB VRAM. 91,5% HumanEval — la mejor puntuación de benchmark de programación por debajo de 48 GB VRAM.
- Qwen2.5-Coder 32B: Mismo VRAM que el base 32B, ajustado específicamente para generación y revisión de código. Úsalo en lugar del base cuando la programación sea la tarea principal.
- Qwen2.5 72B: 46 GB VRAM. 86,1% MMLU, 97% HumanEval. Solo funciona en memoria unificada de 48+ GB (M2/M3 Ultra) o configuraciones multi-GPU.
- Comando Ollama:
ollama run qwen2.5:14b-instruct-q4_K_M
Apple Silicon vs NVIDIA: ejecutar ambas familias
Tanto los destilados de DeepSeek como Qwen2.5 funcionan bien en Apple Silicon mediante Ollama o llama.cpp con aceleración Metal. La diferencia clave es el ancho de banda de memoria.
Veredictos por caso de uso
Respuesta en una frase para cada caso de uso habitual de LLM local:
- Deberes de matemáticas / tutoría: DS-R1-Distill-Qwen-7B — 88% MATH-500 supera a Qwen2.5 7B (62,5%) con el mismo VRAM
- Generación / revisión de código: Qwen2.5-Coder 32B — 91,5% HumanEval, el más alto de cualquier modelo ejecutable en hardware de consumo
- Chat en chino: Qwen2.5 7B — tokenización CJK nativa, 30–40% más eficiente en token con texto chino
- Análisis paso a paso / cadenas de razonamiento: DS-R1-Distill-Qwen-14B — produce cadena de pensamiento explícita por defecto
- Asistente general diario (8 GB VRAM): Qwen2.5 7B — conversación más fluida, evita el exceso de razonamiento de DeepSeek en tareas simples
- Despliegue empresarial privado (China): Qwen2.5 — licencia Apache 2.0, procedencia Alibaba simplifica la documentación de cumplimiento CAC
FAQ
¿DeepSeek-R1 es lo mismo que los modelos destilados?
No. DeepSeek-R1 es el modelo de mezcla de expertos de 671B que requiere hardware de servidor. Las versiones destiladas (7B, 14B, 32B) son modelos densos independientes entrenados para replicar su estilo de razonamiento — estas son las opciones prácticas para uso local.
¿DeepSeek y Qwen usan el mismo VRAM en cada tamaño de parámetros?
Sí, al mismo nivel de cuantización. Ambos modelos 7B necesitan aproximadamente 5,5 GB en Q4_K_M; ambos modelos 32B necesitan 20,5 GB. La elección de hardware es sobre preferencia de tarea, no diferencia de VRAM.
¿Puedo ejecutar modelos destilados de DeepSeek-R1 con Ollama?
Sí. Ejecuta ollama run deepseek-r1:7b para el destilado 7B o ollama run deepseek-r1:32b para el 32B. Ollama descarga Q4_K_M por defecto.
¿Cuál es mejor para texto en chino: DeepSeek o Qwen?
Qwen2.5 es significativamente mejor para texto en chino. Utiliza un tokenizador chino diseñado específicamente que es un 30–40% más eficiente en texto CJK. Los modelos destilados de DeepSeek-R1 están construidos sobre pesos de Qwen2.5, por lo que también heredan un soporte razonable de chino, pero los modelos base de Qwen2.5 son la primera elección.
¿Qué modelo debo usar para matemáticas con 8 GB VRAM?
DeepSeek-R1-Distill-Qwen-7B. Obtiene un 88% en MATH-500 frente al 62,5% de Qwen2.5 7B — una diferencia de 25 puntos — con un uso de VRAM idéntico.
¿Ejecutar DeepSeek-R1 localmente cumple con las leyes de datos?
Ejecutar cualquier modelo localmente significa que los datos nunca salen de tu hardware, lo que satisface los requisitos de residencia de datos independientemente del origen del modelo. La pregunta de cumplimiento es sobre el manejo de datos, no la procedencia del modelo.