¿Cuánta RAM necesita DeepSeek V3 en local?

Aproximadamente 400 GB RAM en cuantización Q4_K_M. En precisión FP16, se necesitan más de 1.3 TB de RAM.

¿Puede llama.cpp ejecutar DeepSeek V3?

Técnicamente sí si tienes ~400 GB RAM, pero la velocidad de inferencia sería ~0.1–0.5 tok/s. Para uso práctico, las versiones destiladas son la opción correcta.

¿Es la versión destilada igual de buena que DeepSeek V3?

Para tareas de razonamiento: DS-R1-Distill-Qwen-32B (94% MATH-500) supera al V3 completo en benchmarks de matemáticas. Para conocimiento general amplio, V3 es mejor, pero requiere acceso a la API cloud.

¿Cuál es la diferencia entre DeepSeek V3 y DeepSeek-R1?

DeepSeek V3 es un modelo de chat de propósito general (671B MoE). DeepSeek-R1 es un modelo de razonamiento entrenado con reinforcement learning. Las versiones destiladas (Qwen-7B/14B/32B) son modelos densos más pequeños que conservan la capacidad de razonamiento de R1.

¿Cuáles son los requisitos de hardware para ejecutar DeepSeek V3 en local?

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Respuesta rápida

No. DeepSeek V3 (671B MoE) necesita ~400 GB RAM en Q4_K_M — muy por encima de cualquier hardware de consumo. Alternativa práctica: DS-R1-Distill-Qwen-32B (20.5 GB VRAM, 94% MATH-500).

▸DeepSeek V3: 671B MoE — ~400 GB RAM en Q4_K_M
▸Ninguna GPU de consumo puede cargarlo
▸DS-R1-Distill-Qwen-32B: 20.5 GB VRAM, 94% MATH-500 ✓

Actualizado: 20 de junio de 2026

Model ComparisonsIntermedio

Puntos clave

✓DeepSeek V3 (671B MoE) en Q4_K_M necesita ~400 GB RAM — imposible con hardware de consumo en 2026
✓DS-R1-Distill-Qwen-32B: 20.5 GB VRAM, 94% MATH-500 — el modelo de razonamiento local más práctico
✓Con 8 GB VRAM: DS-R1-Distill-Qwen-7B (5.5 GB), 88% MATH-500
✓Nota MoE: DeepSeek V3 activa solo ~37B parámetros por forward pass, pero los 671B de pesos deben estar en memoria simultáneamente

Verificación de la realidad del hardware de DeepSeek V3

**Modelo completo (671B, Q4_K_M):** ~400 GB RAM — se necesita una workstation de servidor. Ninguna GPU de consumo lo soporta.

**Por qué MoE no ayuda aquí:** DeepSeek V3 activa solo ~37B parámetros por forward pass. Pero todos los 671B tensores de pesos deben estar en memoria simultáneamente.

Alternativas prácticas por nivel de hardware

**8 GB VRAM (RTX 3060 / M2):** DS-R1-Distill-Qwen-7B Q4_K_M — 88% MATH-500, el modelo de razonamiento local más fuerte en 7B.

**12–16 GB VRAM (RTX 3080 / M2 Pro):** DS-R1-Distill-Qwen-14B Q4_K_M — 90% MATH-500, razonamiento paso a paso en problemas complejos.

**24 GB VRAM (RTX 4090 / M3 Max):** DS-R1-Distill-Qwen-32B Q4_K_M — 94% MATH-500, supera al V3 completo en benchmarks de matemáticas estandarizados.

**64+ GB RAM (sin GPU dedicada):** Qwen3-72B Q4_K_M — inferencia CPU, 0.5–1 tok/s, mejor modelo local grande de propósito general.

Para la familia completa R1 reasoning — guía de hardware, benchmarks y comandos Ollama: [Mejor modelo de razonamiento local 2026](/es/local-llms/best-local-reasoning-model-deepseek-r1-2026) · [Chuleta de VRAM](/es/prompt-bites/deepseek-r1-distill-vram-cheatsheet)

Preguntas frecuentes

¿Quieres el desglose completo?

Leer la guía completa →

Prompt Bites relacionados

← Volver a Prompts en breve