Key Takeaways
- Cálculo de VRAM: (tamaño del modelo en GB) ÷ Cuantización = VRAM necesaria. Ejemplo: 70B en Q4 = 70 ÷ 8 = 8,75 GB × parámetros ≈ 39 GB en total.
- 12 GB VRAM (RTX 4070 Ti): Mejor modelo: Llama 4 Scout 17B Q4_K_M (~10 GB, MoE, mejor calidad general). También: Llama 3.1 8B Q8 (~9 GB, 80 tok/s).
- 16 GB VRAM (RTX 4080 / RTX 5080): Mejor modelo: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s). También: Devstral Small 24B Q4_K_M para programación agentiva.
- 24 GB VRAM (RTX 4090): La mayoría de los modelos 70B en Q4_K_M (39 GB) NO caben. Mejor opción: DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s) o Qwen 3.6 27B (~16 GB, 77,2% SWE-bench).
- Solo CPU (16 GB de RAM del sistema): Llama 3.2 3B Q8 (20 tok/s) o Phi-4 Mini Q4_K_M (25 tok/s). Una RTX 4060 usada de 8 GB (~$150) o RTX 5060 Ti 12 GB (~$250) es 5-10 veces más rápida.
- Apple M5 Max (128 GB unificada): Primer Mac que ejecuta modelos 70B en Q4_K_M — comparable a estaciones de trabajo con doble RTX 4090 en formato laptop o Mac Studio.
- Consejo de velocidad llama.cpp: Siempre usa `--n-gpu-layers 99`. Esto solo duplica la velocidad en RTX 4070 Ti de ~40 a ~85 tok/s.
- Referencia rápida: 7B@Q4_K_M = 4,7 GB | 70B@Q4_K_M = 40 GB | RTX 4070 Ti = ~80 tok/s | RTX 4090 = ~150 tok/s | Solo CPU 16 GB = 12-28 tok/s
Mejores GPUs para comprar — Recomendaciones 2026
Elegir una GPU depende de tu presupuesto y el tamaño del modelo que quieres ejecutar. Las series NVIDIA RTX 40 (4060, 4070 Ti, 4090) y RTX 50 (5060 Ti, 5080) dominan para LLMs locales en 2026. Aquí están las mejores recomendaciones por caso de uso:
- Para modelos 7B (Mistral, Phi-4, Llama 3.2) — Económica: RTX 4060 (8 GB VRAM, ~$180–220). Ejecuta cualquier modelo 7B en Q4_K_M. Velocidad: 40–60 tok/s. Nivel: Entusiastas con presupuesto.
- Para modelos 14B (Llama 3.1, DeepSeek-R1) — Mainstream: RTX 4070 Ti (12 GB VRAM, ~$500–600). Mejor relación precio-rendimiento. Llama 4 Scout 17B Q4 funciona bien. Velocidad: 85–120 tok/s. Nivel: El más popular.
- Para modelos 33B (Qwen2.5, Mistral Small) — Gama media: RTX 4080 o RTX 5080 (16 GB VRAM, ~$1000–1200). Ejecuta Devstral Small 24B Q4_K_M. Velocidad: 110–140 tok/s. Nivel: Desarrolladores profesionales.
- Para modelos 70B (Llama 3.3, Qwen 3.6) — Gama alta: RTX 4090 (24 GB VRAM, ~$1700–2000). Ejecuta 70B en Q3_K_M (~25 GB). Para Q4_K_M (40 GB), usa doble RTX 4090. Velocidad: 150–180 tok/s GPU única. Nivel: Investigación + producción.
- Mejor valor 2026: Combinación RTX 4070 Ti + RTX 5060 Ti 12 GB (~$750 en total) — ejecuta 70B en Q3 y 14B en Q4 simultáneamente.
- Para usuarios de Apple: Mac M5 Max (128 GB de memoria unificada) primer Mac que ejecuta modelos 70B reales. ~$6000. Rendimiento equivalente a una configuración de doble RTX 4090.
| GPU | Ideal para | Precio | Velocidad | Nivel |
|---|---|---|---|---|
| RTX 4060 (8 GB) | Modelos 7B | ~$180–220 | 40–60 tok/s | Económica |
| RTX 4070 Ti (12 GB) | Modelos 14B | ~$500–600 | 85–120 tok/s | Mainstream |
| RTX 4080 / RTX 5080 (16 GB) | Modelos 33B | ~$1000–1200 | 110–140 tok/s | Profesional |
| RTX 4090 (24 GB) | 70B (Q3) | ~$1700–2000 | 150–180 tok/s | Gama alta |
| Doble RTX 4090 | 70B (Q4) | ~$3400–4000 | 280–360 tok/s | Empresa |
| Mac M5 Max 128GB | 70B (Q4) | ~$6000 | 120–160 tok/s | Laptop Pro |
¿Cómo calculas los requisitos de VRAM?
Los requisitos de VRAM dependen de tres factores: tamaño del modelo (parámetros), cuantización (bits por peso) y modo de inferencia. Usa esta fórmula para determinar si tu GPU tiene suficiente memoria. Para una calculadora interactiva, consulta la calculadora de VRAM para LLMs locales.
Fórmula:
```text VRAM (GB) = (Tamaño del modelo × Bits de cuantización) ÷ 8 ```
Valores de cuantización: FP16 = 16 bits, Q8_0 = 8 bits, Q5_K_M = 5 bits, Q4_K_M = 4 bits. El punto óptimo práctico es Q4_K_M -- usa pesos de 4 bits con K-cuantización, que las GPUs NVIDIA aceleran de manera más eficiente que el formato Q4_0 más antiguo.
| Modelo | FP16 | Q8_0 | Q5_K_M | Q4_K_M |
|---|---|---|---|---|
| Llama 4 Scout 17B (activo) | ~34 GB | ~18 GB | ~12 GB | ~10 GB |
| Llama 3.1 8B | 16 GB | 8,5 GB | 5,7 GB | 4,7 GB |
| Qwen 3.6 27B | ~54 GB | ~28 GB | ~19 GB | ~16 GB |
| Qwen3 8B | ~16 GB | ~8,5 GB | ~5,7 GB | ~5 GB |
| Llama 3.3 70B | 140 GB | 70 GB | 48 GB | 40 GB |
| Qwen2.5 32B | 64 GB | 33 GB | 22 GB | 19 GB |
| Mistral Small 3.1 24B | 48 GB | 25 GB | 17 GB | 14 GB |
| Phi-4 Mini 3.8B | 7,6 GB | 4,1 GB | 2,7 GB | 2,3 GB |
Q4_K_M es el valor predeterminado recomendado para hardware de consumidor -- 90-95% de la calidad de FP16 al 25-30% del costo de VRAM. Llama 4 Scout usa arquitectura MoE con 17B parámetros activos de 109B en total. La VRAM está determinada por los parámetros activos para la inferencia, no los parámetros totales.
•KeyPoint: En una oración: La VRAM es el grupo de memoria dedicado de la GPU — el único número que determina qué modelos de IA puedes ejecutar localmente y con qué calidad.
KV Cache: el costo oculto de VRAM
La fórmula de VRAM (Tamaño del modelo × Bits ÷ 8) cubre solo los pesos del modelo — el KV cache añade VRAM adicional significativa que la mayoría de las guías ignoran.
El KV cache almacena el estado de atención para cada token en tu ventana de contexto. Crece linealmente con la longitud del contexto y permanece en VRAM durante toda la sesión.
Fórmula de VRAM del KV cache: `KV cache ≈ capas × cabezas × dim_cabeza × 2 × longitud_contexto × 2 bytes`
| Modelo | Contexto 4K | Contexto 32K | Contexto 128K |
|---|---|---|---|
| Llama 3.1 8B | 0,5 GB | 4 GB | 16 GB |
| Llama 3.3 70B | 2 GB | 16 GB | 64 GB |
| Qwen2.5 32B | 1 GB | 8 GB | 32 GB |
•KeyPoint: En una oración: El KV cache es la VRAM temporal usada para almacenar el contexto de la conversación — crece con cada token que generas y es separado del almacenamiento de pesos del modelo.
⚠️Warning: Un Llama 3.1 8B en Q4_K_M necesita 4,7 GB para los pesos -- pero añade una ventana de contexto de 32K y la VRAM total sube a ~8,7 GB. En una tarjeta de 8 GB, esto causa errores de OOM.
•KeyPoint: Regla general: Añade 25% al tamaño de los pesos del modelo para un contexto típico de 8K, 100% para contexto de 32K. El contexto predeterminado de Ollama es 2048 tokens. Para configurar uno mayor: PARAMETER num_ctx 32768 en tu Modelfile.
¿Qué nivel de GPU se ajusta a tu carga de trabajo?
A mayo de 2026, las GPUs NVIDIA ofrecen los tokens/seg más altos para inferencia de LLMs locales en todos los rangos de precio. Las secciones siguientes dan recomendaciones específicas de modelos. Para una comparación detallada de benchmarks, consulta la guía de mejores GPUs para LLMs locales.
| Nivel | GPU | VRAM | Ideal para | Velocidad |
|---|---|---|---|---|
| Económica ($600) | RTX 4070 Ti / RTX 5070 | 12 GB | Modelos 7-13B | ~80 tok/s |
| Media ($900) | RTX 5070 Ti | 16 GB | Modelos 13-30B | ~100 tok/s |
| Alta ($1.200) | RTX 4080 / RTX 5080 | 16 GB | Modelos 13-30B | ~120 tok/s |
| Top ($1.800) | RTX 4090 | 24 GB | Modelos 32B, 70B en Q2_K | ~150 tok/s |
| Última gen ($2.000) | RTX 5090 | 32 GB | 70B + margen | ~200 tok/s |
| Servidor ($3.000+) | RTX 6000 Ada / A100 | 48+ GB | Multi-usuario, 70B+ | Producción |
| Desktop IA ($3.999) | NVIDIA DGX Spark | 128 GB | Cualquier modelo, unificada | 18-28 tok/s |
•KeyPoint: A mayo de 2026, la serie RTX 50 (Blackwell) es la generación actual. La RTX 5090 (32 GB) está lista para el futuro con modelos 70B. La RTX 4090 sigue siendo excelente valor para compradores actuales.
Mejores LLMs locales por nivel de VRAM (mayo 2026)
Usa esto como referencia rápida según el nivel de VRAM de tu GPU:
Todos los modelos listados a continuación son de pesos abiertos — descargables, ajustables y gratuitos para ejecutar localmente. Si estás eligiendo entre pesos abiertos y APIs propietarias, consulta nuestra comparación de LLMs de código abierto vs propietarios para evaluar costos y rendimiento.
El hardware determina qué modelos puedes ejecutar; la ingeniería de prompts determina qué tan bien rinden. Un prompt bien estructurado en un modelo 7B a menudo supera a un prompt descuidado en un modelo 70B. Consulta la guía completa de ingeniería de prompts para técnicas que maximizan la calidad de salida a cualquier número de parámetros.
- 8 GB VRAM (RTX 4060, RTX 5060 Ti, Intel B580): Llama 3.1 8B Q4_K_M (4,7 GB, ~70 tok/s) -- recomendado. Qwen3 8B (5 GB, mejor multilingüe + programación). Phi-4 Mini 3.8B (2,3 GB, el más rápido). Gemma 2 9B (5,5 GB, cabe con cuidado). Evita modelos 13B+.
- 12 GB VRAM (RTX 4070 Ti, RTX 5070, Intel B770): Llama 4 Scout 17B Q4_K_M (~10 GB, mejor calidad general, MoE). Llama 3.1 8B (4,7 GB, rápido con margen). Qwen2.5 14B Q4_K_M (8,5 GB, mejor razonamiento en presupuesto). DeepSeek-R1 8B (5 GB, mejor razonamiento). Evita 30B+.
- 16 GB VRAM (RTX 4080, RTX 5070 Ti, RTX 5080): Mistral Small 3.1 24B Q4_K_M (14 GB, mejor calidad en el nivel). Devstral Small 24B Q4_K_M (~16 GB) para flujos de trabajo de programación agentiva. Qwen2.5 14B (9 GB, rápido con margen de contexto). Llama 3.3 70B en Q2_K (17 GB, posible pero calidad degradada).
- 24 GB VRAM (RTX 5090, RTX 4090, Tesla L40): Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, mejor modelo de programación denso). DeepSeek-R1 32B Q4_K_M (~19 GB, mejor razonamiento). Qwen2.5 32B Q5_K_M (~21 GB). Llama 3.3 70B necesita 2× 24 GB GPUs en Q4_K_M.
- 32 GB VRAM (RTX 5090): Llama 3.3 70B Q4_K_M (40 GB -- necesita mínima descarga a CPU para las últimas capas). Kimi K2.6 cuantizado (MoE, 42B activo, licencia MIT, mejor programación). Qwen2.5 32B (19 GB, cabe completamente con 13 GB libres). La RTX 5090 es la primera GPU de consumidor que cabe 70B con mínima descarga.
- 48+ GB VRAM (RTX 6000 Ada, A100, DGX Spark): Llama 3.3 70B Q4_K_M (40 GB, cabe completamente). Llama 4 Maverick (17B activo, 400B total, MoE). Llama 3.3 70B Q8_0 (70 GB -- necesita A100 de 80 GB). NVIDIA DGX Spark (128 GB unificada) cabe todos los modelos de pesos abiertos incluyendo 70B en Q8_0 con 58 GB de sobra.
¿Qué LLMs locales funcionan mejor con 16 GB de VRAM?
En una GPU de 16 GB de VRAM (NVIDIA RTX 4080, RTX 5080 o RTX 4090 laptop), el techo práctico son modelos de 14-24B. Mistral Small 3.1 24B en Q4_K_M es la mejor opción general: usa 13 GB de VRAM, corre a 55 tok/s y es de origen europeo con licencia Apache 2.0.
Devstral Small 24B Q4_K_M cabe a ~16 GB y está optimizado para flujos de trabajo de programación agentiva. La tabla a continuación muestra qué modelos caben y cuáles no. Las filas de "NO cabe" se incluyen intencionalmente — este es el error más común que cometen los dueños de 16 GB.
| Modelo | Cuantización | VRAM usada | Velocidad (RTX 4080) | Ideal para | ¿Cabe en 16 GB? |
|---|---|---|---|---|---|
| Mistral Small 3.1 24B | Q4_K_M | ~13 GB | 55 tok/s | Chat general | ✅ Sí |
| Devstral Small 24B | Q4_K_M | ~16 GB | 45 tok/s | Programación agentiva | ✅ Justo |
| Qwen2.5 14B | Q8_0 | ~15 GB | 45 tok/s | Programación + razonamiento | ✅ Sí |
| DeepSeek-R1 14B | Q8_0 | ~15 GB | 40 tok/s | Matemáticas + análisis | ✅ Sí |
| Llama 3.1 8B | FP16 | ~16 GB | 70 tok/s | Respuestas más rápidas | ✅ Justo |
| Llama 3.3 70B | Q4_K_M | ~39 GB | -- | -- | ❌ No (necesita 39 GB) |
•ProTip: 🏆 Mejor general para 16 GB: Mistral Small 3.1 24B Q4_K_M a ~13 GB, 55 tok/s. Para programación agentiva: Devstral Small 24B (Mistral AI, Francia) a 45 tok/s. Mejor razonamiento: DeepSeek-R1 14B Q8_0 a 40 tok/s.
⚠️Warning: Las GPUs RTX 4090 para laptop tienen 16 GB de VRAM (no 24 GB). Comparten el mismo techo de modelos que la RTX 4080 de escritorio.
•KeyPoint: Cuándo actualizar a 24 GB (RTX 4090 escritorio): solo si necesitas modelos 32B+ en Q8, o quieres ejecutar dos modelos simultáneamente sin recargar.
¿Qué LLMs locales funcionan mejor con 12 GB de VRAM?
En una GPU de 12 GB de VRAM (NVIDIA RTX 4070 Ti, RTX 5070 o RTX 5060 Ti), puedes ejecutar modelos 7-8B en Q8, 14B en Q4_K_M o el nuevo Llama 4 Scout 17B en Q4_K_M (MoE). Llama 4 Scout usa una arquitectura de Mezcla de Expertos con 17B parámetros activos de 109B en total — esto hace que Scout sea significativamente más eficiente en VRAM de lo que sugiere su cantidad de parámetros.
Llama 3.1 8B en Q8_0 es la opción más confiable para configuraciones conservadoras: 9 GB de VRAM, 80 tok/s y calidad completa de seguimiento de instrucciones. Qwen2.5 14B en Q4_K_M también cabe a ~8,5 GB y ofrece un razonamiento notablemente mejor que el nivel 8B.
| Modelo | Cuantización | VRAM usada | Velocidad (RTX 4070 Ti) | Ideal para | ¿Cabe en 12 GB? |
|---|---|---|---|---|---|
| Llama 4 Scout 17B | Q4_K_M | ~10 GB | ~65 tok/s | Mejor general (MoE) | ✅ Sí |
| Llama 3.1 8B | Q8_0 | ~9 GB | 80 tok/s | Chat general + programación | ✅ Sí |
| Qwen2.5 14B | Q4_K_M | ~8,5 GB | 65 tok/s | Mejor razonamiento en presupuesto | ✅ Sí |
| Llama 3.2 11B Vision | Q5_K_M | ~8 GB | 65 tok/s | Tareas de imagen + texto | ✅ Sí |
| Qwen3 8B | Q8_0 | ~8 GB | 85 tok/s | Mejor multilingüe + programación | ✅ Sí |
| Mistral 7B v0.3 | FP16 | ~14 GB | -- | -- | ❌ No (necesita 14 GB en FP16) |
•ProTip: 🏆 Mejor general para 12 GB: Llama 4 Scout 17B Q4_K_M a ~10 GB. La arquitectura MoE significa 17B parámetros activos con 109B en total — mejor calidad que cualquier modelo denso 8B a costo similar de VRAM. Si prefieres modelos densos, usa Llama 3.1 8B Q8_0 a ~9 GB.
•KeyPoint: La RTX 3060 12 GB es el punto de entrada económico (~$200 usada). Ejecuta todos los modelos de 12 GB pero a ~60-70 tok/s vs ~80-90 tok/s en RTX 4070 Ti debido a la arquitectura de memoria más antigua.
¿Qué modelos 70B realmente caben en 24 GB de VRAM (RTX 4090)?
La RTX 4090 tiene 24 GB de VRAM — no suficiente para la mayoría de los modelos 70B a calidad aceptable. Llama 3.3 70B en Q4_K_M requiere aproximadamente 39 GB. El error común es pensar que "Q4 es pequeño" — a 70B parámetros, incluso Q4 es grande.
En una RTX 4090 única, la mejor estrategia son modelos de 27-32B, que ofrecen buena calidad y caben cómodamente. Qwen 3.6 27B en Q4_K_M es el mejor modelo de programación denso (77,2% SWE-bench). Para 70B verdadero en Q4+, necesitas 2× RTX 4090 o una GPU de servidor de 48 GB. Consulta cómo ejecutar modelos 70B en 24 GB de VRAM para técnicas avanzadas.
| Modelo | Cuantización | VRAM requerida | ¿Cabe en 24 GB? | Velocidad (RTX 4090) | Notas |
|---|---|---|---|---|---|
| Qwen 3.6 27B | Q4_K_M | ~16 GB | ✅ Sí | 55 tok/s | Mejor modelo de programación denso, 77,2% SWE-bench |
| DeepSeek-R1 32B | Q4_K_M | ~19 GB | ✅ Sí | 60 tok/s | Mejor razonamiento, alta calidad general |
| Qwen2.5 32B | Q5_K_M | ~21 GB | ✅ Sí | 55 tok/s | Alta calidad, excelente programación + instrucciones |
| Qwen2.5 32B | Q8_0 | ~34 GB | ❌ No | -- | Requiere GPU de 48 GB |
| Llama 3.3 70B | Q2_K | ~24 GB | ⚠️ Justo | 30 tok/s | Cabe pero la calidad Q2 se degrada notablemente |
| Llama 3.3 70B | Q4_K_M | ~39 GB | ❌ No | -- | Necesita 2× RTX 4090 o A100 80 GB |
•KeyPoint: 🏆 Mejor para RTX 4090 (24 GB): Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) para el mejor modelo de programación denso. Para razonamiento: DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s). Mejor que Llama 3.3 70B Q2_K con mucho menos VRAM.
⚠️Warning: Si específicamente necesitas calidad 70B en Q4+, la RTX 4090 no es la GPU correcta. Necesitas 2× RTX 4090 (48 GB combinados vía paralelismo tensorial) o una RTX 6000 Ada (48 GB). Ejecutar 70B en Q2_K en una sola 4090 degrada notablemente la calidad de salida.
¿Qué CPU y RAM necesitas?
Con una GPU dedicada, la CPU y la RAM son componentes secundarios. La GPU maneja el cálculo matricial; la CPU/RAM gestionan la preparación del contexto. Para una comparación completa de velocidades de inferencia GPU vs CPU vs Apple Silicon, consulta la guía GPU vs CPU vs Apple Silicon.
CPU mínima: procesador de 8 núcleos (Intel Core i7 gen 14, AMD Ryzen 7 7700X o más reciente). Las CPUs más antiguas añaden 20%+ de latencia.
RAM: 16 GB mínimo (con GPU). Si ejecutas sin GPU, se recomiendan 32+ GB. La RAM no limita directamente el tamaño del modelo cuando hay GPU presente.
Almacenamiento: SSD de 500 GB para archivos de modelo y SO. Se prefiere M.2 NVMe (carga de modelos más rápida).
¿Qué modelos funcionan bien con 16 GB de RAM del sistema sin GPU?
Sin GPU, una máquina con 16 GB de RAM del sistema puede ejecutar modelos 3B-7B a 8-20 tokens/s usando inferencia CPU. El cuello de botella es el ancho de banda de memoria, no la capacidad de RAM — las CPUs tienen un ancho de banda mucho menor que las GPUs, razón por la cual la inferencia es 5-10 veces más lenta.
Con 16 GB de RAM del sistema, la regla práctica es: tamaño del archivo del modelo + 4 GB de overhead del SO ≤ 16 GB. Un modelo 7B en Q4_K_M (4,9 GB) cabe, pero deja poco margen para contextos largos. La tabla a continuación muestra opciones realistas a mayo de 2026.
Para una guía completa de modelos optimizados por velocidad que cubre solo CPU, 4 GB, 6 GB y 8 GB de VRAM con benchmarks reales, consulta **LLMs Locales Más Rápidos para PCs de Gama Baja**.
| Modelo | Cuantización | RAM usada | Velocidad (Ryzen 9 7950X) | Ideal para | Notas |
|---|---|---|---|---|---|
| Gemma 2 2B | Q8_0 | ~2,7 GB | 28 tok/s | Más rápido, mínima RAM | Deja 13 GB libres para SO |
| Phi-4 Mini 3.8B | Q4_K_M | ~2,5 GB | 25 tok/s | Programación en CPU | Mejor relación calidad-RAM |
| Llama 3.2 3B | Q8_0 | ~3,8 GB | 20 tok/s | Chat general, poca RAM | Fiable, ampliamente compatible |
| Llama 3.1 8B | Q4_K_M | ~4,9 GB | 12 tok/s | Mejor calidad CPU | 12 tok/s es lento pero utilizable para tareas por lotes |
| Llama 3.1 8B | Q8_0 | ~9 GB | 8 tok/s | Máxima calidad en CPU | Demasiado lento para uso interactivo en la mayoría de CPUs |
•ProTip: 🏆 Mejor para 16 GB RAM, sin GPU: Phi-4 Mini 3.8B Q4_K_M (2,5 GB, 25 tok/s). Ofrece programación y razonamiento sorprendentemente sólidos para su tamaño.
•KeyPoint: Realidad CPU vs GPU: Una NVIDIA RTX 3060 12 GB usada (~$200) ejecuta Llama 3.1 8B a 70+ tok/s — 5-8 veces más rápido que el Ryzen 9 7950X en inferencia solo CPU. Si la velocidad importa, compra una GPU antes de añadir RAM.
⚠️Warning: Ejecutar un modelo 7B en 16 GB de RAM solo con CPU deja menos de 7 GB para el SO y el navegador. Con contextos de conversación largos (32k+ tokens), el archivo del modelo crece más allá de su tamaño base y puede causar agotamiento de RAM. Mantén el tamaño del contexto por debajo de 4096 en máquinas solo CPU de 16 GB.
¿Cuánto almacenamiento necesitas?
Los archivos de modelo son grandes: un modelo 7B a cuantización de 4 bits son 4-5 GB. Planifica el almacenamiento según el número y tamaño de los modelos que quieras conservar localmente.
- SSD de 500 GB: SO + 1-2 modelos pequeños (3B, 7B)
- SSD de 1 TB: SO + 3-5 modelos (mezcla de 7B y 13B)
- SSD de 2 TB: SO + 10+ modelos (varios tamaños)
- NVMe RAID de 4 TB: Configuración de producción, carga rápida de modelos
¿Qué hardware deberías comprar?
Construir una máquina para LLMs locales desde cero significa priorizar primero la GPU, luego CPU y RAM. Aquí hay tres configuraciones realistas. Para builds multi-GPU, consulta la guía de LLMs locales multi-GPU.
| Presupuesto | GPU | CPU | RAM | Modelos | Costo |
|---|---|---|---|---|---|
| $1500 (entrada) | RTX 4070 Ti | i7 13700 | 16 GB | 7-13B | Realista |
| $2500 (sólido) | RTX 4080 | i7 14700K | 32 GB | 13-30B | Recomendado |
| $4000 (gama alta) | 2× RTX 4090 | Ryzen 9 7950X | 128 GB | Cualquiera (70B+) | Excesivo para uso personal |
¿Qué pasa si no puedes costear el hardware?
Si una GPU de $250–400 está fuera de tu presupuesto, o tu laptop es demasiado vieja para soportar motores de inferencia modernos, los LLMs locales pueden no ser rentables para ti en 2026.
Calcula el costo real:
- Local: $800–2.000 de hardware inicial + electricidad + mantenimiento durante 2–3 años
- Cloud: $5–50/mes para uso típico de desarrollador (API de Llama o GPT-4o mini)
Para usuarios ligeros (< 100.000 tokens/mes), las APIs de cloud cuestan $5–10/mes y no requieren hardware. Para usuarios intensivos (> 10M tokens/mes), lo local se amortiza en 6–12 meses.
Compara el análisis completo de costos y rendimiento local vs cloud** para encontrar tu punto de equilibrio. Muchos desarrolladores descubren que el cloud es más barato para su patrón de uso real.
¿Ya buscas por debajo de los niveles de VRAM recomendados? Consulta Mejor app de IA local para PC de gama baja para saber qué combinaciones de modelo y app realmente funcionan con 8 GB o menos.
¿Cómo maximizas la velocidad de llama.cpp en RTX 4070 Ti?
Con la configuración correcta, llama.cpp en una RTX 4070 Ti logra 85-95 tokens/s en Llama 3.1 8B Q4_K_M — más del doble de la velocidad predeterminada. El indicador más impactante es `--n-gpu-layers 99`, que descarga todas las capas del modelo a la GPU. Sin él, las capas recurren a la CPU, creando un cuello de botella severo.
Estas configuraciones se aplican a llama.cpp directamente y a Ollama (que usa llama.cpp internamente). Ollama establece `--n-gpu-layers 99` automáticamente en hardware NVIDIA si los controladores están instalados correctamente.
- Q4_K_M supera a Q4_0 en un 15-20% en RTX 4070 Ti. La variante K_M usa cuantización mixta que los tensor cores de NVIDIA aceleran más eficientemente. Siempre elige Q4_K_M sobre Q4_0 cuando ambos estén disponibles.
- IQ4_XS es el formato más pequeño (~8% menor que Q4_K_M) con mínima pérdida de calidad. Útil para que Qwen2.5 14B quepa en 12 GB de VRAM cuando Q4_K_M está al límite.
- Q5_K_M corre a casi la misma velocidad que Q4_K_M en GPUs NVIDIA (< 5% más lento) y proporciona una calidad de salida notablemente mejor. Vale la pena usarlo cuando tienes 20% de margen de VRAM.
| Indicador | Qué hace | Impacto | Predeterminado | Notas |
|---|---|---|---|---|
| --n-gpu-layers 99 | Descarga todas las capas a la GPU | +100-150% de velocidad | 0 (solo CPU) | El indicador más importante -- siempre configúralo primero |
| --threads [núcleos] | Hilos CPU para procesamiento de prompts | +10-15% de velocidad | Todos los hilos (incluyendo HT) | Configura al conteo de núcleos físicos solo. El hyperthreading perjudica la inferencia. |
| --ctx-size 2048 | Tamaño del KV cache / ventana de contexto | Ahorra 0,5-8 GB VRAM | 4096 | 2048 = ~0,5 GB VRAM extra. 32768 = ~8 GB extra. Solo aumenta si es necesario. |
| --n-batch 512 | Tamaño del lote de procesamiento de prompts | +5-10% de rendimiento | 512 | Buen valor predeterminado. Aumenta a 1024 para cargas de trabajo por lotes si la VRAM lo permite. |
| --flash-attn | Kernel Flash Attention 2 | -20-30% de VRAM en contextos largos | Desactivado | Disponible desde llama.cpp b2900. Reduce VRAM para contextos > 8k tokens. |
•ProTip: Ejecuta `ollama ps` para confirmar que tu modelo está cargado en GPU. Si la utilización de GPU muestra 0% en `nvidia-smi` mientras genera, los controladores no están enrutando correctamente a CUDA. Reinstala NVIDIA CUDA Toolkit y reinicia Ollama.
•KeyPoint: Referencia de velocidad RTX 4070 Ti: Llama 3.1 8B Q4_K_M = 85-95 tok/s. Llama 3.1 13B Q4_K_M = 60-70 tok/s. Qwen2.5 7B Q8_0 = 90-95 tok/s. Estos valores asumen --n-gpu-layers 99 y --ctx-size 2048.
⚠️Warning: Aumentar --ctx-size más allá de 8192 en una GPU de 12 GB causará que las capas del modelo se descarguen de vuelta a la CPU si el KV cache agota la VRAM restante. Si la velocidad cae repentinamente en conversaciones largas, reduce el tamaño del contexto o usa --flash-attn.
¿Puede el hardware Mac ejecutar LLMs locales?
Apple Silicon (serie M) ejecuta LLMs locales de manera eficiente usando memoria unificada compartida entre CPU y GPU. El M5, presentado desde octubre de 2025, ofrece una mejora significativa para inferencia local. Apple afirma un procesamiento de prompts LLM 4 veces más rápido que el M4.
El M5 Max con 128 GB de memoria unificada es el primer chip Apple Silicon que ejecuta cómodamente modelos 70B en Q4_K_M — comparable a estaciones de trabajo con doble RTX 4090 pero en formato laptop o Mac Studio. El M5 Pro con 64 GB de memoria unificada maneja modelos 32B con amplio margen para KV cache y multitarea.
| Mac | Memoria GPU | Ideal para | Limitación |
|---|---|---|---|
| M3 MacBook Pro 16" | 18 GB unificada | Modelos 7B (rápido) | Puede ejecutar 13B lentamente |
| M4 Max | 48-96 GB unificada | Modelos 13-30B | No optimizado para 70B |
| M5 Pro (MacBook Pro) | 64 GB unificada, 307 GB/s | Modelos 30B cómodamente | Llama 4 Scout funciona bien |
| M5 Max (MacBook Pro / Studio) | 128 GB unificada, 460-614 GB/s | Modelos 70B en Q4_K_M | Primer Mac que cabe 70B correctamente |
¿Cuándo deberías usar hardware de servidor vs consumidor?
Para despliegue en producción (operación 24/7, múltiples usuarios), se recomienda hardware de nivel servidor sobre GPUs de consumidor. El hardware de consumidor está optimizado para gaming, no para inferencia sostenida.
- Consumidor (RTX 4090): ~$1800, 24 GB VRAM, un solo usuario, propenso a throttling térmico bajo carga sostenida.
- Servidor (RTX 6000 Ada): ~$5000, 48 GB VRAM, diseñado para uso 24/7, mejor refrigeración, corrección de errores.
- Recomendación: Comienza con RTX 4090. Si ejecutas modelos 70B 24/7 para múltiples usuarios, actualiza a doble A100 o RTX 6000.
NVIDIA DGX Spark: Computadora de IA de escritorio con 128 GB
El NVIDIA DGX Spark ($3.999) es la única computadora de escritorio de consumidor a mayo de 2026 que cabe Llama 3.3 70B en Q8_0 completamente en memoria unificada.
Construido sobre el GB10 Grace Blackwell Superchip, el DGX Spark se lanzó a finales de 2025 como una computadora de IA de escritorio compacta con 128 GB LPDDR5x de memoria unificada. A mayo de 2026, el DGX Spark también ejecuta Llama 4 Scout y Maverick completamente en memoria, así como Kimi K2.6 (cuantizado), lo que lo hace adecuado para configuraciones a este nivel.
| Especificación | Valor |
|---|---|
| Memoria unificada | 128 GB LPDDR5x |
| Llama 3.3 70B en Q4_K_M | ✅ cabe (40 GB) |
| Llama 3.3 70B en Q8_0 | ✅ cabe (70 GB) |
| Velocidad de inferencia (70B) | 18-28 tok/s |
| Precio | $3.999 |
| SO | DGX OS (Ubuntu), Ollama preinstalado |
| vs RTX 4090 | 5× más VRAM, pero 5× el precio |
•KeyPoint: Comparado con 2× RTX 4090 (48 GB en total, ~$3.600): el DGX Spark tiene 2,7 veces más memoria y ancho de banda unificado más rápido con una prima de $400. El par RTX 4090 ofrece mejor valor a menos que específicamente necesites 70B en calidad Q8_0.
¿Cuáles son los errores de hardware más comunes?
- Comprar solo CPU cuando hay GPU disponible. Una RTX 4070 Ti de $600 superará a una CPU de $2000. La GPU domina la velocidad de los LLMs.
- No considerar el overhead de VRAM. Tamaño del archivo del modelo + overhead del sistema + contexto = VRAM total usada. Siempre compra 25% más que el tamaño del modelo.
- Asumir que todos los modelos 70B caben en 40 GB de VRAM. Lo hacen, apenas, solo con cuantización Q4 (4 bits). Q5 requiere 45+ GB.
- Ignorar la fuente de alimentación y la refrigeración. La RTX 4090 consume 575 W. Necesitas una fuente de 1200 W y buen flujo de aire en el gabinete.
- Creer que una GPU vieja funcionará. La RTX 2080 es 10 veces más lenta que la RTX 4070 Ti. La arquitectura moderna de GPU supera significativamente a generaciones anteriores.
- No considerar la VRAM del KV cache además de los pesos del modelo: Un modelo 7B en Q4_K_M son 4,7 GB de pesos — pero con una ventana de contexto de 32K, el KV cache añade ~4 GB más, totalizando ~8,7 GB. En una tarjeta de 8 GB esto causa errores OOM. Siempre añade 25-100% al tamaño del modelo según la longitud del contexto.
- Tratar el costo del hardware como el único costo: Si no puedes costear 16+ GB de RAM o una GPU dedicada, las APIs de cloud cuestan menos para uso de bajo volumen ($0,01–0,05 por 1K tokens). Consulta LLM Local vs Cloud: Análisis de costos para el análisis completo.
¿Qué reglas de cumplimiento regional aplican al hardware de LLMs locales?
UE (GDPR + AI Act de la UE): Ejecutar LLMs localmente mantiene todos los datos de inferencia dentro de tu infraestructura, eliminando las preocupaciones de transferencia de datos transfronteriza bajo el Artículo 44 del GDPR. A mayo de 2026, las empresas de la UE que despliegan LLMs para el procesamiento de datos de clientes deben asegurarse de que los modelos nunca se conecten a servidores externos — el hardware local elimina este riesgo por completo. Las obligaciones del AI Act de la UE para sistemas de alto riesgo aplican desde el 2 de agosto de 2026 (pendiente del Digital Omnibus que puede retrasar hasta diciembre de 2027). El hardware local cumple los requisitos de residencia de datos por defecto.
Japón (APPI): La revisión (2022) de la Ley de Protección de Información Personal (APPI) de Japón requiere minimización de datos para el procesamiento de IA. El hardware LLM en las instalaciones con una estación de trabajo RTX 4090 satisface este requisito para el procesamiento de documentos y automatización de soporte al cliente.
China: Las Regulaciones de IA Generativa de la Administración del Ciberespacio de China (CAC) (2023) requieren que los modelos de IA desplegados domésticamente sean registrados. Ejecutar hardware local con modelos de pesos abiertos evita la exposición de cumplimiento basada en API para uso empresarial interno.
Preguntas frecuentes sobre hardware para LLMs locales
¿Puedo ejecutar un modelo 70B en una laptop?
Solo con cuantización pesada (Q2, 2 bits) y respaldo a CPU. Poco práctico. Las laptops son adecuadas para modelos 7B. Para 70B, usa una computadora de escritorio con RTX 4090+.
¿Es la RTX 4090 excesiva para uso personal?
No si ejecutas modelos 70B o varios modelos simultáneamente. Para solo chat con 7B, la RTX 4070 Ti es suficiente. La RTX 4090 está preparada para el futuro si quieres flexibilidad.
¿Debo comprar la RTX 5090 o esperar a la RTX 6090?
La RTX 5090 está disponible (principios de 2026). Las GPUs de servidor RTX 6000 Ada también son sólidas. A menos que tengas presupuesto ilimitado, la RTX 5090 o 4090 son excelentes.
¿Cómo afecta la cuantización a la calidad?
FP16 = 100% de calidad (línea base), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Para la mayoría de las tareas, Q4 es indistinguible de FP16.
¿Puedo actualizar la GPU más tarde?
Sí. Comienza con RTX 4070 Ti ahora, actualiza a RTX 5090 en 2 años si es necesario. La GPU es el componente más fácil de reemplazar.
¿Cuánta RAM necesito para ejecutar un modelo 7B localmente?
8 GB de RAM es el mínimo absoluto para un modelo 7B. 16 GB es lo recomendado para uso cómodo junto al navegador y el SO. 32 GB da margen para ventanas de contexto más grandes y multitarea.
¿Puedo ejecutar LLMs locales en Apple Silicon (M1/M2/M3/M4/M5)?
Sí. Apple Silicon usa memoria unificada compartida entre CPU y GPU. El M5 Pro (64 GB, 307 GB/s) ejecuta modelos 30B bien. El M5 Max (128 GB, 460-614 GB/s) es el primer Mac que ejecuta 70B en Q4_K_M — comparable a estaciones de trabajo con doble RTX 4090.
¿Qué CPU es mejor para LLMs locales sin GPU?
CPUs de muchos núcleos con gran caché L3: AMD Ryzen 9 7950X o Intel Core i9-14900K. Espera 5-15 tokens/s para modelos 7B. La inferencia CPU es 3-5 veces más lenta que la GPU.
¿Afecta la velocidad del almacenamiento al rendimiento de los LLMs locales?
Sí, en el tiempo de carga del modelo. Un SSD NVMe (3-7 GB/s) carga un modelo 7B en 2-5 segundos vs. 20-60 segundos en HDD. La velocidad de inferencia tras la carga no se ve afectada por el almacenamiento.
¿Puedo usar varias GPUs para ejecutar modelos más grandes?
Sí, mediante paralelismo tensorial. Dos RTX 4090 (24 GB cada una) proporcionan 48 GB de VRAM para modelos 70B en FP16. Ollama y llama.cpp admiten multi-GPU mediante --n-gpu-layers dividido entre tarjetas.
¿Cuáles son los mejores LLMs locales para 16 GB de VRAM en 2026?
Mistral Small 3.1 24B Q4_K_M (13 GB, 55 tok/s) es el mejor general para RTX 4080 / RTX 5080 / RTX 4090 laptop. Para programación agentiva: Devstral Small 24B Q4_K_M (16 GB, 45 tok/s). Para razonamiento: DeepSeek-R1 14B (15 GB, 40 tok/s). Llama 3.3 70B no cabe — requiere 39 GB en Q4_K_M.
¿Puede una RTX 4090 única ejecutar un modelo 70B con buena calidad?
No — no en calidad Q4_K_M. Llama 3.3 70B en Q4_K_M requiere ~39 GB de VRAM. La RTX 4090 tiene 24 GB. Puedes ejecutarlo en Q2_K (~24 GB) pero la calidad cae notablemente. Mejores opciones: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, mejor programación densa) o DeepSeek-R1 32B Q4_K_M (~19 GB, mejor razonamiento).
¿Cuál es el mejor LLM local para 16 GB de RAM del sistema sin GPU?
Phi-4 Mini 3.8B Q4_K_M (2,5 GB de RAM, ~25 tok/s en Ryzen 9 7950X) es la mejor opción para inferencia solo CPU con 16 GB de RAM del sistema. Gemma 2 2B Q8 es el más rápido a ~28 tok/s. Llama 3.1 8B Q4_K_M (4,9 GB) también cabe pero corre a ~12 tok/s — lento para uso interactivo.
Fuentes
- NVIDIA. (2026). "Especificaciones de GPUs GeForce." https://www.nvidia.com/es-es/geforce/graphics-cards/ -- Especificaciones oficiales de VRAM y ancho de banda para GPUs RTX serie 40 y RTX serie 50.
- Apple. (2026). "Chip Apple M5." https://www.apple.com/es/mac/ -- Especificaciones del M5 Pro/Max, ancho de banda de memoria y afirmaciones de rendimiento LLM. M5 es el primer Mac que ejecuta cómodamente modelos 70B en Q4_K_M.
- NVIDIA. (2025). "Página del producto DGX Spark." https://www.nvidia.com/en-us/products/workstations/dgx-spark/ -- Especificaciones oficiales del GB10 Grace Blackwell Superchip y 128 GB de memoria unificada.
- Meta AI. (2024). "Tarjeta del modelo Llama 3.3." https://llama.meta.com/ -- Especificaciones oficiales de Llama 3.3 70B y requisitos de VRAM.
- Meta AI. (2025). "Tarjeta del modelo Llama 4." https://llama.meta.com/ -- Arquitectura MoE de Llama 4 Scout/Maverick, requisitos de VRAM.