Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Hardware para LLMs Locales 2026: GPU vs Mini PC vs Mac Comparado
Hardware & Performance

Hardware para LLMs Locales 2026: GPU vs Mini PC vs Mac Comparado

·13 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Los requisitos de hardware para LLMs locales dependen principalmente de la VRAM: los modelos 7B necesitan 8 GB, los modelos 13B necesitan 12-16 GB, y los modelos 70B necesitan 35-48 GB según la cuantización. La elección de GPU importa 10 veces más que la CPU para la velocidad de inferencia.

Ejecutar LLMs locales requiere ajustar la VRAM de tu GPU al modelo que quieres usar. A mayo de 2026, un modelo 7B necesita 8-9 GB de VRAM en Q8, un modelo 14B necesita 15 GB, y la mayoría de los modelos 70B necesitan 39 GB en Q4_K_M — más de lo que cabe en una RTX 4090. Esta guía cubre recomendaciones específicas de modelos para los niveles de 12 GB, 16 GB y 24 GB de VRAM, inferencia solo con CPU en 16 GB de RAM del sistema, configuración de velocidad de llama.cpp para RTX 4070 Ti y configuraciones completas de hardware.

Slide Deck: Hardware para LLMs Locales 2026: GPU vs Mini PC vs Mac Comparado

La presentación cubre: niveles de VRAM GPU para 12/16/24 GB, mejores modelos por nivel con uso de VRAM y benchmarks de velocidad, inferencia solo CPU en 16 GB de RAM, y parámetros de velocidad de llama.cpp para RTX 4070 Ti. Descarga el PDF como tarjeta de referencia de la Guía de hardware LLM local 2026.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • Cálculo de VRAM: (tamaño del modelo en GB) ÷ Cuantización = VRAM necesaria. Ejemplo: 70B en Q4 = 70 ÷ 8 = 8,75 GB × parámetros ≈ 39 GB en total.
  • 12 GB VRAM (RTX 4070 Ti): Mejor modelo: Llama 4 Scout 17B Q4_K_M (~10 GB, MoE, mejor calidad general). También: Llama 3.1 8B Q8 (~9 GB, 80 tok/s).
  • 16 GB VRAM (RTX 4080 / RTX 5080): Mejor modelo: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s). También: Devstral Small 24B Q4_K_M para programación agentiva.
  • 24 GB VRAM (RTX 4090): La mayoría de los modelos 70B en Q4_K_M (39 GB) NO caben. Mejor opción: DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s) o Qwen 3.6 27B (~16 GB, 77,2% SWE-bench).
  • Solo CPU (16 GB de RAM del sistema): Llama 3.2 3B Q8 (20 tok/s) o Phi-4 Mini Q4_K_M (25 tok/s). Una RTX 4060 usada de 8 GB (~$150) o RTX 5060 Ti 12 GB (~$250) es 5-10 veces más rápida.
  • Apple M5 Max (128 GB unificada): Primer Mac que ejecuta modelos 70B en Q4_K_M — comparable a estaciones de trabajo con doble RTX 4090 en formato laptop o Mac Studio.
  • Consejo de velocidad llama.cpp: Siempre usa `--n-gpu-layers 99`. Esto solo duplica la velocidad en RTX 4070 Ti de ~40 a ~85 tok/s.
  • Referencia rápida: 7B@Q4_K_M = 4,7 GB | 70B@Q4_K_M = 40 GB | RTX 4070 Ti = ~80 tok/s | RTX 4090 = ~150 tok/s | Solo CPU 16 GB = 12-28 tok/s

Mejores GPUs para comprar — Recomendaciones 2026

Elegir una GPU depende de tu presupuesto y el tamaño del modelo que quieres ejecutar. Las series NVIDIA RTX 40 (4060, 4070 Ti, 4090) y RTX 50 (5060 Ti, 5080) dominan para LLMs locales en 2026. Aquí están las mejores recomendaciones por caso de uso:

  • Para modelos 7B (Mistral, Phi-4, Llama 3.2) — Económica: RTX 4060 (8 GB VRAM, ~$180–220). Ejecuta cualquier modelo 7B en Q4_K_M. Velocidad: 40–60 tok/s. Nivel: Entusiastas con presupuesto.
  • Para modelos 14B (Llama 3.1, DeepSeek-R1) — Mainstream: RTX 4070 Ti (12 GB VRAM, ~$500–600). Mejor relación precio-rendimiento. Llama 4 Scout 17B Q4 funciona bien. Velocidad: 85–120 tok/s. Nivel: El más popular.
  • Para modelos 33B (Qwen2.5, Mistral Small) — Gama media: RTX 4080 o RTX 5080 (16 GB VRAM, ~$1000–1200). Ejecuta Devstral Small 24B Q4_K_M. Velocidad: 110–140 tok/s. Nivel: Desarrolladores profesionales.
  • Para modelos 70B (Llama 3.3, Qwen 3.6) — Gama alta: RTX 4090 (24 GB VRAM, ~$1700–2000). Ejecuta 70B en Q3_K_M (~25 GB). Para Q4_K_M (40 GB), usa doble RTX 4090. Velocidad: 150–180 tok/s GPU única. Nivel: Investigación + producción.
  • Mejor valor 2026: Combinación RTX 4070 Ti + RTX 5060 Ti 12 GB (~$750 en total) — ejecuta 70B en Q3 y 14B en Q4 simultáneamente.
  • Para usuarios de Apple: Mac M5 Max (128 GB de memoria unificada) primer Mac que ejecuta modelos 70B reales. ~$6000. Rendimiento equivalente a una configuración de doble RTX 4090.
GPUIdeal paraPrecioVelocidadNivel
RTX 4060 (8 GB)Modelos 7B~$180–22040–60 tok/sEconómica
RTX 4070 Ti (12 GB)Modelos 14B~$500–60085–120 tok/sMainstream
RTX 4080 / RTX 5080 (16 GB)Modelos 33B~$1000–1200110–140 tok/sProfesional
RTX 4090 (24 GB)70B (Q3)~$1700–2000150–180 tok/sGama alta
Doble RTX 409070B (Q4)~$3400–4000280–360 tok/sEmpresa
Mac M5 Max 128GB70B (Q4)~$6000120–160 tok/sLaptop Pro

¿Cómo calculas los requisitos de VRAM?

Los requisitos de VRAM dependen de tres factores: tamaño del modelo (parámetros), cuantización (bits por peso) y modo de inferencia. Usa esta fórmula para determinar si tu GPU tiene suficiente memoria. Para una calculadora interactiva, consulta la calculadora de VRAM para LLMs locales.

Fórmula:

```text VRAM (GB) = (Tamaño del modelo × Bits de cuantización) ÷ 8 ```

Valores de cuantización: FP16 = 16 bits, Q8_0 = 8 bits, Q5_K_M = 5 bits, Q4_K_M = 4 bits. El punto óptimo práctico es Q4_K_M -- usa pesos de 4 bits con K-cuantización, que las GPUs NVIDIA aceleran de manera más eficiente que el formato Q4_0 más antiguo.

ModeloFP16Q8_0Q5_K_MQ4_K_M
Llama 4 Scout 17B (activo)~34 GB~18 GB~12 GB~10 GB
Llama 3.1 8B16 GB8,5 GB5,7 GB4,7 GB
Qwen 3.6 27B~54 GB~28 GB~19 GB~16 GB
Qwen3 8B~16 GB~8,5 GB~5,7 GB~5 GB
Llama 3.3 70B140 GB70 GB48 GB40 GB
Qwen2.5 32B64 GB33 GB22 GB19 GB
Mistral Small 3.1 24B48 GB25 GB17 GB14 GB
Phi-4 Mini 3.8B7,6 GB4,1 GB2,7 GB2,3 GB

Q4_K_M es el valor predeterminado recomendado para hardware de consumidor -- 90-95% de la calidad de FP16 al 25-30% del costo de VRAM. Llama 4 Scout usa arquitectura MoE con 17B parámetros activos de 109B en total. La VRAM está determinada por los parámetros activos para la inferencia, no los parámetros totales.

Calculadora de VRAM mostrando la fórmula (Tamaño del modelo × Bits) ÷ 8, con ejemplos: 8B Q4_K_M = 4,7 GB, 13B Q5_K_M = 9,1 GB, 70B Q4_K_M = 40 GB. Q4_K_M es el punto óptimo recomendado para la mayoría del hardware.
Calculadora de VRAM mostrando la fórmula (Tamaño del modelo × Bits) ÷ 8, con ejemplos: 8B Q4_K_M = 4,7 GB, 13B Q5_K_M = 9,1 GB, 70B Q4_K_M = 40 GB. Q4_K_M es el punto óptimo recomendado para la mayoría del hardware.

KeyPoint: En una oración: La VRAM es el grupo de memoria dedicado de la GPU — el único número que determina qué modelos de IA puedes ejecutar localmente y con qué calidad.

KV Cache: el costo oculto de VRAM

La fórmula de VRAM (Tamaño del modelo × Bits ÷ 8) cubre solo los pesos del modelo — el KV cache añade VRAM adicional significativa que la mayoría de las guías ignoran.

El KV cache almacena el estado de atención para cada token en tu ventana de contexto. Crece linealmente con la longitud del contexto y permanece en VRAM durante toda la sesión.

Fórmula de VRAM del KV cache: `KV cache ≈ capas × cabezas × dim_cabeza × 2 × longitud_contexto × 2 bytes`

ModeloContexto 4KContexto 32KContexto 128K
Llama 3.1 8B0,5 GB4 GB16 GB
Llama 3.3 70B2 GB16 GB64 GB
Qwen2.5 32B1 GB8 GB32 GB

KeyPoint: En una oración: El KV cache es la VRAM temporal usada para almacenar el contexto de la conversación — crece con cada token que generas y es separado del almacenamiento de pesos del modelo.

⚠️Warning: Un Llama 3.1 8B en Q4_K_M necesita 4,7 GB para los pesos -- pero añade una ventana de contexto de 32K y la VRAM total sube a ~8,7 GB. En una tarjeta de 8 GB, esto causa errores de OOM.

KeyPoint: Regla general: Añade 25% al tamaño de los pesos del modelo para un contexto típico de 8K, 100% para contexto de 32K. El contexto predeterminado de Ollama es 2048 tokens. Para configurar uno mayor: PARAMETER num_ctx 32768 en tu Modelfile.

¿Qué nivel de GPU se ajusta a tu carga de trabajo?

A mayo de 2026, las GPUs NVIDIA ofrecen los tokens/seg más altos para inferencia de LLMs locales en todos los rangos de precio. Las secciones siguientes dan recomendaciones específicas de modelos. Para una comparación detallada de benchmarks, consulta la guía de mejores GPUs para LLMs locales.

NivelGPUVRAMIdeal paraVelocidad
Económica ($600)RTX 4070 Ti / RTX 507012 GBModelos 7-13B~80 tok/s
Media ($900)RTX 5070 Ti16 GBModelos 13-30B~100 tok/s
Alta ($1.200)RTX 4080 / RTX 508016 GBModelos 13-30B~120 tok/s
Top ($1.800)RTX 409024 GBModelos 32B, 70B en Q2_K~150 tok/s
Última gen ($2.000)RTX 509032 GB70B + margen~200 tok/s
Servidor ($3.000+)RTX 6000 Ada / A10048+ GBMulti-usuario, 70B+Producción
Desktop IA ($3.999)NVIDIA DGX Spark128 GBCualquier modelo, unificada18-28 tok/s
Recomendaciones por nivel de GPU: $600 RTX 4070 Ti (12 GB, modelos 7-13B, 80 tok/s), $1.200 RTX 4080 (16 GB, 13-30B, 120 tok/s), $1.800 RTX 4090 (24 GB, 70B, 150 tok/s), $2.000 RTX 5090 (32 GB, 70B+, 200 tok/s), $3.999 DGX Spark (128 GB, cualquier modelo). La elección de GPU importa 10 veces más que la CPU.
Recomendaciones por nivel de GPU: $600 RTX 4070 Ti (12 GB, modelos 7-13B, 80 tok/s), $1.200 RTX 4080 (16 GB, 13-30B, 120 tok/s), $1.800 RTX 4090 (24 GB, 70B, 150 tok/s), $2.000 RTX 5090 (32 GB, 70B+, 200 tok/s), $3.999 DGX Spark (128 GB, cualquier modelo). La elección de GPU importa 10 veces más que la CPU.

KeyPoint: A mayo de 2026, la serie RTX 50 (Blackwell) es la generación actual. La RTX 5090 (32 GB) está lista para el futuro con modelos 70B. La RTX 4090 sigue siendo excelente valor para compradores actuales.

Mejores LLMs locales por nivel de VRAM (mayo 2026)

Usa esto como referencia rápida según el nivel de VRAM de tu GPU:

Todos los modelos listados a continuación son de pesos abiertos — descargables, ajustables y gratuitos para ejecutar localmente. Si estás eligiendo entre pesos abiertos y APIs propietarias, consulta nuestra comparación de LLMs de código abierto vs propietarios para evaluar costos y rendimiento.

El hardware determina qué modelos puedes ejecutar; la ingeniería de prompts determina qué tan bien rinden. Un prompt bien estructurado en un modelo 7B a menudo supera a un prompt descuidado en un modelo 70B. Consulta la guía completa de ingeniería de prompts para técnicas que maximizan la calidad de salida a cualquier número de parámetros.

  • 8 GB VRAM (RTX 4060, RTX 5060 Ti, Intel B580): Llama 3.1 8B Q4_K_M (4,7 GB, ~70 tok/s) -- recomendado. Qwen3 8B (5 GB, mejor multilingüe + programación). Phi-4 Mini 3.8B (2,3 GB, el más rápido). Gemma 2 9B (5,5 GB, cabe con cuidado). Evita modelos 13B+.
  • 12 GB VRAM (RTX 4070 Ti, RTX 5070, Intel B770): Llama 4 Scout 17B Q4_K_M (~10 GB, mejor calidad general, MoE). Llama 3.1 8B (4,7 GB, rápido con margen). Qwen2.5 14B Q4_K_M (8,5 GB, mejor razonamiento en presupuesto). DeepSeek-R1 8B (5 GB, mejor razonamiento). Evita 30B+.
  • 16 GB VRAM (RTX 4080, RTX 5070 Ti, RTX 5080): Mistral Small 3.1 24B Q4_K_M (14 GB, mejor calidad en el nivel). Devstral Small 24B Q4_K_M (~16 GB) para flujos de trabajo de programación agentiva. Qwen2.5 14B (9 GB, rápido con margen de contexto). Llama 3.3 70B en Q2_K (17 GB, posible pero calidad degradada).
  • 24 GB VRAM (RTX 5090, RTX 4090, Tesla L40): Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, mejor modelo de programación denso). DeepSeek-R1 32B Q4_K_M (~19 GB, mejor razonamiento). Qwen2.5 32B Q5_K_M (~21 GB). Llama 3.3 70B necesita 2× 24 GB GPUs en Q4_K_M.
  • 32 GB VRAM (RTX 5090): Llama 3.3 70B Q4_K_M (40 GB -- necesita mínima descarga a CPU para las últimas capas). Kimi K2.6 cuantizado (MoE, 42B activo, licencia MIT, mejor programación). Qwen2.5 32B (19 GB, cabe completamente con 13 GB libres). La RTX 5090 es la primera GPU de consumidor que cabe 70B con mínima descarga.
  • 48+ GB VRAM (RTX 6000 Ada, A100, DGX Spark): Llama 3.3 70B Q4_K_M (40 GB, cabe completamente). Llama 4 Maverick (17B activo, 400B total, MoE). Llama 3.3 70B Q8_0 (70 GB -- necesita A100 de 80 GB). NVIDIA DGX Spark (128 GB unificada) cabe todos los modelos de pesos abiertos incluyendo 70B en Q8_0 con 58 GB de sobra.

¿Qué LLMs locales funcionan mejor con 16 GB de VRAM?

En una GPU de 16 GB de VRAM (NVIDIA RTX 4080, RTX 5080 o RTX 4090 laptop), el techo práctico son modelos de 14-24B. Mistral Small 3.1 24B en Q4_K_M es la mejor opción general: usa 13 GB de VRAM, corre a 55 tok/s y es de origen europeo con licencia Apache 2.0.

Devstral Small 24B Q4_K_M cabe a ~16 GB y está optimizado para flujos de trabajo de programación agentiva. La tabla a continuación muestra qué modelos caben y cuáles no. Las filas de "NO cabe" se incluyen intencionalmente — este es el error más común que cometen los dueños de 16 GB.

ModeloCuantizaciónVRAM usadaVelocidad (RTX 4080)Ideal para¿Cabe en 16 GB?
Mistral Small 3.1 24BQ4_K_M~13 GB55 tok/sChat general✅ Sí
Devstral Small 24BQ4_K_M~16 GB45 tok/sProgramación agentiva✅ Justo
Qwen2.5 14BQ8_0~15 GB45 tok/sProgramación + razonamiento✅ Sí
DeepSeek-R1 14BQ8_0~15 GB40 tok/sMatemáticas + análisis✅ Sí
Llama 3.1 8BFP16~16 GB70 tok/sRespuestas más rápidas✅ Justo
Llama 3.3 70BQ4_K_M~39 GB----❌ No (necesita 39 GB)
Gráfico de barras mostrando qué modelos caben en 16 GB VRAM: Mistral Small 3.1 24B Q4_K_M (13 GB ✅), Devstral Small 24B Q4_K_M (16 GB ✅), Qwen2.5 14B Q8_0 (15 GB ✅), Llama 3.3 70B Q4_K_M (39 GB ❌). Mejor opción: Mistral Small 3.1 24B a 55 tok/s.
Gráfico de barras mostrando qué modelos caben en 16 GB VRAM: Mistral Small 3.1 24B Q4_K_M (13 GB ✅), Devstral Small 24B Q4_K_M (16 GB ✅), Qwen2.5 14B Q8_0 (15 GB ✅), Llama 3.3 70B Q4_K_M (39 GB ❌). Mejor opción: Mistral Small 3.1 24B a 55 tok/s.

ProTip: 🏆 Mejor general para 16 GB: Mistral Small 3.1 24B Q4_K_M a ~13 GB, 55 tok/s. Para programación agentiva: Devstral Small 24B (Mistral AI, Francia) a 45 tok/s. Mejor razonamiento: DeepSeek-R1 14B Q8_0 a 40 tok/s.

⚠️Warning: Las GPUs RTX 4090 para laptop tienen 16 GB de VRAM (no 24 GB). Comparten el mismo techo de modelos que la RTX 4080 de escritorio.

KeyPoint: Cuándo actualizar a 24 GB (RTX 4090 escritorio): solo si necesitas modelos 32B+ en Q8, o quieres ejecutar dos modelos simultáneamente sin recargar.

¿Qué LLMs locales funcionan mejor con 12 GB de VRAM?

En una GPU de 12 GB de VRAM (NVIDIA RTX 4070 Ti, RTX 5070 o RTX 5060 Ti), puedes ejecutar modelos 7-8B en Q8, 14B en Q4_K_M o el nuevo Llama 4 Scout 17B en Q4_K_M (MoE). Llama 4 Scout usa una arquitectura de Mezcla de Expertos con 17B parámetros activos de 109B en total — esto hace que Scout sea significativamente más eficiente en VRAM de lo que sugiere su cantidad de parámetros.

Llama 3.1 8B en Q8_0 es la opción más confiable para configuraciones conservadoras: 9 GB de VRAM, 80 tok/s y calidad completa de seguimiento de instrucciones. Qwen2.5 14B en Q4_K_M también cabe a ~8,5 GB y ofrece un razonamiento notablemente mejor que el nivel 8B.

ModeloCuantizaciónVRAM usadaVelocidad (RTX 4070 Ti)Ideal para¿Cabe en 12 GB?
Llama 4 Scout 17BQ4_K_M~10 GB~65 tok/sMejor general (MoE)✅ Sí
Llama 3.1 8BQ8_0~9 GB80 tok/sChat general + programación✅ Sí
Qwen2.5 14BQ4_K_M~8,5 GB65 tok/sMejor razonamiento en presupuesto✅ Sí
Llama 3.2 11B VisionQ5_K_M~8 GB65 tok/sTareas de imagen + texto✅ Sí
Qwen3 8BQ8_0~8 GB85 tok/sMejor multilingüe + programación✅ Sí
Mistral 7B v0.3FP16~14 GB----❌ No (necesita 14 GB en FP16)

ProTip: 🏆 Mejor general para 12 GB: Llama 4 Scout 17B Q4_K_M a ~10 GB. La arquitectura MoE significa 17B parámetros activos con 109B en total — mejor calidad que cualquier modelo denso 8B a costo similar de VRAM. Si prefieres modelos densos, usa Llama 3.1 8B Q8_0 a ~9 GB.

KeyPoint: La RTX 3060 12 GB es el punto de entrada económico (~$200 usada). Ejecuta todos los modelos de 12 GB pero a ~60-70 tok/s vs ~80-90 tok/s en RTX 4070 Ti debido a la arquitectura de memoria más antigua.

¿Qué modelos 70B realmente caben en 24 GB de VRAM (RTX 4090)?

La RTX 4090 tiene 24 GB de VRAM — no suficiente para la mayoría de los modelos 70B a calidad aceptable. Llama 3.3 70B en Q4_K_M requiere aproximadamente 39 GB. El error común es pensar que "Q4 es pequeño" — a 70B parámetros, incluso Q4 es grande.

En una RTX 4090 única, la mejor estrategia son modelos de 27-32B, que ofrecen buena calidad y caben cómodamente. Qwen 3.6 27B en Q4_K_M es el mejor modelo de programación denso (77,2% SWE-bench). Para 70B verdadero en Q4+, necesitas 2× RTX 4090 o una GPU de servidor de 48 GB. Consulta cómo ejecutar modelos 70B en 24 GB de VRAM para técnicas avanzadas.

ModeloCuantizaciónVRAM requerida¿Cabe en 24 GB?Velocidad (RTX 4090)Notas
Qwen 3.6 27BQ4_K_M~16 GB✅ Sí55 tok/sMejor modelo de programación denso, 77,2% SWE-bench
DeepSeek-R1 32BQ4_K_M~19 GB✅ Sí60 tok/sMejor razonamiento, alta calidad general
Qwen2.5 32BQ5_K_M~21 GB✅ Sí55 tok/sAlta calidad, excelente programación + instrucciones
Qwen2.5 32BQ8_0~34 GB❌ No--Requiere GPU de 48 GB
Llama 3.3 70BQ2_K~24 GB⚠️ Justo30 tok/sCabe pero la calidad Q2 se degrada notablemente
Llama 3.3 70BQ4_K_M~39 GB❌ No--Necesita 2× RTX 4090 o A100 80 GB
Requisitos de VRAM vs límite de 24 GB de RTX 4090: Qwen 3.6 27B Q4_K_M (16 GB ✅), DeepSeek-R1 32B Q4_K_M (19 GB ✅), Qwen2.5 32B Q5_K_M (21 GB ✅), Llama 3.3 70B Q4_K_M (39 GB ❌ -- supera los 24 GB en un 63%). Punto óptimo: modelos 27-32B en Q4-Q5.
Requisitos de VRAM vs límite de 24 GB de RTX 4090: Qwen 3.6 27B Q4_K_M (16 GB ✅), DeepSeek-R1 32B Q4_K_M (19 GB ✅), Qwen2.5 32B Q5_K_M (21 GB ✅), Llama 3.3 70B Q4_K_M (39 GB ❌ -- supera los 24 GB en un 63%). Punto óptimo: modelos 27-32B en Q4-Q5.

KeyPoint: 🏆 Mejor para RTX 4090 (24 GB): Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) para el mejor modelo de programación denso. Para razonamiento: DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s). Mejor que Llama 3.3 70B Q2_K con mucho menos VRAM.

⚠️Warning: Si específicamente necesitas calidad 70B en Q4+, la RTX 4090 no es la GPU correcta. Necesitas 2× RTX 4090 (48 GB combinados vía paralelismo tensorial) o una RTX 6000 Ada (48 GB). Ejecutar 70B en Q2_K en una sola 4090 degrada notablemente la calidad de salida.

¿Qué CPU y RAM necesitas?

Con una GPU dedicada, la CPU y la RAM son componentes secundarios. La GPU maneja el cálculo matricial; la CPU/RAM gestionan la preparación del contexto. Para una comparación completa de velocidades de inferencia GPU vs CPU vs Apple Silicon, consulta la guía GPU vs CPU vs Apple Silicon.

CPU mínima: procesador de 8 núcleos (Intel Core i7 gen 14, AMD Ryzen 7 7700X o más reciente). Las CPUs más antiguas añaden 20%+ de latencia.

RAM: 16 GB mínimo (con GPU). Si ejecutas sin GPU, se recomiendan 32+ GB. La RAM no limita directamente el tamaño del modelo cuando hay GPU presente.

Almacenamiento: SSD de 500 GB para archivos de modelo y SO. Se prefiere M.2 NVMe (carga de modelos más rápida).

¿Qué modelos funcionan bien con 16 GB de RAM del sistema sin GPU?

Sin GPU, una máquina con 16 GB de RAM del sistema puede ejecutar modelos 3B-7B a 8-20 tokens/s usando inferencia CPU. El cuello de botella es el ancho de banda de memoria, no la capacidad de RAM — las CPUs tienen un ancho de banda mucho menor que las GPUs, razón por la cual la inferencia es 5-10 veces más lenta.

Con 16 GB de RAM del sistema, la regla práctica es: tamaño del archivo del modelo + 4 GB de overhead del SO ≤ 16 GB. Un modelo 7B en Q4_K_M (4,9 GB) cabe, pero deja poco margen para contextos largos. La tabla a continuación muestra opciones realistas a mayo de 2026.

Para una guía completa de modelos optimizados por velocidad que cubre solo CPU, 4 GB, 6 GB y 8 GB de VRAM con benchmarks reales, consulta **LLMs Locales Más Rápidos para PCs de Gama Baja**.

ModeloCuantizaciónRAM usadaVelocidad (Ryzen 9 7950X)Ideal paraNotas
Gemma 2 2BQ8_0~2,7 GB28 tok/sMás rápido, mínima RAMDeja 13 GB libres para SO
Phi-4 Mini 3.8BQ4_K_M~2,5 GB25 tok/sProgramación en CPUMejor relación calidad-RAM
Llama 3.2 3BQ8_0~3,8 GB20 tok/sChat general, poca RAMFiable, ampliamente compatible
Llama 3.1 8BQ4_K_M~4,9 GB12 tok/sMejor calidad CPU12 tok/s es lento pero utilizable para tareas por lotes
Llama 3.1 8BQ8_0~9 GB8 tok/sMáxima calidad en CPUDemasiado lento para uso interactivo en la mayoría de CPUs
Velocidades de inferencia solo CPU en Ryzen 9 7950X: Gemma 2 2B Q8_0 (28 tok/s más rápido), Phi-4 Mini Q4_K_M (25 tok/s mejor opción), Llama 3.1 8B Q8_0 (8 tok/s). Una RTX 3060 usada ($200) logra 5-8 veces más rápido.
Velocidades de inferencia solo CPU en Ryzen 9 7950X: Gemma 2 2B Q8_0 (28 tok/s más rápido), Phi-4 Mini Q4_K_M (25 tok/s mejor opción), Llama 3.1 8B Q8_0 (8 tok/s). Una RTX 3060 usada ($200) logra 5-8 veces más rápido.

ProTip: 🏆 Mejor para 16 GB RAM, sin GPU: Phi-4 Mini 3.8B Q4_K_M (2,5 GB, 25 tok/s). Ofrece programación y razonamiento sorprendentemente sólidos para su tamaño.

KeyPoint: Realidad CPU vs GPU: Una NVIDIA RTX 3060 12 GB usada (~$200) ejecuta Llama 3.1 8B a 70+ tok/s — 5-8 veces más rápido que el Ryzen 9 7950X en inferencia solo CPU. Si la velocidad importa, compra una GPU antes de añadir RAM.

⚠️Warning: Ejecutar un modelo 7B en 16 GB de RAM solo con CPU deja menos de 7 GB para el SO y el navegador. Con contextos de conversación largos (32k+ tokens), el archivo del modelo crece más allá de su tamaño base y puede causar agotamiento de RAM. Mantén el tamaño del contexto por debajo de 4096 en máquinas solo CPU de 16 GB.

¿Cuánto almacenamiento necesitas?

Los archivos de modelo son grandes: un modelo 7B a cuantización de 4 bits son 4-5 GB. Planifica el almacenamiento según el número y tamaño de los modelos que quieras conservar localmente.

  • SSD de 500 GB: SO + 1-2 modelos pequeños (3B, 7B)
  • SSD de 1 TB: SO + 3-5 modelos (mezcla de 7B y 13B)
  • SSD de 2 TB: SO + 10+ modelos (varios tamaños)
  • NVMe RAID de 4 TB: Configuración de producción, carga rápida de modelos

¿Qué hardware deberías comprar?

Construir una máquina para LLMs locales desde cero significa priorizar primero la GPU, luego CPU y RAM. Aquí hay tres configuraciones realistas. Para builds multi-GPU, consulta la guía de LLMs locales multi-GPU.

PresupuestoGPUCPURAMModelosCosto
$1500 (entrada)RTX 4070 Tii7 1370016 GB7-13BRealista
$2500 (sólido)RTX 4080i7 14700K32 GB13-30BRecomendado
$4000 (gama alta)2× RTX 4090Ryzen 9 7950X128 GBCualquiera (70B+)Excesivo para uso personal
Tres configuraciones de build: $1500 nivel de entrada (RTX 4070 Ti, i7 13700, 16 GB) para modelos 7-13B, $2500 build sólido (RTX 4080, i7 14700K, 32 GB) para 13-30B, $4000 gama alta (2× RTX 4090, Ryzen 9, 128 GB) para cualquier modelo. El nivel medio ofrece el mejor valor.
Tres configuraciones de build: $1500 nivel de entrada (RTX 4070 Ti, i7 13700, 16 GB) para modelos 7-13B, $2500 build sólido (RTX 4080, i7 14700K, 32 GB) para 13-30B, $4000 gama alta (2× RTX 4090, Ryzen 9, 128 GB) para cualquier modelo. El nivel medio ofrece el mejor valor.

¿Qué pasa si no puedes costear el hardware?

Si una GPU de $250–400 está fuera de tu presupuesto, o tu laptop es demasiado vieja para soportar motores de inferencia modernos, los LLMs locales pueden no ser rentables para ti en 2026.

Calcula el costo real:

  • Local: $800–2.000 de hardware inicial + electricidad + mantenimiento durante 2–3 años
  • Cloud: $5–50/mes para uso típico de desarrollador (API de Llama o GPT-4o mini)

Para usuarios ligeros (< 100.000 tokens/mes), las APIs de cloud cuestan $5–10/mes y no requieren hardware. Para usuarios intensivos (> 10M tokens/mes), lo local se amortiza en 6–12 meses.

Compara el análisis completo de costos y rendimiento local vs cloud** para encontrar tu punto de equilibrio. Muchos desarrolladores descubren que el cloud es más barato para su patrón de uso real.

¿Ya buscas por debajo de los niveles de VRAM recomendados? Consulta Mejor app de IA local para PC de gama baja para saber qué combinaciones de modelo y app realmente funcionan con 8 GB o menos.

¿Cómo maximizas la velocidad de llama.cpp en RTX 4070 Ti?

Con la configuración correcta, llama.cpp en una RTX 4070 Ti logra 85-95 tokens/s en Llama 3.1 8B Q4_K_M — más del doble de la velocidad predeterminada. El indicador más impactante es `--n-gpu-layers 99`, que descarga todas las capas del modelo a la GPU. Sin él, las capas recurren a la CPU, creando un cuello de botella severo.

Estas configuraciones se aplican a llama.cpp directamente y a Ollama (que usa llama.cpp internamente). Ollama establece `--n-gpu-layers 99` automáticamente en hardware NVIDIA si los controladores están instalados correctamente.

  • Q4_K_M supera a Q4_0 en un 15-20% en RTX 4070 Ti. La variante K_M usa cuantización mixta que los tensor cores de NVIDIA aceleran más eficientemente. Siempre elige Q4_K_M sobre Q4_0 cuando ambos estén disponibles.
  • IQ4_XS es el formato más pequeño (~8% menor que Q4_K_M) con mínima pérdida de calidad. Útil para que Qwen2.5 14B quepa en 12 GB de VRAM cuando Q4_K_M está al límite.
  • Q5_K_M corre a casi la misma velocidad que Q4_K_M en GPUs NVIDIA (< 5% más lento) y proporciona una calidad de salida notablemente mejor. Vale la pena usarlo cuando tienes 20% de margen de VRAM.
IndicadorQué haceImpactoPredeterminadoNotas
--n-gpu-layers 99Descarga todas las capas a la GPU+100-150% de velocidad0 (solo CPU)El indicador más importante -- siempre configúralo primero
--threads [núcleos]Hilos CPU para procesamiento de prompts+10-15% de velocidadTodos los hilos (incluyendo HT)Configura al conteo de núcleos físicos solo. El hyperthreading perjudica la inferencia.
--ctx-size 2048Tamaño del KV cache / ventana de contextoAhorra 0,5-8 GB VRAM40962048 = ~0,5 GB VRAM extra. 32768 = ~8 GB extra. Solo aumenta si es necesario.
--n-batch 512Tamaño del lote de procesamiento de prompts+5-10% de rendimiento512Buen valor predeterminado. Aumenta a 1024 para cargas de trabajo por lotes si la VRAM lo permite.
--flash-attnKernel Flash Attention 2-20-30% de VRAM en contextos largosDesactivadoDisponible desde llama.cpp b2900. Reduce VRAM para contextos > 8k tokens.
Configuración predeterminada de llama.cpp: ~40 tok/s. Optimizada (--n-gpu-layers 99 + --ctx-size 2048 + --flash-attn): ~90 tok/s — una mejora de velocidad del 125% en RTX 4070 Ti ejecutando Llama 3.1 8B Q4_K_M.
Configuración predeterminada de llama.cpp: ~40 tok/s. Optimizada (--n-gpu-layers 99 + --ctx-size 2048 + --flash-attn): ~90 tok/s — una mejora de velocidad del 125% en RTX 4070 Ti ejecutando Llama 3.1 8B Q4_K_M.

ProTip: Ejecuta `ollama ps` para confirmar que tu modelo está cargado en GPU. Si la utilización de GPU muestra 0% en `nvidia-smi` mientras genera, los controladores no están enrutando correctamente a CUDA. Reinstala NVIDIA CUDA Toolkit y reinicia Ollama.

KeyPoint: Referencia de velocidad RTX 4070 Ti: Llama 3.1 8B Q4_K_M = 85-95 tok/s. Llama 3.1 13B Q4_K_M = 60-70 tok/s. Qwen2.5 7B Q8_0 = 90-95 tok/s. Estos valores asumen --n-gpu-layers 99 y --ctx-size 2048.

⚠️Warning: Aumentar --ctx-size más allá de 8192 en una GPU de 12 GB causará que las capas del modelo se descarguen de vuelta a la CPU si el KV cache agota la VRAM restante. Si la velocidad cae repentinamente en conversaciones largas, reduce el tamaño del contexto o usa --flash-attn.

¿Puede el hardware Mac ejecutar LLMs locales?

Apple Silicon (serie M) ejecuta LLMs locales de manera eficiente usando memoria unificada compartida entre CPU y GPU. El M5, presentado desde octubre de 2025, ofrece una mejora significativa para inferencia local. Apple afirma un procesamiento de prompts LLM 4 veces más rápido que el M4.

El M5 Max con 128 GB de memoria unificada es el primer chip Apple Silicon que ejecuta cómodamente modelos 70B en Q4_K_M — comparable a estaciones de trabajo con doble RTX 4090 pero en formato laptop o Mac Studio. El M5 Pro con 64 GB de memoria unificada maneja modelos 32B con amplio margen para KV cache y multitarea.

MacMemoria GPUIdeal paraLimitación
M3 MacBook Pro 16"18 GB unificadaModelos 7B (rápido)Puede ejecutar 13B lentamente
M4 Max48-96 GB unificadaModelos 13-30BNo optimizado para 70B
M5 Pro (MacBook Pro)64 GB unificada, 307 GB/sModelos 30B cómodamenteLlama 4 Scout funciona bien
M5 Max (MacBook Pro / Studio)128 GB unificada, 460-614 GB/sModelos 70B en Q4_K_MPrimer Mac que cabe 70B correctamente
Comparación de hardware Mac: M3 MacBook Pro 16" (18 GB, 7B), M4 Max (48-96 GB, 13-30B), M5 Pro (64 GB, 30B), M5 Max (128 GB, 70B en Q4_K_M). M5 Max es el primer Mac que maneja modelos 70B comparable a estaciones con doble RTX 4090.
Comparación de hardware Mac: M3 MacBook Pro 16" (18 GB, 7B), M4 Max (48-96 GB, 13-30B), M5 Pro (64 GB, 30B), M5 Max (128 GB, 70B en Q4_K_M). M5 Max es el primer Mac que maneja modelos 70B comparable a estaciones con doble RTX 4090.

¿Cuándo deberías usar hardware de servidor vs consumidor?

Para despliegue en producción (operación 24/7, múltiples usuarios), se recomienda hardware de nivel servidor sobre GPUs de consumidor. El hardware de consumidor está optimizado para gaming, no para inferencia sostenida.

  • Consumidor (RTX 4090): ~$1800, 24 GB VRAM, un solo usuario, propenso a throttling térmico bajo carga sostenida.
  • Servidor (RTX 6000 Ada): ~$5000, 48 GB VRAM, diseñado para uso 24/7, mejor refrigeración, corrección de errores.
  • Recomendación: Comienza con RTX 4090. Si ejecutas modelos 70B 24/7 para múltiples usuarios, actualiza a doble A100 o RTX 6000.
Hardware consumidor vs servidor: RTX 4090 ($1800, 24 GB, un usuario, uso parcial) vs RTX 6000 Ada ($5000+, 48 GB, multi-usuario, servicio 24/7). Comienza con hardware de consumidor; actualiza a servidor solo si ejecutas servicios de producción.
Hardware consumidor vs servidor: RTX 4090 ($1800, 24 GB, un usuario, uso parcial) vs RTX 6000 Ada ($5000+, 48 GB, multi-usuario, servicio 24/7). Comienza con hardware de consumidor; actualiza a servidor solo si ejecutas servicios de producción.

NVIDIA DGX Spark: Computadora de IA de escritorio con 128 GB

El NVIDIA DGX Spark ($3.999) es la única computadora de escritorio de consumidor a mayo de 2026 que cabe Llama 3.3 70B en Q8_0 completamente en memoria unificada.

Construido sobre el GB10 Grace Blackwell Superchip, el DGX Spark se lanzó a finales de 2025 como una computadora de IA de escritorio compacta con 128 GB LPDDR5x de memoria unificada. A mayo de 2026, el DGX Spark también ejecuta Llama 4 Scout y Maverick completamente en memoria, así como Kimi K2.6 (cuantizado), lo que lo hace adecuado para configuraciones a este nivel.

EspecificaciónValor
Memoria unificada128 GB LPDDR5x
Llama 3.3 70B en Q4_K_M✅ cabe (40 GB)
Llama 3.3 70B en Q8_0✅ cabe (70 GB)
Velocidad de inferencia (70B)18-28 tok/s
Precio$3.999
SODGX OS (Ubuntu), Ollama preinstalado
vs RTX 40905× más VRAM, pero 5× el precio

KeyPoint: Comparado con 2× RTX 4090 (48 GB en total, ~$3.600): el DGX Spark tiene 2,7 veces más memoria y ancho de banda unificado más rápido con una prima de $400. El par RTX 4090 ofrece mejor valor a menos que específicamente necesites 70B en calidad Q8_0.

¿Cuáles son los errores de hardware más comunes?

  • Comprar solo CPU cuando hay GPU disponible. Una RTX 4070 Ti de $600 superará a una CPU de $2000. La GPU domina la velocidad de los LLMs.
  • No considerar el overhead de VRAM. Tamaño del archivo del modelo + overhead del sistema + contexto = VRAM total usada. Siempre compra 25% más que el tamaño del modelo.
  • Asumir que todos los modelos 70B caben en 40 GB de VRAM. Lo hacen, apenas, solo con cuantización Q4 (4 bits). Q5 requiere 45+ GB.
  • Ignorar la fuente de alimentación y la refrigeración. La RTX 4090 consume 575 W. Necesitas una fuente de 1200 W y buen flujo de aire en el gabinete.
  • Creer que una GPU vieja funcionará. La RTX 2080 es 10 veces más lenta que la RTX 4070 Ti. La arquitectura moderna de GPU supera significativamente a generaciones anteriores.
  • No considerar la VRAM del KV cache además de los pesos del modelo: Un modelo 7B en Q4_K_M son 4,7 GB de pesos — pero con una ventana de contexto de 32K, el KV cache añade ~4 GB más, totalizando ~8,7 GB. En una tarjeta de 8 GB esto causa errores OOM. Siempre añade 25-100% al tamaño del modelo según la longitud del contexto.
  • Tratar el costo del hardware como el único costo: Si no puedes costear 16+ GB de RAM o una GPU dedicada, las APIs de cloud cuestan menos para uso de bajo volumen ($0,01–0,05 por 1K tokens). Consulta LLM Local vs Cloud: Análisis de costos para el análisis completo.

¿Qué reglas de cumplimiento regional aplican al hardware de LLMs locales?

UE (GDPR + AI Act de la UE): Ejecutar LLMs localmente mantiene todos los datos de inferencia dentro de tu infraestructura, eliminando las preocupaciones de transferencia de datos transfronteriza bajo el Artículo 44 del GDPR. A mayo de 2026, las empresas de la UE que despliegan LLMs para el procesamiento de datos de clientes deben asegurarse de que los modelos nunca se conecten a servidores externos — el hardware local elimina este riesgo por completo. Las obligaciones del AI Act de la UE para sistemas de alto riesgo aplican desde el 2 de agosto de 2026 (pendiente del Digital Omnibus que puede retrasar hasta diciembre de 2027). El hardware local cumple los requisitos de residencia de datos por defecto.

Japón (APPI): La revisión (2022) de la Ley de Protección de Información Personal (APPI) de Japón requiere minimización de datos para el procesamiento de IA. El hardware LLM en las instalaciones con una estación de trabajo RTX 4090 satisface este requisito para el procesamiento de documentos y automatización de soporte al cliente.

China: Las Regulaciones de IA Generativa de la Administración del Ciberespacio de China (CAC) (2023) requieren que los modelos de IA desplegados domésticamente sean registrados. Ejecutar hardware local con modelos de pesos abiertos evita la exposición de cumplimiento basada en API para uso empresarial interno.

Preguntas frecuentes sobre hardware para LLMs locales

¿Puedo ejecutar un modelo 70B en una laptop?

Solo con cuantización pesada (Q2, 2 bits) y respaldo a CPU. Poco práctico. Las laptops son adecuadas para modelos 7B. Para 70B, usa una computadora de escritorio con RTX 4090+.

¿Es la RTX 4090 excesiva para uso personal?

No si ejecutas modelos 70B o varios modelos simultáneamente. Para solo chat con 7B, la RTX 4070 Ti es suficiente. La RTX 4090 está preparada para el futuro si quieres flexibilidad.

¿Debo comprar la RTX 5090 o esperar a la RTX 6090?

La RTX 5090 está disponible (principios de 2026). Las GPUs de servidor RTX 6000 Ada también son sólidas. A menos que tengas presupuesto ilimitado, la RTX 5090 o 4090 son excelentes.

¿Cómo afecta la cuantización a la calidad?

FP16 = 100% de calidad (línea base), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Para la mayoría de las tareas, Q4 es indistinguible de FP16.

¿Puedo actualizar la GPU más tarde?

Sí. Comienza con RTX 4070 Ti ahora, actualiza a RTX 5090 en 2 años si es necesario. La GPU es el componente más fácil de reemplazar.

¿Cuánta RAM necesito para ejecutar un modelo 7B localmente?

8 GB de RAM es el mínimo absoluto para un modelo 7B. 16 GB es lo recomendado para uso cómodo junto al navegador y el SO. 32 GB da margen para ventanas de contexto más grandes y multitarea.

¿Puedo ejecutar LLMs locales en Apple Silicon (M1/M2/M3/M4/M5)?

Sí. Apple Silicon usa memoria unificada compartida entre CPU y GPU. El M5 Pro (64 GB, 307 GB/s) ejecuta modelos 30B bien. El M5 Max (128 GB, 460-614 GB/s) es el primer Mac que ejecuta 70B en Q4_K_M — comparable a estaciones de trabajo con doble RTX 4090.

¿Qué CPU es mejor para LLMs locales sin GPU?

CPUs de muchos núcleos con gran caché L3: AMD Ryzen 9 7950X o Intel Core i9-14900K. Espera 5-15 tokens/s para modelos 7B. La inferencia CPU es 3-5 veces más lenta que la GPU.

¿Afecta la velocidad del almacenamiento al rendimiento de los LLMs locales?

Sí, en el tiempo de carga del modelo. Un SSD NVMe (3-7 GB/s) carga un modelo 7B en 2-5 segundos vs. 20-60 segundos en HDD. La velocidad de inferencia tras la carga no se ve afectada por el almacenamiento.

¿Puedo usar varias GPUs para ejecutar modelos más grandes?

Sí, mediante paralelismo tensorial. Dos RTX 4090 (24 GB cada una) proporcionan 48 GB de VRAM para modelos 70B en FP16. Ollama y llama.cpp admiten multi-GPU mediante --n-gpu-layers dividido entre tarjetas.

¿Cuáles son los mejores LLMs locales para 16 GB de VRAM en 2026?

Mistral Small 3.1 24B Q4_K_M (13 GB, 55 tok/s) es el mejor general para RTX 4080 / RTX 5080 / RTX 4090 laptop. Para programación agentiva: Devstral Small 24B Q4_K_M (16 GB, 45 tok/s). Para razonamiento: DeepSeek-R1 14B (15 GB, 40 tok/s). Llama 3.3 70B no cabe — requiere 39 GB en Q4_K_M.

¿Puede una RTX 4090 única ejecutar un modelo 70B con buena calidad?

No — no en calidad Q4_K_M. Llama 3.3 70B en Q4_K_M requiere ~39 GB de VRAM. La RTX 4090 tiene 24 GB. Puedes ejecutarlo en Q2_K (~24 GB) pero la calidad cae notablemente. Mejores opciones: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, mejor programación densa) o DeepSeek-R1 32B Q4_K_M (~19 GB, mejor razonamiento).

¿Cuál es el mejor LLM local para 16 GB de RAM del sistema sin GPU?

Phi-4 Mini 3.8B Q4_K_M (2,5 GB de RAM, ~25 tok/s en Ryzen 9 7950X) es la mejor opción para inferencia solo CPU con 16 GB de RAM del sistema. Gemma 2 2B Q8 es el más rápido a ~28 tok/s. Llama 3.1 8B Q4_K_M (4,9 GB) también cabe pero corre a ~12 tok/s — lento para uso interactivo.

Fuentes

¿Ya conoces tus necesidades de hardware? Encuentra la mejor GPU económica para LLMs locales.

Mejores GPUs económicas para LLMs locales →

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Hardware LLM Local 2026: Guía de VRAM y GPU para 7B a 70B