Home/Local LLMs/Hardware para LLM locales en 2026: GPU vs Mini PC vs Mac comparados

Hardware & Performance

Hardware para LLM locales en 2026: GPU vs Mini PC vs Mac comparados

Last updated: 4 de abril de 2026·13 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Los requisitos de hardware para LLM locales dependen principalmente de la VRAM: los modelos de 7B necesitan 8 GB, los de 13B necesitan 12-16 GB, y los de 70B necesitan 35-48 GB según la cuantización. La elección de GPU importa 10× más que la CPU para la velocidad de inferencia.

Ejecutar un LLM local significa ajustar el modelo a la VRAM de tu GPU. A fecha de julio de 2026, un modelo de 7B necesita unos 4-5 GB de VRAM en Q4_K_M (la regla general habitual: aproximadamente 0,6 GB por cada mil millones de parámetros en 4 bits) u 8-9 GB en Q8, un modelo de 14B necesita ~9 GB en Q4_K_M, y la mayoría de los modelos de 70B necesitan ~40 GB -- más de lo que contiene una sola RTX 4090 (24 GB). Esta guía ofrece el requisito de hardware exacto por tamaño de modelo, luego el mejor modelo para los niveles de VRAM de 8 GB, 12 GB, 16 GB y 24 GB, qué hace falta realmente para ejecutar un 70B (y el mucho más grande GLM-5.2) en local, inferencia solo en CPU con 16 GB de RAM del sistema, opciones de MacBook de 8 GB, y los precios actuales de GPU de julio de 2026 tras la escasez de memoria de este año.

Slide Deck: Hardware para LLM locales en 2026: GPU vs Mini PC vs Mac comparados

La presentación de abajo cubre: niveles de VRAM de GPU para 12/16/24 GB, mejores modelos por nivel con uso de VRAM y benchmarks de velocidad, inferencia solo por CPU en 16 GB de RAM, y flags de velocidad de llama.cpp para la RTX 4070 Ti. Descarga el PDF como tarjeta de referencia de la Guía de hardware para LLM locales 2026.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Regla general 7B en Q4: un modelo de 7B en cuantización Q4_K_M necesita unos 4-5 GB de VRAM (o de RAM del sistema para inferencia por CPU) — aproximadamente 0,6 GB por cada mil millones de parámetros en 4 bits. Es la forma más rápida de estimar la memoria para cualquier modelo de la clase 7B sin hacer el cálculo completo de VRAM de más abajo.
Cálculo de VRAM: (Tamaño del modelo en GB) ÷ Cuantización = VRAM necesaria. Ejemplo: 70B en Q4 = 70 ÷ 8 = 8,75 GB × parámetros ≈ 39 GB en total.
12 GB de VRAM (RTX 4070 Ti): Mejor modelo: Llama 3.1 8B Q8 (~9 GB, 80 tok/seg). También: Qwen3 8B (~8 GB, mejor multilingüe + programación). Nota: Llama 4 Scout (17B activos / 109B totales MoE) necesita ~55 GB en Q4 y NO cabe en 12 GB.
16 GB de VRAM (RTX 5080 / RTX 5070 Ti): Mejor modelo: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/seg). También: Devstral Small 24B Q4_K_M para programación agéntica. Mistral Small 4 (marzo de 2026) es el sucesor más nuevo de un solo modelo que integra razonamiento, visión y programación.
24 GB de VRAM (RTX 4090 / RTX 5090): La mayoría de los modelos de 70B en Q4_K_M (~40 GB) NO caben. Mejor opción: Qwen3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, mejor programador denso) o DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/seg).
Solo CPU (16 GB de RAM del sistema): Llama 3.2 3B Q8 (20 tok/seg) o Phi-4 Mini Q4_K_M (25 tok/seg). Una RTX 4060 8 GB usada (~$250) o una RTX 5060 Ti 16 GB nueva (~$394) es 5-10× más rápida.
MacBook con 8 GB de RAM: ejecuta solo modelos de 3-4B — Phi-4 Mini, Llama 3.2 3B o Gemma 3 4B en Q4_K_M vía llama.cpp/Ollama (Metal). 7B está al límite en 8 GB; 16 GB es el mínimo cómodo en Mac.
Apple M5 Max (128 GB unificada): ejecuta modelos de 70B en Q4_K_M con comodidad (~12-15 tok/seg) en un portátil o Mac Studio — junto con sistemas Mac Studio y AMD Strix Halo de 128 GB que también albergan un modelo de 70B. Ninguno de ellos cabe con GLM-5.2 (necesita ~239 GB incluso a 2 bits).
Precios de julio de 2026: la escasez de GDDR7 ha empeorado, no se ha aliviado — el precio de calle de la RTX 5090 ha subido de ~$4.000 en junio a $4.300–$5.000+ a mediados de julio, y la RTX 4090 sigue descontinuada. Los compradores con presupuesto ajustado también deberían fijarse en la AMD RX 9070 XT (16 GB GDDR6, ~$630–700) — la GDDR6 ha esquivado la mayor parte de la escasez, lo que la hace notablemente más barata que la RTX 5070 Ti con una VRAM similar. Compra en anuncios con stock disponible; comprueba los precios actuales antes de comprar.
Consejo de velocidad de llama.cpp: Configura siempre `--n-gpu-layers 99`. Esto por sí solo duplica la velocidad en la RTX 4070 Ti de ~40 a ~85 tok/seg.
Referencia rápida: 7B@Q4_K_M = 4-5 GB | 70B@Q4_K_M = 40 GB | GLM-5.2@2-bit = ~239 GB | RTX 4070 Ti = ~80 tok/s | RTX 4090 = ~150 tok/s | Solo CPU 16 GB = 12-28 tok/s

El hardware para LLMs locales se determina por la VRAM: los modelos 7B necesitan 8 GB, los 13–14B necesitan 12–16 GB, y los 70B necesitan 35–48 GB — una RTX 4060 8 GB de segunda mano (~250 $) es la mejor GPU de entrada en 2026.

La VRAM es la memoria dedicada de tu tarjeta gráfica. Cuanto mayor es el modelo de IA, más VRAM necesita. Regla general: divide el tamaño del modelo en gigabytes entre el nivel de compresión (Q4 = dividir entre 8) para estimar la VRAM necesaria.

Requisitos de hardware para LLM locales 2026

El hardware mínimo para ejecutar un LLM local en 2026 es una GPU con 8 GB de VRAM — o un Mac con Apple Silicon con 16 GB de memoria unificada — para modelos de clase 7B. Los requisitos escalan luego con el tamaño del modelo: 14B necesita 12 GB, 24B necesita 16 GB, 32B necesita 24 GB, y un modelo de 70B necesita ~40 GB en Q4_K_M. La VRAM de la GPU es el límite absoluto: decide qué modelos se cargan en absoluto. La CPU y la RAM del sistema afectan al tiempo de carga y a la velocidad de respaldo solo en CPU, pero no a qué modelo cabe en la GPU.

Usa esta tabla como respuesta directa a "qué hardware necesito" — encuentra el tamaño de tu modelo o el nivel de VRAM, y luego salta a las recomendaciones de modelos por nivel más abajo.

Tamaño del modelo	VRAM en Q4_K_M	Ejemplo de GPU (2026)	Mejor modelo	Velocidad
3-4B	4-5 GB	Cualquier 8 GB / Mac 8 GB	Phi-4 Mini, Gemma 3 4B	60-90 tok/s
7-8B	5-9 GB	RTX 5060 Ti, RTX 4060 (8 GB)	Llama 3.1 8B, Qwen3 8B	50-80 tok/s
14B	~9 GB	RTX 5070 (12 GB)	Qwen3 14B	~80 tok/s
24B	~14 GB	RTX 5070 Ti / 5080 (16 GB)	Mistral Small 3.1 24B	~55 tok/s
27-32B	16-19 GB	RTX 4090 / 5090 (24-32 GB)	Qwen3.6 27B, DeepSeek-R1 32B	55-60 tok/s
70B	~40 GB	RTX 5090 doble, A100, Mac M5 Max 128 GB	Llama 3.3 70B	10-60 tok/s

•KeyPoint: En una frase: ajusta el modelo a tu VRAM — 8 GB ejecuta 7B, 12 GB ejecuta 14B, 16 GB ejecuta 24B, 24 GB ejecuta 32B, y solo 40 GB+ ejecuta un modelo de 70B con calidad Q4_K_M utilizable.

•ProTip: Añade margen para la caché KV (contexto de conversación): presupuesta un 25% adicional sobre los pesos del modelo para 8K de contexto y hasta un 100% para 32K. Consulta la sección de caché KV más abajo.

Mejores GPU para comprar — recomendaciones 2026

La opción en stock para LLM locales en julio de 2026 es la NVIDIA serie RTX 50 (Blackwell): 5060 Ti, 5070, 5070 Ti, 5080, 5090. La serie RTX 40 (4060, 4070 Ti, 4090) está descontinuada y ahora se vende escasa y por encima de sus precios antiguos en el mercado de segunda mano. Una escasez de GDDR7/memoria en 2026 ha seguido empeorando a lo largo de julio, empujando incluso a las tarjetas de la serie 50 aún más por encima del MSRP, así que trata cada cifra de abajo como un precio de calle típico de mediados de julio de 2026 y comprueba los anuncios actuales antes de comprar. Recomendaciones por caso de uso:

Para modelos de 7B (Mistral, Phi-4, Llama 3.1) — Económica: RTX 5060 Ti 16 GB (~$394, cerca del MSRP) o una RTX 4060 8 GB usada (~$250). Ejecuta cualquier modelo de 7B en Q4_K_M (~4-5 GB). Velocidad: 50–70 tok/seg. Nivel: Entusiastas con presupuesto ajustado.
Para modelos de 14B (Qwen3 14B, DeepSeek-R1) — Mayoritaria: RTX 5070 (12 GB, ~$609). Mejor tarjeta nueva en relación precio-rendimiento. Qwen3 14B Q4_K_M funciona bien con margen. Velocidad: 85–110 tok/seg. Nivel: La más popular.
Para modelos de 24-32B (Qwen3.6, Mistral Small) — Gama media: RTX 5070 Ti (16 GB, ~$979) o RTX 5080 (16 GB, ~$1.249). Ejecuta Mistral Small 3.1 24B y Devstral Small 24B Q4_K_M. Velocidad: 110–150 tok/seg. Nivel: Desarrolladores profesionales. Alternativa económica: AMD RX 9070 XT (16 GB GDDR6, ~$630–700) — la GDDR6 ha esquivado en gran medida la escasez, por lo que ahora es $150–250 más barata que la RTX 5070 Ti con una VRAM similar, aunque ROCm tiene un soporte de herramientas para LLM local más limitado que CUDA.
Para modelos de 70B (Llama 3.3) — Gama alta: RTX 5090 (32 GB, ~$2.000 MSRP pero ~$4.300–5.000+ de calle y sigue subiendo) cabe un 70B en Q4_K_M con descarga ligera a CPU. Una RTX 4090 usada (24 GB, ~$2.300) ejecuta un 70B solo en Q2_K. Para Q4_K_M completo, usa RTX 5090 doble. Velocidad: ~200 tok/seg (5090, modelos más pequeños). Nivel: Investigación + producción.
Para GLM-5.2 (744B MoE, 40B activos) — Extremo: ninguna GPU de consumo individual es suficiente. El GGUF dinámico de 2 bits sigue necesitando ~239 GB combinados de VRAM/RAM. Rutas locales realistas: una configuración con 4× RTX 3090/4090 y 192 GB+ de RAM del sistema, o un Mac Studio de 256 GB+, ambas en torno a 3–9 tok/seg mediante descarga híbrida CPU/GPU.
Mejor relación calidad-precio 2026: una sola RTX 5070 Ti o 5080 (16 GB) es el punto óptimo — ejecuta todo hasta 32B en Q4_K_M sin la especulación de precios de la serie 50 sobre la 5090.
Para usuarios de Apple: el Mac M5 Max (128 GB de memoria unificada, ~$6.000) ejecuta un 70B en Q4_K_M a ~12-15 tok/seg — más lento que un escritorio multi-GPU, pero silencioso, eficiente energéticamente y portátil.

GPU	Mejor para	Precio	Velocidad	Nivel
RTX 5060 Ti (16 GB)	Modelos de 7-13B	~$394	50–70 tok/s	Económica
RTX 5070 (12 GB)	Modelos de 14B	~$609	85–110 tok/s	Mayoritaria
RX 9070 XT (16 GB)	Modelos de 24-32B	~$630–700	90–130 tok/s	Alternativa económica
RTX 5070 Ti / 5080 (16 GB)	Modelos de 24-32B	~$979–1.249	110–150 tok/s	Profesional
RTX 4090 (24 GB, usada)	32B, 70B (Q2)	~$2.300	150–180 tok/s	Fin de vida / usada
RTX 5090 (32 GB)	70B (Q4, descarga ligera)	~$2.000 MSRP (~$4.300–5.000+ de calle)	~200 tok/s	Gama alta
RTX 5090 doble	70B (Q4) completo	~$8.600–10.000	300+ tok/s	Empresarial
Mac M5 Max 128GB	70B (Q4)	~$6.000	~12–15 tok/s (70B)	Portátil pro
4× RTX 3090/4090 + 192GB RAM	GLM-5.2 (2 bits)	~$6.000–9.000	3–9 tok/s	MoE extremo

⚠️Warning: Los precios de julio de 2026 son volátiles y siguen empeorando. La escasez de GDDR7 ha empujado la RTX 5090 de aproximadamente $4.000 de calle en junio a $4.300–$5.000+ a mediados de julio — más del doble de su MSRP de $1.999 — y la descontinuada RTX 4090 ahora cuesta más usada de lo que costaba nueva. Los precios anteriores son cifras de calle típicas — comprueba siempre los anuncios actuales antes de comprar. La AMD RX 9070 XT, basada en GDDR6, es una excepción notable: ha evitado en gran medida el pico de precios.

¿Cómo se calculan los requisitos de VRAM?

Los requisitos de VRAM dependen de tres factores: tamaño del modelo (parámetros), cuantización (bits por peso) y modo de inferencia. Usa esta fórmula para determinar si tu GPU tiene suficiente memoria. Para una calculadora interactiva, consulta la calculadora de VRAM para LLM locales.

Fórmula:

```text VRAM (GB) = (Tamaño del modelo × Bits de cuantización) ÷ 8 ```

Valores de cuantización: FP16 = 16 bits, Q8_0 = 8 bits, Q5_K_M = 5 bits, Q4_K_M = 4 bits. El punto óptimo práctico es Q4_K_M -- usa pesos de 4 bits con K-cuantización, que las GPU NVIDIA aceleran de forma más eficiente que el formato Q4_0 más antiguo.

Modelo	FP16	Q8_0	Q5_K_M	Q4_K_M
Llama 4 Scout (109B total MoE)	~218 GB	~109 GB	~68 GB	~55 GB
Llama 3.1 8B	16 GB	8.5 GB	5.7 GB	4.7 GB
Qwen 3.6 27B	~54 GB	~28 GB	~19 GB	~16 GB
Qwen3 8B	~16 GB	~8.5 GB	~5.7 GB	~5 GB
Llama 3.3 70B	140 GB	70 GB	48 GB	40 GB
Qwen3 32B	64 GB	33 GB	22 GB	19 GB
Mistral Small 3.1 24B	48 GB	25 GB	17 GB	14 GB
Phi-4 Mini 3.8B	7.6 GB	4.1 GB	2.7 GB	2.3 GB

Q4_K_M es el valor por defecto recomendado para hardware de consumo -- 90-95% de la calidad de FP16 al 25-30% del coste de VRAM. Llama 4 Scout usa arquitectura MoE con 17B parámetros activos de 109B totales. Todos los 109B expertos deben cargarse en memoria, así que Scout necesita ~55 GB en Q4 (cabe en 24 GB solo a 1,78 bits). MoE reduce el cómputo por token, no la huella de VRAM.

Calculadora de VRAM mostrando la fórmula (Tamaño del modelo × Bits) ÷ 8, con ejemplos: 8B Q4_K_M = 4,7 GB, 13B Q5_K_M = 9,1 GB, 70B Q4_K_M = 40 GB. Q4_K_M es el punto óptimo recomendado para la mayoría del hardware.

•KeyPoint: En una frase: la VRAM es el grupo de memoria dedicada de la GPU -- el único número que determina qué modelos de IA puedes ejecutar en local y con qué calidad.

Caché KV: el coste oculto de VRAM

La fórmula de VRAM (Tamaño del modelo × Bits ÷ 8) cubre solo los pesos del modelo -- la caché KV añade VRAM adicional significativa que la mayoría de guías ignoran.

La caché KV almacena el estado de atención de cada token en tu ventana de contexto. Crece linealmente con la longitud del contexto y permanece en VRAM durante toda la sesión.

Fórmula de VRAM de la caché KV: `caché KV ≈ capas × cabezales × dim_cabezal × 2 × longitud_contexto × 2 bytes`

Modelo	Contexto 4K	Contexto 32K	Contexto 128K
Llama 3.1 8B	0.5 GB	4 GB	16 GB
Llama 3.3 70B	2 GB	16 GB	64 GB
Qwen3 32B	1 GB	8 GB	32 GB

•KeyPoint: En una frase: la caché KV es VRAM temporal usada para almacenar el contexto de la conversación -- crece con cada token que generas y es independiente del almacenamiento de los pesos del modelo.

⚠️Warning: Un Llama 3.1 8B en Q4_K_M necesita 4,7 GB para los pesos -- pero añade una ventana de contexto de 32K y la VRAM total sube a ~8,7 GB. En una tarjeta de 8 GB, esto provoca errores OOM.

•KeyPoint: Regla general: Añade un 25% al tamaño de los pesos del modelo para un contexto típico de 8K, y un 100% para 32K. El contexto por defecto de Ollama es de 2.048 tokens. Para ponerlo más alto: PARAMETER num_ctx 32768 en tu Modelfile.

¿Qué nivel de GPU se ajusta a tu carga de trabajo?

A fecha de julio de 2026, las GPU NVIDIA ofrecen la mayor cantidad de tokens/seg para la inferencia de LLM locales en todos los puntos de precio. Las secciones bajo cada nivel dan recomendaciones de modelos específicas. Para una comparación detallada de benchmarks, consulta la guía de las mejores GPU para LLM locales.

Nivel	GPU	VRAM	Mejor para	Velocidad
Económica (~$394)	RTX 5060 Ti	16 GB	Modelos de 7-13B	~60 tok/s
Mayoritaria (~$609)	RTX 5070	12 GB	Modelos de 7-14B	~90 tok/s
Media (~$979)	RTX 5070 Ti	16 GB	Modelos de 14-32B	~110 tok/s
Alta (~$1.249)	RTX 5080	16 GB	Modelos de 14-32B	~130 tok/s
Tope (~$4.300–5.000+ de calle)	RTX 5090	32 GB	70B (Q4, descarga ligera)	~200 tok/s
Servidor ($7.000+)	RTX 6000 Ada / A100	48-80 GB	Multiusuario, 70B+	Producción
IA de escritorio ($4.699)	NVIDIA DGX Spark	128 GB	Modelos MoE grandes (no GLM-5.2)	~3 tok/s (70B denso)

Recomendaciones de niveles de GPU (precios de calle de julio de 2026): ~$394 RTX 5060 Ti (16GB, 7-13B, 60 tok/s), ~$609 RTX 5070 (12GB, 14B, 90 tok/s), ~$1.249 RTX 5080 (16GB, 14-32B, 130 tok/s), ~$4.300–5.000+ RTX 5090 (32GB, 70B, 200 tok/s), $4.699 DGX Spark (128GB, MoE grande). La elección de GPU importa 10× más que la CPU.

•KeyPoint: A fecha de julio de 2026, la serie RTX 50 (Blackwell) es la generación actual y las únicas tarjetas de consumo NVIDIA aún en producción — la serie RTX 40 está descontinuada. La RTX 5090 (32 GB) es la tarjeta a comprar para trabajo con 70B, aunque la escasez de memoria, que sigue empeorando, ha empujado los precios de calle a más del doble de su MSRP de $1.999.

Mejores LLM locales por nivel de VRAM (julio de 2026)

Usa esto como búsqueda rápida según el nivel de VRAM de tu GPU:

Todos los modelos listados a continuación son de pesos abiertos — descargables, ajustables y gratuitos para ejecutar en local. Si estás eligiendo entre pesos abiertos y APIs propietarias, consulta nuestra comparación de LLM de código abierto vs propietarios para los compromisos de coste y rendimiento a diferentes volúmenes de tokens.

El hardware determina qué modelos puedes ejecutar; la ingeniería de prompts determina lo bien que funcionan. Un prompt bien estructurado en un modelo de 7B a menudo supera a un prompt perezoso en uno de 70B. Consulta la guía completa de ingeniería de prompts para técnicas que maximizan la calidad de salida con cualquier número de parámetros.

8 GB de VRAM (RTX 5060 Ti, RTX 4060, Intel B580): Llama 3.1 8B Q4_K_M (4,7 GB, ~70 tok/s) -- recomendado. Qwen3 8B (5 GB, mejor multilingüe + programación). Phi-4 Mini 3.8B (2,3 GB, el más rápido). Gemma 3 4B (~3 GB, modelo pequeño de Google de generación actual, multimodal). Evita modelos de 13B+.
12 GB de VRAM (RTX 4070 Ti, RTX 5070, Intel B770): Llama 3.1 8B (4,7 GB, rápido con margen). Qwen3 14B Q4_K_M (8,5 GB, mejor razonamiento con presupuesto). Qwen3 8B (5 GB, mejor multilingüe + programación). DeepSeek-R1 8B (5 GB, mejor razonamiento). Evita modelos de 30B+ y MoE como Llama 4 Scout (~55 GB en Q4).
16 GB de VRAM (RTX 4080, RTX 5070 Ti, RTX 5080): Mistral Small 3.1 24B Q4_K_M (14 GB, mejor calidad del nivel). Devstral Small 24B Q4_K_M (~16 GB) para programación agéntica. Qwen3 14B (9 GB, rápido con margen de contexto). Llama 3.3 70B en Q2_K (17 GB, posible pero con calidad degradada).
24 GB de VRAM (RTX 5090, RTX 4090, Tesla L40): Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, mejor modelo de programación denso). DeepSeek-R1 32B Q4_K_M (~19 GB, mejor razonamiento). Qwen3 32B Q5_K_M (~21 GB). Llama 3.3 70B necesita 2× GPU de 24 GB en Q4_K_M.
32 GB de VRAM (RTX 5090): Llama 3.3 70B Q4_K_M (40 GB -- necesita una descarga mínima a CPU para las últimas capas). Qwen3 32B (19 GB, cabe entero con 13 GB de sobra). Para programación agéntica, la línea Kimi K2 (MoE, 1T total / 32B activos, MIT modificado) es la opción de peso pesado -- Kimi K2.7 Code (junio de 2026) es la más reciente, con K2.6 como la versión general anterior; ambas necesitan cuantización y descarga intensa en este nivel. La RTX 5090 es la primera GPU de consumo única que cabe un 70B denso con descarga mínima.
48+ GB de VRAM (RTX 6000 Ada, A100, DGX Spark): Llama 3.3 70B Q4_K_M (40 GB, cabe entero). Llama 4 Scout (17B activos / 109B totales MoE, ~55 GB en Q4 -- mejor opción de contexto largo de 10M tokens / multimodal). Llama 4 Maverick (17B activos, 400B totales, MoE). Llama 3.3 70B Q8_0 (70 GB -- necesita un A100 de 80 GB). NVIDIA DGX Spark (128 GB unificada) cabe cualquier modelo de pesos abiertos hasta un 70B en Q8_0 inclusive, con 58 GB de sobra -- pero no los modelos MoE de última generación más recientes: GLM-5.2 (744B en total, 40B activos) necesita ~239 GB incluso con cuantización agresiva de 2 bits, muy por encima de lo que ofrece el DGX Spark o un solo Mac Studio de 128 GB.

Mejores LLM locales para 16 GB de VRAM (2026)

El mejor LLM local para una GPU con 16 GB de VRAM en 2026 es Mistral Small 3.1 24B en Q4_K_M: usa ~13 GB, funciona a 55 tok/seg, y es el modelo general más potente que cabe con margen de contexto. Las tarjetas de 16 GB (NVIDIA RTX 5080, RTX 5070 Ti, RTX 4080 usada, o una RTX 4090 de portátil) llegan como máximo a modelos de 14-24B — un modelo de 70B necesita ~40 GB y no cabe.

Para programación agéntica, Devstral Small 24B Q4_K_M cabe en ~16 GB; para razonamiento, DeepSeek-R1 14B Q8_0 es la opción. El más nuevo Mistral Small 4 (marzo de 2026) es un solo modelo que integra razonamiento, visión y programación y es el sucesor natural como valor por defecto de la clase de 16 GB. La tabla de abajo muestra qué cabe y qué no — las filas de "NO cabe" son el error más común que cometen los dueños de 16 GB.

Modelo	Cuantización	VRAM usada	Velocidad (RTX 4080)	Mejor para	¿Cabe en 16 GB?
Mistral Small 3.1 24B	Q4_K_M	~13 GB	55 tok/seg	Chat general	✅ Sí
Devstral Small 24B	Q4_K_M	~16 GB	45 tok/seg	Programación agéntica	✅ Justo
Qwen3 14B	Q8_0	~15 GB	45 tok/seg	Programación + razonamiento	✅ Sí
DeepSeek-R1 14B	Q8_0	~15 GB	40 tok/seg	Matemáticas + análisis	✅ Sí
Llama 3.1 8B	FP16	~16 GB	70 tok/seg	Respuestas más rápidas	✅ Justo
Llama 3.3 70B	Q4_K_M	~39 GB	--	--	❌ No (necesita 39 GB)

Gráfico de barras que muestra qué modelos caben en 16 GB de VRAM: Mistral Small 3.1 24B Q4_K_M (13 GB ✅), Devstral Small 24B Q4_K_M (16 GB ✅), Qwen3 14B Q8_0 (15 GB ✅), Llama 3.3 70B Q4_K_M (39 GB ❌). Mejor elección: Mistral Small 3.1 24B a 55 tok/seg.

•ProTip: 🏆 Mejor en general para 16 GB: Mistral Small 3.1 24B Q4_K_M a ~13 GB, 55 tok/seg. Para programación agéntica, usa Devstral Small 24B (Mistral AI, Francia) a 45 tok/seg. Mejor razonamiento: DeepSeek-R1 14B Q8_0 a 40 tok/seg.

⚠️Warning: Las GPU de portátil RTX 4090 tienen 16 GB de VRAM (no 24 GB). Comparten el mismo techo de modelo que la RTX 4080 de escritorio.

•KeyPoint: Cuándo subir a 24 GB (RTX 4090 de escritorio): solo si necesitas modelos de 32B+ en Q8, o quieres ejecutar dos modelos simultáneamente sin recargar.

¿Qué LLM locales funcionan mejor en 12 GB de VRAM?

En una GPU con 12 GB de VRAM (NVIDIA RTX 5070, RTX 4070 Ti o RTX 3060 12 GB), puedes ejecutar modelos de 7-8B en Q8 o de 14B en Q4_K_M. Nota: los modelos MoE como Llama 4 Scout NO caben aquí -- aunque Scout activa solo 17B parámetros por token, todos los 109B expertos totales deben cargarse en memoria, requiriendo ~55 GB en Q4.

Llama 3.1 8B en Q8_0 es la opción más fiable para configuraciones conservadoras: 9 GB de VRAM, 80 tok/seg y calidad completa de seguimiento de instrucciones. Qwen3 14B en Q4_K_M también cabe en ~8,5 GB y ofrece un razonamiento notablemente mejor que el nivel de 8B.

Modelo	Cuantización	VRAM usada	Velocidad (RTX 4070 Ti)	Mejor para	¿Cabe en 12 GB?
Llama 3.1 8B	Q8_0	~9 GB	80 tok/seg	Mejor en general, chat general + programación	✅ Sí
Qwen3 14B	Q4_K_M	~8.5 GB	65 tok/seg	Mejor razonamiento con presupuesto	✅ Sí
Llama 3.2 11B Vision	Q5_K_M	~8 GB	65 tok/seg	Tareas de imagen + texto	✅ Sí
Qwen3 8B	Q8_0	~8 GB	85 tok/seg	Mejor multilingüe + programación	✅ Sí
Mistral Small v0.3	FP16	~14 GB	--	--	❌ No (necesita 14 GB en FP16)
Llama 4 Scout (109B total MoE)	Q4_K_M	~55 GB	--	--	❌ No (deben cargarse los 109B expertos)

•ProTip: 🏆 Mejor en general para 12 GB: Llama 3.1 8B Q8_0 a ~9 GB, 80 tok/seg. Para mejor razonamiento en la misma tarjeta, usa Qwen3 14B Q4_K_M a ~8,5 GB. Llama 4 Scout no cabe -- sus 109B expertos totales MoE necesitan ~55 GB en Q4.

•KeyPoint: La RTX 3060 12GB es el punto de entrada económico (~$200 usada). Ejecuta todos los modelos de 12 GB pero a ~60-70 tok/seg frente a ~80-90 tok/seg en la RTX 4070 Ti debido a su arquitectura de memoria más antigua.

¿Qué modelos de 70B caben realmente en 24 GB de VRAM (RTX 4090)?

El requisito de hardware para ejecutar un modelo de 70B en local con calidad Q4_K_M utilizable es ~40 GB de VRAM — así que una sola RTX 4090 de 24 GB no es suficiente. Tus opciones reales para 70B en 2026 son: 2× RTX 5090 (64 GB combinados), una RTX 5090 (32 GB) con descarga ligera a CPU, una GPU de servidor de 48-80 GB (RTX 6000 Ada / A100), o un Apple M5 Max / sistema de memoria unificada de 128 GB. El malentendido común es que "Q4 es pequeño" — con 70B parámetros, incluso Q4 necesita ~40 GB.

En una sola tarjeta de 24 GB, la mejor estrategia es un modelo de 27-32B, que ofrece una calidad fuerte y cabe cómodamente con margen de contexto. Qwen3.6 27B en Q4_K_M es el mejor modelo de programación denso (77,2% SWE-bench); DeepSeek-R1 32B es la mejor opción de razonamiento. Una GPU de 24 GB solo puede albergar un 70B en Q2_K, donde la calidad cae notablemente. Consulta cómo ejecutar modelos de 70B en 24 GB de VRAM para técnicas de descarga y GPU dual.

Modelo	Cuantización	VRAM requerida	¿Cabe en 24 GB?	Velocidad (RTX 4090)	Notas
Qwen 3.6 27B	Q4_K_M	~16 GB	✅ Sí	55 tok/seg	Mejor modelo de programación denso, 77,2% SWE-bench
DeepSeek-R1 32B	Q4_K_M	~19 GB	✅ Sí	60 tok/seg	Mejor razonamiento, fuerte calidad general
Qwen3 32B	Q5_K_M	~21 GB	✅ Sí	55 tok/seg	Alta calidad, excelente programación + instrucciones
Qwen3 32B	Q8_0	~34 GB	❌ No	--	Requiere GPU de 48 GB
Llama 3.3 70B	Q2_K	~24 GB	⚠️ Apenas	30 tok/seg	Cabe pero la calidad Q2 está notablemente degradada
Llama 3.3 70B	Q4_K_M	~39 GB	❌ No	--	Necesita 2× RTX 4090 o A100 80 GB

Requisitos de VRAM frente al límite de 24 GB de la RTX 4090: Qwen 3.6 27B Q4_K_M (16 GB ✅), DeepSeek-R1 32B Q4_K_M (19 GB ✅), Qwen3 32B Q5_K_M (21 GB ✅), Llama 3.3 70B Q4_K_M (39 GB ❌ -- excede 24 GB en un 63%). Punto óptimo: modelos de 27-32B en Q4-Q5.

•KeyPoint: 🏆 Mejor para RTX 4090 (24 GB): Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) como mejor modelo de programación denso. Para razonamiento: DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/seg). Mejor que Llama 3.3 70B Q2_K con mucha menos VRAM.

⚠️Warning: Si necesitas específicamente calidad de 70B en Q4+, la RTX 4090 no es la GPU adecuada. Necesitas 2× RTX 4090 (48 GB combinados vía paralelismo de tensores) o una RTX 6000 Ada (48 GB). Ejecutar un 70B en Q2_K en una sola 4090 perjudica notablemente la calidad de salida.

¿Qué CPU y RAM necesitas?

Con una GPU dedicada, la CPU y la RAM son componentes secundarios. La GPU se encarga de la matemática matricial; la CPU/RAM gestionan la preparación del contexto. Para una comparación completa de las velocidades de inferencia de GPU vs CPU vs Apple Silicon, consulta la guía de GPU vs CPU vs Apple Silicon.

CPU mínima: procesador de 8 núcleos (Intel Core i7 14ª gen, AMD Ryzen 7 7700X, o más nuevo). Las CPU más antiguas añaden más de un 20% de latencia.

RAM: 16 GB mínimo (con GPU). Si se ejecuta sin GPU, se recomiendan 32+ GB. La RAM no limita directamente el tamaño del modelo cuando hay GPU presente.

Almacenamiento: SSD de 500 GB para los archivos de modelo y el SO. Se prefiere M.2 NVMe (carga de modelos más rápida).

¿Qué modelos funcionan bien en 16 GB de RAM del sistema sin GPU?

Sin GPU, una máquina con 16 GB de RAM del sistema puede ejecutar modelos de 3B-7B a 8-20 tokens/seg usando inferencia por CPU. El cuello de botella es el ancho de banda de memoria, no la capacidad de RAM -- las CPU tienen un ancho de banda mucho menor que las GPU, por lo que la inferencia es 5-10× más lenta.

Con 16 GB de RAM del sistema, la regla práctica es: tamaño del archivo del modelo + 4 GB de sobrecarga del SO ≤ 16 GB. Un modelo de 7B en Q4_K_M (4,9 GB) cabe, pero deja poco margen para contextos largos. La tabla de abajo muestra opciones realistas a fecha de julio de 2026.

Para una guía completa de modelos optimizados en velocidad que cubre los niveles de solo CPU y de 4 GB, 6 GB y 8 GB de VRAM con benchmarks reales, consulta **LLM locales más rápidos para PC de gama baja**.

Modelo	Cuantización	RAM usada	Velocidad (Ryzen 9 7950X)	Mejor para	Notas
Gemma 2 2B	Q8_0	~2.7 GB	28 tok/seg	El más rápido, RAM mínima	Deja 13 GB libres para el SO
Phi-4 Mini 3.8B	Q4_K_M	~2.5 GB	25 tok/seg	Programación en CPU	Mejor relación calidad-por-RAM
Llama 3.2 3B	Q8_0	~3.8 GB	20 tok/seg	Chat general, poca RAM	Fiable, ampliamente soportado
Llama 3.1 8B	Q4_K_M	~4.9 GB	12 tok/seg	Mejor calidad en CPU	12 tok/seg es lento pero usable para tareas por lotes
Llama 3.1 8B	Q8_0	~9 GB	8 tok/seg	Máxima calidad en CPU	Demasiado lento para uso interactivo en la mayoría de CPU

Velocidades de inferencia solo por CPU en Ryzen 9 7950X: Gemma 2 2B Q8_0 (28 tok/seg, el más rápido), Phi-4 Mini Q4_K_M (25 tok/seg, mejor opción), Llama 3.1 8B Q8_0 (8 tok/seg). Una RTX 3060 usada ($200) logra 5-8× más rápido.

•ProTip: 🏆 Mejor para 16 GB de RAM, sin GPU: Phi-4 Mini 3.8B Q4_K_M (2,5 GB, 25 tok/seg). Ofrece una programación y un razonamiento sorprendentemente fuertes para su tamaño.

•KeyPoint: Realidad de velocidad CPU vs GPU: una NVIDIA RTX 3060 12 GB usada (~$200) ejecuta Llama 3.1 8B a más de 70 tok/seg -- 5-8× más rápido que el Ryzen 9 7950X en inferencia solo por CPU. Si la velocidad importa, compra una GPU antes de añadir RAM.

⚠️Warning: Ejecutar un modelo de 7B en 16 GB de RAM solo con CPU deja menos de 7 GB para el SO y el navegador. Con contextos de conversación largos (32k+ tokens), el archivo del modelo crece más allá de su tamaño base y puede provocar agotamiento de RAM. Mantén el tamaño de contexto por debajo de 4096 en máquinas de 16 GB solo con CPU.

¿Cuánto almacenamiento necesitas?

Los archivos de modelo son grandes: un modelo de 7B con cuantización de 4 bits ocupa 4-5 GB. Planifica el almacenamiento en torno al número y tamaño de modelos que quieras mantener en local.

SSD de 500 GB: SO + 1-2 modelos pequeños (3B, 7B)
SSD de 1 TB: SO + 3-5 modelos (mezcla de 7B y 13B)
SSD de 2 TB: SO + 10+ modelos (varios tamaños)
RAID NVMe de 4 TB: configuración de producción, carga rápida de modelos

¿Qué configuración de hardware deberías comprar?

Construir una máquina para LLM local desde cero significa priorizar la GPU primero, luego la CPU y la RAM. Aquí tienes tres configuraciones realistas. Para configuraciones multi-GPU, consulta la guía de LLM local multi-GPU. Para configuraciones de domótica, los mini PC compactos suelen ser una mejor opción que las configuraciones de escritorio completas — consulta el mejor Mini PC para Home Assistant con IA local →.

Presupuesto	GPU	CPU	RAM	Modelos	Coste
$1500 (entrada)	RTX 4070 Ti	i7 13700	16 GB	7-13B	Realista
$2500 (sólida)	RTX 4080	i7 14700K	32 GB	13-30B	Recomendada
$4000 (gama alta)	2× RTX 4090	Ryzen 9 7950X	128 GB	Cualquiera (70B+)	Excesiva para uso personal

Tres configuraciones de equipo: $1500 de nivel de entrada (RTX 4070 Ti, i7 13700, 16GB) para modelos de 7-13B, $2500 configuración sólida (RTX 4080, i7 14700K, 32GB) para 13-30B, $4000 de gama alta (2× RTX 4090, Ryzen 9, 128GB) para cualquier modelo. El nivel medio ofrece la mejor relación calidad-precio.

¿Y si no puedes permitirte el hardware?

Si una GPU de $250–400 está fuera de tu presupuesto, o tu portátil es demasiado antiguo para soportar los motores de inferencia modernos, puede que los LLM locales no sean rentables para ti en 2026.

Calcula el coste real:

Local: $800–2.000 de hardware inicial + electricidad + mantenimiento durante 2–3 años

Nube: $5–50/mes para uso típico de desarrollador (API de Llama o GPT-5.5 mini)

Para usuarios ligeros (< 100.000 tokens/mes), las APIs en la nube cuestan $5–10/mes y no requieren hardware. Para usuarios intensivos (> 10M tokens/mes), lo local se amortiza en 6–12 meses.

Compara todos los compromisos de coste y rendimiento entre local y nube** para encontrar tu punto de equilibrio. Muchos desarrolladores descubren que la nube es más barata para su patrón de uso real.

¿Ya estás buscando por debajo de los niveles de VRAM recomendados? Consulta La mejor app de IA local para un PC de gama baja para saber qué combinaciones de modelo y app funcionan realmente en 8 GB o menos.

¿Cómo maximizar la velocidad de llama.cpp en la RTX 4070 Ti?

Con los ajustes correctos, llama.cpp en una RTX 4070 Ti alcanza 85-95 tokens/seg en Llama 3.1 8B Q4_K_M -- más del doble de la velocidad por defecto de fábrica. El único flag con más impacto es `--n-gpu-layers 99`, que descarga todas las capas del modelo a la GPU. Sin él, las capas recaen en la CPU, creando un cuello de botella severo.

Estos ajustes se aplican a llama.cpp directamente y a Ollama (que usa llama.cpp internamente). Ollama configura `--n-gpu-layers 99` automáticamente en hardware NVIDIA si los controladores están instalados correctamente.

Q4_K_M supera a Q4_0 en un 15-20% en la RTX 4070 Ti. La variante K_M usa cuantización mixta que los núcleos tensoriales de NVIDIA aceleran de forma más eficiente. Elige siempre Q4_K_M sobre Q4_0 cuando ambos estén disponibles.
IQ4_XS es el formato más pequeño (~8% más pequeño que Q4_K_M) con una pérdida de calidad mínima. Útil para encajar Qwen3 14B en 12 GB de VRAM cuando Q4_K_M está al límite.
Q5_K_M funciona casi a la misma velocidad que Q4_K_M en GPU NVIDIA (< 5% más lento) mientras ofrece una calidad de salida notablemente mejor. Vale la pena usarlo cuando tienes un 20% de margen de VRAM.

Flag	Qué hace	Impacto	Por defecto	Notas
--n-gpu-layers 99	Descarga todas las capas a la GPU	+100-150% de velocidad	0 (solo CPU)	El flag más importante -- configúralo siempre primero
--threads [núcleos]	Hilos de CPU para el procesamiento de prompts	+10-15% de velocidad	Todos los hilos (incluido HT)	Configúralo solo al número de núcleos físicos. El hyperthreading perjudica la inferencia.
--ctx-size 2048	Tamaño de la caché KV / ventana de contexto	Ahorra 0,5-8 GB de VRAM	4096	2048 = ~0,5 GB de VRAM extra. 32768 = ~8 GB extra. Auméntalo solo si es necesario.
--n-batch 512	Tamaño de lote del procesamiento de prompts	+5-10% de rendimiento	512	Buen valor por defecto. Auméntalo a 1024 para cargas por lotes si la VRAM lo permite.
--flash-attn	Kernel Flash Attention 2	-20-30% de VRAM en ctx largo	Desactivado	Disponible desde llama.cpp b2900. Reduce la VRAM para contextos > 8k tokens.

Configuración por defecto de llama.cpp: ~40 tok/seg. Optimizada (--n-gpu-layers 99 + --ctx-size 2048 + --flash-attn): ~90 tok/seg -- una mejora de velocidad del 125% en la RTX 4070 Ti ejecutando Llama 3.1 8B Q4_K_M.

•ProTip: Ejecuta `ollama ps` para confirmar que tu modelo está cargado en la GPU. Si la utilización de GPU muestra 0% en `nvidia-smi` mientras genera, los controladores no están enrutando correctamente a CUDA. Reinstala el NVIDIA CUDA Toolkit y reinicia Ollama.

•KeyPoint: Referencia de velocidad de la RTX 4070 Ti: Llama 3.1 8B Q4_K_M = 85-95 tok/seg. Llama 3.3 13B Q4_K_M = 60-70 tok/seg. Qwen3 7B Q8_0 = 90-95 tok/seg. Esto asume --n-gpu-layers 99 y --ctx-size 2048.

⚠️Warning: Aumentar --ctx-size más allá de 8192 en una GPU de 12 GB provocará que las capas del modelo se descarguen de vuelta a la CPU si la caché KV agota la VRAM restante. Si la velocidad cae de repente en conversaciones largas, reduce el tamaño de contexto o usa --flash-attn.

¿Puede el hardware Mac ejecutar LLM locales?

Apple Silicon (serie M) ejecuta LLM locales de forma eficiente usando memoria unificada compartida entre la CPU y la GPU. El M5 base se lanzó en octubre de 2025; el M5 Pro y el M5 Max llegaron en marzo de 2026. Apple mide hasta 4× más rápido el procesamiento de prompts de LLM (tiempo hasta el primer token) en el M5 Pro/Max frente a la generación M4, aunque las mejoras en la generación de tokens son más modestas.

El M5 Max con 128 GB de memoria unificada (hasta 614 GB/s) ejecuta modelos de 70B en Q4_K_M con comodidad — aproximadamente 12-15 tok/seg — en un formato de portátil o Mac Studio. El M5 Pro (hasta 64 GB unificada, 307 GB/s) maneja modelos de 32B con margen generoso para la caché KV y la multitarea. A fecha de julio de 2026, el M5 Max es el Apple Silicon de gama más alta en el mercado; se rumorea un Mac Studio M5 Ultra pero aún no se ha lanzado. Ten en cuenta que el M5 Max se queda muy corto frente a los ~239 GB que necesita GLM-5.2 incluso a 2 bits -- un área donde el techo de memoria unificada de Apple importa más que la velocidad bruta.

En un MacBook con 8 GB de RAM, limítate a modelos de 3-4B. Con la memoria unificada compartida entre el SO y el modelo, 8 GB cabe de forma realista Phi-4 Mini 3.8B, Llama 3.2 3B o Gemma 3 4B en Q4_K_M vía Ollama o llama.cpp (ambos usan el backend de GPU Metal automáticamente). Un modelo de 7B está al límite con 8 GB y hará swap bajo carga; 16 GB es el mínimo cómodo para modelos de 7-8B en un Mac.

Mac	Memoria GPU	Mejor para	Limitación
Serie M 8 GB (Air / base)	8 GB unificada	Modelos de 3-4B (Phi-4 Mini, Gemma 3 4B)	7B al límite; el SO compite por la RAM
M3 Pro MacBook Pro 16"	18 GB unificada	Modelos de 7-8B (rápido)	Puede ejecutar 14B lentamente
M4 Max	36-128 GB unificada	Modelos de 13-32B	70B solo en la configuración máxima de 128 GB
M5 Pro (MacBook Pro)	64 GB unificada, 307 GB/s	Modelos de 32B con comodidad	Llama 4 Scout funciona bien
M5 Max (MacBook Pro / Studio)	128 GB unificada, hasta 614 GB/s	Modelos de 70B en Q4_K_M	~12-15 tok/seg en 70B

Comparación de hardware Mac: serie M 8 GB (modelos de 3-4B), M3 Pro 16" (18GB, 7-8B), M4 Max (36-128GB, 13-32B), M5 Pro (64GB, 32B), M5 Max (128GB, 70B en Q4_K_M ~12-15 tok/seg). 16 GB unificada es el mínimo cómodo para modelos de 7B en un Mac.

¿Cuándo deberías usar hardware de servidor frente al de consumo?

Para despliegue en producción (operación 24/7, múltiples usuarios), se recomienda hardware de grado servidor frente a GPU de consumo. El hardware de consumo está optimizado para juegos, no para inferencia sostenida.

Consumo (RTX 5090): ~$2.000 MSRP (~$4.300–5.000+ de calle a fecha de julio de 2026), 32 GB de VRAM, monousuario, propenso al throttling térmico bajo carga sostenida.
Servidor (RTX 6000 Ada): ~$7.000, 48 GB de VRAM, diseñada para uso 24/7, mejor refrigeración, corrección de errores.
Recomendación: Empieza con una RTX 5090. Si ejecutas modelos de 70B 24/7 para múltiples usuarios, sube a A100 dual o RTX 6000 Ada.

Hardware de consumo vs servidor: RTX 5090 (~$4.300–5.000+ de calle, 32GB, monousuario, tiempo parcial) vs RTX 6000 Ada ($7.000+, 48GB, multiusuario, servicio 24/7). Empieza con hardware de consumo; sube a grado servidor solo si ejecutas servicios de producción.

NVIDIA DGX Spark: ordenador de IA de escritorio de 128 GB

El NVIDIA DGX Spark ($4.699 a fecha de febrero de 2026, frente a su precio de lanzamiento de $3.999) es un ordenador de IA de escritorio compacto de 128 GB que puede albergar Llama 3.3 70B en Q8_0 enteramente en memoria unificada. Los Apple Mac Studio / MacBook Pro con 128 GB y los sistemas AMD Strix Halo de 128 GB pueden hacer lo mismo, así que no es único — pero viene con la pila de software CUDA de NVIDIA.

Construido sobre el superchip GB10 Grace Blackwell, el DGX Spark se lanzó en octubre de 2025 con 128 GB de memoria unificada LPDDR5x. Nota: su ancho de banda de memoria real es de ~273 GB/s, así que la generación de tokens de un 70B denso es lenta — pruebas independientes (LMSYS) midieron aproximadamente 3 tok/seg en Llama 70B. La cifra destacada de cómputo FP4 no se traduce en una decodificación de flujo único rápida. El DGX Spark es más adecuado para modelos grandes de mezcla de expertos (Llama 4 Scout/Maverick, Kimi K2) donde solo se activa una fracción de los parámetros por token -- pero su techo de 128 GB no es ilimitado: GLM-5.2 (744B en total, 40B activos, lanzado en junio de 2026) necesita ~239 GB incluso con cuantización de 2 bits y no cabe en un solo DGX Spark.

Especificación	Valor
Memoria unificada	128 GB LPDDR5x
Llama 3.3 70B en Q4_K_M	✅ cabe (40 GB)
Llama 3.3 70B en Q8_0	✅ cabe (70 GB)
GLM-5.2 en 2 bits (~239 GB)	❌ no cabe
Velocidad de inferencia (70B)	~3 tok/s
Precio	$4.699
SO	DGX OS (Ubuntu), Ollama preinstalado
Ancho de banda de memoria	~273 GB/s (real)
vs RTX 5090	4× más memoria, pero ancho de banda mucho menor

•KeyPoint: Una GPU discreta (RTX 5090, o 5090 dual) genera tokens mucho más rápido que el DGX Spark en modelos densos debido a su ancho de banda de memoria mucho mayor. Elige el DGX Spark por capacidad — para albergar modelos MoE muy grandes en una sola caja — no por la velocidad de un 70B de flujo único.

¿Cuáles son los errores de hardware más comunes?

Comprar solo CPU cuando hay GPU disponible. Una RTX 4070 Ti de $600 superará a una CPU de $2000. La GPU domina la velocidad del LLM.
No tener en cuenta la sobrecarga de VRAM. Tamaño del archivo del modelo + sobrecarga del sistema + contexto = VRAM total usada. Compra siempre un 25% más que el tamaño del modelo.
Asumir que todos los modelos de 70B caben en 40GB de VRAM. Lo hacen, apenas, solo en cuantización Q4 (4 bits). Q5 requiere 45+ GB.
Ignorar la fuente de alimentación y la refrigeración. La RTX 4090 consume 575W. Necesitas una PSU de 1200W y buen flujo de aire en la caja.
Pensar que una GPU antigua servirá. La RTX 2080 es 10× más lenta que la RTX 4070 Ti. La arquitectura de GPU moderna supera significativamente a las generaciones anteriores.
No tener en cuenta la VRAM de la caché KV sobre los pesos del modelo: Un modelo de 7B en Q4_K_M ocupa 4,7 GB de pesos -- pero con una ventana de contexto de 32K, la caché KV añade ~4 GB más, totalizando ~8,7 GB. En una tarjeta de 8 GB esto provoca errores OOM. Añade siempre un 25-100% al tamaño del modelo según la longitud del contexto.
Tratar el coste del hardware como el único coste: Si no puedes permitirte 16+ GB de RAM o una GPU dedicada, las APIs en la nube cuestan menos para uso de bajo volumen ($0,01–0,05 por 1K tokens). Consulta LLM local vs nube: análisis de costes para el compromiso completo.

¿Qué normas de cumplimiento regional aplican al hardware para LLM locales?

UE (RGPD + Reglamento de IA de la UE): Ejecutar LLM en local mantiene todos los datos de inferencia dentro de tu infraestructura, eliminando las preocupaciones de transferencia transfronteriza de datos bajo el Artículo 44 del RGPD. Las obligaciones del Reglamento de IA de la UE para los sistemas de IA de alto riesgo independientes (Anexo III) estaban originalmente previstas para aplicarse desde el 2 de agosto de 2026, pero el "Digital Omnibus sobre IA" — acordado provisionalmente en mayo de 2026 y a la espera de adopción formal a fecha de junio de 2026 — aplaza esa fecha al 2 de diciembre de 2027 (con la IA de alto riesgo integrada en productos regulados diferida al 2 de agosto de 2028). Los deberes de transparencia del Artículo 50 del Reglamento de IA siguen aplicándose en el calendario original. El hardware local satisface los requisitos de residencia de datos por defecto.

Japón (APPI): La enmienda APPI de Japón de 2022 endureció las normas de notificación de brechas y de transferencia transfronteriza, pero no impone un requisito de minimización de datos específico para la IA (se apoya en deberes generales de limitación de finalidad). Más relevantes para la IA son el paquete de reforma APPI de Japón de 2025 y su primera ley de IA — la Ley de Promoción de la IA (en vigor desde junio de 2025), un marco que prioriza la innovación sin sanciones. El hardware LLM on-premise mantiene los datos personales dentro de tu infraestructura para el procesamiento de documentos y la automatización de atención al cliente.

China: Las Medidas Provisionales para los Servicios de IA Generativa de la Administración del Ciberespacio de China (CAC) (en vigor desde agosto de 2023) exigen a los proveedores con influencia en la opinión pública completar una evaluación de seguridad de la CAC y un registro de algoritmos. Desde el 1 de septiembre de 2025, China también obliga al etiquetado de contenido generado por IA bajo las Medidas de etiquetado de la CAC y la norma nacional GB 45438-2025. Ejecutar hardware local con modelos de pesos abiertos evita la exposición de cumplimiento basada en API para uso empresarial interno.

Preguntas frecuentes sobre el hardware para LLM locales

¿Puedo ejecutar un modelo de 70B en un portátil?

Solo con cuantización intensa (Q2, 2 bits) y respaldo en CPU. Poco práctico. Los portátiles son adecuados para modelos de 7B. Para 70B, usa un escritorio con RTX 4090+.

¿Es la RTX 4090 excesiva para uso personal?

No si ejecutas modelos de 70B o varios modelos simultáneamente. Solo para chat de 7B, la RTX 4070 Ti es suficiente. La RTX 4090 está preparada para el futuro si quieres flexibilidad.

¿Debería comprar la RTX 5090 o esperar a la RTX 6090?

La RTX 5090 está disponible (principios de 2026). Las GPU de servidor RTX 6000 Ada también son sólidas. A menos que tengas un presupuesto ilimitado, la RTX 5090 o la 4090 son excelentes.

¿Cómo afecta la cuantización a la calidad?

FP16 = 100% de calidad (base), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Para la mayoría de las tareas, Q4 es indistinguible de FP16.

¿Puedo actualizar la GPU más adelante?

Sí. Empieza con una RTX 4070 Ti ahora, sube a una RTX 5090 dentro de 2 años si lo necesitas. La GPU es el componente más reemplazable.

¿Cuánta RAM necesito para ejecutar un modelo de 7B en local?

8 GB de RAM es el mínimo absoluto para un modelo de 7B. 16 GB es lo recomendado para un uso cómodo junto al navegador y el SO. 32 GB da margen para ventanas de contexto más grandes y multitarea.

¿Puedo ejecutar LLM locales en Apple Silicon (M1/M2/M3/M4/M5)?

Sí. Apple Silicon usa memoria unificada compartida entre la CPU y la GPU. El M5 Pro (64 GB, 307 GB/s) ejecuta bien modelos de 32B. El M5 Max (128 GB, hasta 614 GB/s) ejecuta un 70B en Q4_K_M a aproximadamente 12-15 tok/seg. En un Mac de 8 GB, limítate a modelos de 3-4B.

¿Cuáles son los mejores modelos de llama.cpp para un MacBook con M3 y 8 GB de RAM?

En un MacBook M3 con 8 GB de RAM, ejecuta modelos de 3-4B en Q4_K_M: Phi-4 Mini 3.8B, Llama 3.2 3B o Gemma 3 4B. Usa Ollama o llama.cpp — ambos usan el backend de GPU Metal automáticamente. Un modelo de 7B está al límite y hará swap bajo carga; mantén el contexto por debajo de 4096 tokens. Para un uso cómodo de 7-8B en un Mac, 16 GB de memoria unificada es el mínimo práctico.

¿Qué CPU es la mejor para LLM locales sin GPU?

CPU con alto número de núcleos y gran caché L3: AMD Ryzen 9 7950X o Intel Core i9-14900K. Espera 5-15 tokens/seg para modelos de 7B. La inferencia por CPU es 3-5× más lenta que por GPU.

¿Afecta la velocidad de almacenamiento al rendimiento del LLM local?

Sí, en el tiempo de carga del modelo. Un SSD NVMe (3-7 GB/s) carga un modelo de 7B en 2-5 segundos frente a 20-60 segundos en HDD. La velocidad de inferencia tras la carga no se ve afectada por el almacenamiento.

¿Puedo usar varias GPU para ejecutar modelos más grandes?

Sí, mediante paralelismo de tensores. Dos RTX 5090 (32 GB cada una) proporcionan 64 GB de VRAM, suficiente para un modelo de 70B en Q4_K_M. Ollama y llama.cpp soportan multi-GPU mediante --n-gpu-layers repartido entre tarjetas.

¿Cuáles son los mejores LLM locales para 16 GB de VRAM en 2026?

Mistral Small 3.1 24B Q4_K_M (13 GB, 55 tok/seg) es el mejor en general para RTX 5080 / RTX 5070 Ti / RTX 4090 de portátil. Para programación agéntica: Devstral Small 24B Q4_K_M (16 GB, 45 tok/seg). Para razonamiento: DeepSeek-R1 14B (15 GB, 40 tok/seg). El más nuevo Mistral Small 4 (marzo de 2026) es el sucesor de un solo modelo. Llama 3.3 70B no cabe -- requiere ~40 GB en Q4_K_M.

¿Puede una sola RTX 4090 ejecutar un modelo de 70B con buena calidad?

No -- no con calidad Q4_K_M. Llama 3.3 70B en Q4_K_M requiere ~39 GB de VRAM. La RTX 4090 tiene 24 GB. Puedes ejecutarlo en Q2_K (~24 GB) pero la calidad cae notablemente. Mejores opciones: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench, mejor programación densa) o DeepSeek-R1 32B Q4_K_M (~19 GB, mejor razonamiento).

¿Cuál es el mejor LLM local para 16 GB de RAM del sistema sin GPU?

Phi-4 Mini 3.8B Q4_K_M (2,5 GB de RAM, ~25 tok/seg en Ryzen 9 7950X) es la mejor opción para inferencia solo por CPU en 16 GB de RAM del sistema. Gemma 2 2B Q8 es el más rápido a ~28 tok/seg. Llama 3.1 8B Q4_K_M (4,9 GB) también cabe pero funciona a ~12 tok/seg -- lento para uso interactivo.

¿Cuál es la regla general de memoria para un modelo de 7B en cuantización Q4?

Un modelo de 7B en cuantización Q4_K_M necesita unos 4-5 GB de VRAM (o de RAM del sistema para inferencia solo por CPU) -- aproximadamente 0,6 GB por cada mil millones de parámetros en precisión de 4 bits. Esto escala de forma lineal: un modelo de 14B necesita ~9 GB, uno de 32B necesita ~19 GB, y uno de 70B necesita ~40 GB, todos en Q4_K_M.

¿Qué hardware necesito para ejecutar GLM-5.2 en local?

GLM-5.2 (Z.ai, lanzado en junio de 2026) es un modelo MoE de 744B parámetros con 40B activos por token. Incluso el GGUF dinámico más agresivo de 2 bits necesita ~239 GB combinados de VRAM/RAM -- demasiado grande para una sola RTX 5090 (32 GB), un DGX Spark de 128 GB o un Mac Studio de 128 GB. Las rutas locales realistas son una configuración con 4× RTX 3090/4090 y 192 GB+ de RAM del sistema, o un Mac Studio de 256 GB+, ambas funcionando a aproximadamente 3-9 tokens/seg mediante descarga híbrida CPU/GPU. Para la mayoría de los usuarios, GLM-5.2 es efectivamente solo para la nube.

Fuentes

NVIDIA. (2026). "GeForce GPU Specifications." https://www.nvidia.com/en-us/geforce/graphics-cards/ -- Especificaciones oficiales de VRAM y ancho de banda para las GPU de la serie RTX 40 y RTX 50.
Apple. (2026). "Apple M5 Chip." https://www.apple.com/mac/ -- Especificaciones del M5 Pro/Max, ancho de banda de memoria, afirmaciones de rendimiento de LLM. El M5 es el primer Mac que ejecuta cómodamente modelos de 70B en Q4_K_M.
NVIDIA. (2025). "DGX Spark Product Page." https://www.nvidia.com/en-us/products/workstations/dgx-spark/ -- Especificaciones oficiales del superchip GB10 Grace Blackwell y los 128 GB de memoria unificada.
Meta AI. (2024). "Llama 3.3 Model Card." https://llama.meta.com/ -- Especificaciones oficiales de Llama 3.3 70B y requisitos de VRAM.
Meta AI. (2025). "Llama 4 Model Card." https://llama.meta.com/ -- Arquitectura MoE de Llama 4 Scout/Maverick, requisitos de VRAM.
Z.ai. (2026). "GLM-5.2: Built for Long-Horizon Tasks." https://huggingface.co/blog/zai-org/glm-52-blog -- Ficha oficial del modelo GLM-5.2: arquitectura MoE de 744B totales / 40B activos, licencia MIT, fecha de lanzamiento.

¿Conoces tus necesidades de hardware? Encuentra la mejor GPU económica para LLM locales.

Mejores GPU económicas para LLM locales →

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs