Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/¿Cuánta memoria unificada necesitas para LLMs locales? 16GB vs 36GB vs 64GB vs 128GB (2026)
Hardware & Performance

¿Cuánta memoria unificada necesitas para LLMs locales? 16GB vs 36GB vs 64GB vs 128GB (2026)

·10 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

16GB: solo modelos 7B (justo). 36GB: 13B con comodidad, 34B Q4 justo. 64GB: 34B Q5 con comodidad, 70B Q3 barely. 128GB: 70B Q5 con comodidad. Compra la máxima memoria en el momento de la compra — no puedes actualizarla después. Mínimo recomendado: 36GB; M5 Pro 64GB está preparado para el futuro hasta 2027.

Guía de dimensionamiento de memoria para LLMs locales en Mac: qué modelos caben en 16GB, 36GB, 64GB y 128GB. Incluye tabla de cuantización (Q3, Q4, Q5, Q8), overhead real y consejos de compra. Tabla completa de tamaños de modelos: desde 3.8B (2.1 GB) hasta modelos de 405B.

TL;DR

  • 16GB: solo modelos 7B (justo)
  • 36GB: 13B con comodidad, 34B Q4 justo
  • 64GB: 34B Q5 con comodidad
  • 128GB: 70B Q5 con comodidad
  • No puedes actualizar después de la compra — compra el máximo en el momento de la compra

Key Takeaways

  • Memoria unificada = compartida entre CPU y GPU — toda disponible para los modelos LLM.
  • RTX 4070 tiene 12GB VRAM + 32GB RAM (separados). El Mac tiene memoria unificada = todo disponible.
  • Un Mac de 64GB tiene ~56–60GB para LLMs después del overhead de macOS (4–8GB).
  • Existe swap: macOS usa el SSD si el modelo supera la memoria libre. Funciona pero 5–10× más lento.
  • El tamaño del modelo en GB varía según la cuantización: Llama 3.1 8B es 16GB FP16, 5GB Q4, 8.5GB Q8.
  • Regla: compra la máxima memoria — no puedes actualizarla después de la compra. El costo de la memoria en la venta es el 5–10%; reemplazar todo el Mac después cuesta el 100%.

Cómo funciona la memoria unificada para LLMs

La memoria unificada se comparte entre CPU y GPU — toda está disponible para el modelo. A diferencia de las GPU discretas (RTX 4070 tiene 12GB VRAM + 32GB RAM separados), Apple Silicon comparte un único pool. Mac 64GB = 64GB disponibles para el modelo. macOS y las apps usan 4–8GB, dejando 56–60GB para el LLM.

Tabla maestra: nivel de memoria vs tamaño de modelo

ModeloParámetrosQ3_KQ4_K_MQ5_K_MQ8FP16
Phi-43.8B2.1 GB2.5 GB2.9 GB4.0 GB7.6 GB
Mistral 7B7B3.8 GB4.5 GB5.2 GB7.5 GB14 GB
Llama 3.1 8B8B4.2 GB5.0 GB5.8 GB8.5 GB16 GB
Llama 3.1 13B13B7.0 GB8.5 GB9.8 GB14 GB26 GB
Qwen2.5 34B34B17 GB20 GB24 GB36 GB68 GB
Llama 3.1 70B70B36 GB42 GB49 GB74 GB140 GB
Llama 3.1 405B405B200+ GB240 GB280 GB410 GB810 GB

Añade 4-8 GB para el overhead de macOS al calcular si el modelo cabe en tu Mac.

Matriz encaja / no encaja

Modelo + Cuantización16GB36GB64GB128GB
Phi-4 Q4 (2.5 GB)✓ Sobra✓ Sobra✓ Sobra✓ Sobra
Llama 3.1 8B Q4 (5 GB)⚠️ Justo✓ Cómodo✓ Sobra✓ Sobra
Llama 3.1 8B Q8 (8.5 GB)✗ No cabe✓ Cómodo✓ Sobra✓ Sobra
Llama 3.1 13B Q4 (8.5 GB)✗ No cabe✓ Cómodo✓ Sobra✓ Sobra
Qwen2.5 34B Q4 (20 GB)✗ No cabe⚠️ Justo✓ Cómodo✓ Sobra
Qwen2.5 34B Q5 (24 GB)✗ No cabe✗ No cabe✓ Cómodo✓ Sobra
Llama 3.1 70B Q3 (36 GB)✗ No cabe✗ No cabe⚠️ Justo✓ Cómodo
Llama 3.1 70B Q4 (42 GB)✗ No cabe✗ No cabe⚠️ Muy justo✓ Cómodo
Llama 3.1 70B Q5 (49 GB)✗ No cabe✗ No cabe✗ No cabe✓ Cómodo
Llama 3.1 70B Q8 (74 GB)✗ No cabe✗ No cabe✗ No cabe✓ Cabe

✓ Sobra = 4+ GB libres | ✓ Cómodo = 2-4 GB libres | ⚠️ Justo = menos de 2 GB libres | ✗ No cabe = usa swap o falla

Qué cabe en cada nivel de memoria (práctica)

  1. 1
    16 GB (M5 base, MacBook Air)
    Why it matters: Llama 3.1 8B Q4 cabe (5GB modelo + 8GB OS = 13GB) ✓ pero justo. Llama 8B Q8 no cabe sin swap. Whisper small cabe junto.
  2. 2
    36 GB (M5 Pro base)
    Why it matters: Llama 3.1 8B Q8 cabe con comodidad. Llama 13B Q4 cabe. Qwen2.5 34B Q4 cabe justo (20GB + 8GB OS = 28GB). Multimodelo: Whisper + LLaVA + TTS caben ✓
  3. 3
    64 GB (M5 Pro max)
    Why it matters: Qwen2.5 34B Q5 cabe con comodidad (24GB). Llama 70B Q3 cabe justo. Los stacks multimodelo tienen mucho espacio.
  4. 4
    128 GB (M5 Max)
    Why it matters: Llama 3.1 70B Q5 cabe con comodidad (49GB). 70B Q8 cabe (74GB). Multimodal: Whisper + modelo de visión 90B + LLM 8B caben simultáneamente ✓

Requisitos de memoria para stacks multimodelo

Caso de uso (stack)Memoria necesaria
Solo LLM (Llama 8B Q4)5 GB + OS = 13 GB
LLM + STT (Llama 8B + Whisper large-v3)8 GB + OS = 16 GB
LLM + STT + TTS (asistente de voz)9 GB + OS = 17 GB
LLM + Vision (Llama 8B + LLaVA 7B)11 GB + OS = 19 GB
Multimodal completo (LLM + Vision + STT + TTS)14 GB + OS = 22 GB
LLM + RAG (Llama 8B + embeddings + ChromaDB)8 GB + OS = 16 GB
Multimodal pesado (Llama 70B Q4 + Vision 90B)100+ GB

Los stacks superiores a 22 GB necesitan un Mac mínimo de 36GB. Los superiores a 50 GB necesitan mínimo 64GB. El stack multimodal pesado solo funciona en M5 Max 128GB.

La ventana de contexto añade overhead de memoria

El caché KV escala con la longitud del contexto — cuanto mayor sea la ventana de contexto, más memoria usa el modelo en tiempo de ejecución. Esta es una trampa común que puede hacer que una configuración ajustada caiga en swap.

  • Llama 3.1 8B con contexto 8K: +0.5 GB
  • Llama 3.1 8B con contexto 32K: +2 GB
  • Llama 3.1 8B con contexto 128K: +8 GB
  • Llama 3.1 70B con contexto 32K: +6 GB
  • Llama 3.1 70B con contexto 128K: +24 GB

Compra la máxima memoria — aquí está el porqué

  • No puedes actualizar la memoria de Apple Silicon después de la compra.
  • Los tamaños de los modelos crecen: 8B hoy → sweet spot de 13–34B en 2027.
  • 16GB ya es marginal para LLMs — mínimo recomendado 36GB.
  • Diferencia de precio: 36GB→64GB cuesta ~$200 en el momento de la compra, y evita tener que comprar un Mac nuevo en 2 años cuando los modelos superen los 36GB.
  • Ejemplo: M5 Pro 36GB hoy cuesta $999; 64GB cuesta $1,199. Comprar un Mac nuevo en 2 años: $1,500+ por la misma configuración M5 Pro 64GB.

Impacto de la cuantización en la calidad

Q4_K_M (4 bits): ~1–2% de pérdida de calidad vs FP16. Imperceptible para la mayoría de usos. La mejor opción por defecto.

Q5_K_M (5 bits): ~0.5–1% de pérdida de calidad. Insignificante. Recomendado si tienes memoria de sobra.

Q8 (8 bits): ~0.1% de pérdida de calidad. Esencialmente sin pérdida.

Q3_K (3 bits): 3–5% de pérdida de calidad. Perceptible en razonamiento complejo. Aceptable solo en escenarios con espacio muy limitado.

¿Debería elegir 36GB o 64GB?

Elige 64GB si el presupuesto lo permite ($200 más). 36GB funciona hoy, pero en 12 meses se quedará justo a medida que los modelos crezcan. 64GB está preparado para el futuro hasta 2027–2028.

¿Puedo actualizar la memoria después?

No. La memoria de Apple Silicon está soldada y no se puede actualizar. Compra el máximo en el momento de la compra.

¿Por qué 16GB no es suficiente?

16GB para LLM + 4–8GB para macOS = 8–12GB disponibles. Llama 8B Q4 necesita 5GB, sin dejar espacio para Whisper u otras tareas. Es demasiado ajustado.

¿Realmente necesito 128GB?

Solo si ejecutas regularmente modelos 70B o necesitas Vision + LLM + STT simultáneamente. De lo contrario, 64GB es más que suficiente.

¿Es suficiente 48GB para LLMs locales?

Sí — 48GB (disponible en M4 Pro y algunas configuraciones M5 Pro) es un buen punto intermedio. Ejecuta todos los modelos 34B, 70B Q3 al límite, y stacks multimodales completos. Mejor que 36GB; si puedes permitirte 64GB, la preparación para el futuro vale la pena.

¿Cuánta memoria necesito para ejecutar Llama 3.1 70B localmente?

Mínimo 48GB (cuantización Q3, pérdida de calidad notable). Recomendado 64GB (cuantización Q4, espacio justo). Cómodo 128GB (cuantización Q5/Q8, alta calidad). El nivel de 64GB requiere gestión cuidadosa de la memoria; 128GB es la única opción sin preocupaciones para 70B.

¿Necesito 128GB para IA local en 2026?

Solo si ejecutas regularmente modelos 70B o necesitas stacks de Vision + LLM + STT simultáneamente. Para uso cotidiano de LLM (modelos 8B–34B, RAG, asistencia de código), el M5 Pro 64GB es el sweet spot. 128GB implica un salto de precio de 2–3× con beneficio marginal a menos que necesites específicamente 70B.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

¿Compraste tu Mac con la memoria correcta? Compara las respuestas de tu LLM local con GPT-4, Claude, Gemini y más de 22 modelos con PromptQuorum — verifica que tu configuración de memoria ofrece calidad comparable a la nube para tus tareas.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Guía de memoria para LLMs locales 2026: 16–128GB