TL;DR
- 16GB: solo modelos 7B (justo)
- 36GB: 13B con comodidad, 34B Q4 justo
- 64GB: 34B Q5 con comodidad
- 128GB: 70B Q5 con comodidad
- No puedes actualizar después de la compra — compra el máximo en el momento de la compra
Key Takeaways
- Memoria unificada = compartida entre CPU y GPU — toda disponible para los modelos LLM.
- RTX 4070 tiene 12GB VRAM + 32GB RAM (separados). El Mac tiene memoria unificada = todo disponible.
- Un Mac de 64GB tiene ~56–60GB para LLMs después del overhead de macOS (4–8GB).
- Existe swap: macOS usa el SSD si el modelo supera la memoria libre. Funciona pero 5–10× más lento.
- El tamaño del modelo en GB varía según la cuantización: Llama 3.1 8B es 16GB FP16, 5GB Q4, 8.5GB Q8.
- Regla: compra la máxima memoria — no puedes actualizarla después de la compra. El costo de la memoria en la venta es el 5–10%; reemplazar todo el Mac después cuesta el 100%.
Cómo funciona la memoria unificada para LLMs
La memoria unificada se comparte entre CPU y GPU — toda está disponible para el modelo. A diferencia de las GPU discretas (RTX 4070 tiene 12GB VRAM + 32GB RAM separados), Apple Silicon comparte un único pool. Mac 64GB = 64GB disponibles para el modelo. macOS y las apps usan 4–8GB, dejando 56–60GB para el LLM.
Tabla maestra: nivel de memoria vs tamaño de modelo
| Modelo | Parámetros | Q3_K | Q4_K_M | Q5_K_M | Q8 | FP16 |
|---|---|---|---|---|---|---|
| Phi-4 | 3.8B | 2.1 GB | 2.5 GB | 2.9 GB | 4.0 GB | 7.6 GB |
| Mistral 7B | 7B | 3.8 GB | 4.5 GB | 5.2 GB | 7.5 GB | 14 GB |
| Llama 3.1 8B | 8B | 4.2 GB | 5.0 GB | 5.8 GB | 8.5 GB | 16 GB |
| Llama 3.1 13B | 13B | 7.0 GB | 8.5 GB | 9.8 GB | 14 GB | 26 GB |
| Qwen2.5 34B | 34B | 17 GB | 20 GB | 24 GB | 36 GB | 68 GB |
| Llama 3.1 70B | 70B | 36 GB | 42 GB | 49 GB | 74 GB | 140 GB |
| Llama 3.1 405B | 405B | 200+ GB | 240 GB | 280 GB | 410 GB | 810 GB |
Añade 4-8 GB para el overhead de macOS al calcular si el modelo cabe en tu Mac.
Matriz encaja / no encaja
| Modelo + Cuantización | 16GB | 36GB | 64GB | 128GB |
|---|---|---|---|---|
| Phi-4 Q4 (2.5 GB) | ✓ Sobra | ✓ Sobra | ✓ Sobra | ✓ Sobra |
| Llama 3.1 8B Q4 (5 GB) | ⚠️ Justo | ✓ Cómodo | ✓ Sobra | ✓ Sobra |
| Llama 3.1 8B Q8 (8.5 GB) | ✗ No cabe | ✓ Cómodo | ✓ Sobra | ✓ Sobra |
| Llama 3.1 13B Q4 (8.5 GB) | ✗ No cabe | ✓ Cómodo | ✓ Sobra | ✓ Sobra |
| Qwen2.5 34B Q4 (20 GB) | ✗ No cabe | ⚠️ Justo | ✓ Cómodo | ✓ Sobra |
| Qwen2.5 34B Q5 (24 GB) | ✗ No cabe | ✗ No cabe | ✓ Cómodo | ✓ Sobra |
| Llama 3.1 70B Q3 (36 GB) | ✗ No cabe | ✗ No cabe | ⚠️ Justo | ✓ Cómodo |
| Llama 3.1 70B Q4 (42 GB) | ✗ No cabe | ✗ No cabe | ⚠️ Muy justo | ✓ Cómodo |
| Llama 3.1 70B Q5 (49 GB) | ✗ No cabe | ✗ No cabe | ✗ No cabe | ✓ Cómodo |
| Llama 3.1 70B Q8 (74 GB) | ✗ No cabe | ✗ No cabe | ✗ No cabe | ✓ Cabe |
✓ Sobra = 4+ GB libres | ✓ Cómodo = 2-4 GB libres | ⚠️ Justo = menos de 2 GB libres | ✗ No cabe = usa swap o falla
Qué cabe en cada nivel de memoria (práctica)
- 116 GB (M5 base, MacBook Air)
Why it matters: Llama 3.1 8B Q4 cabe (5GB modelo + 8GB OS = 13GB) ✓ pero justo. Llama 8B Q8 no cabe sin swap. Whisper small cabe junto. - 236 GB (M5 Pro base)
Why it matters: Llama 3.1 8B Q8 cabe con comodidad. Llama 13B Q4 cabe. Qwen2.5 34B Q4 cabe justo (20GB + 8GB OS = 28GB). Multimodelo: Whisper + LLaVA + TTS caben ✓ - 364 GB (M5 Pro max)
Why it matters: Qwen2.5 34B Q5 cabe con comodidad (24GB). Llama 70B Q3 cabe justo. Los stacks multimodelo tienen mucho espacio. - 4128 GB (M5 Max)
Why it matters: Llama 3.1 70B Q5 cabe con comodidad (49GB). 70B Q8 cabe (74GB). Multimodal: Whisper + modelo de visión 90B + LLM 8B caben simultáneamente ✓
Requisitos de memoria para stacks multimodelo
| Caso de uso (stack) | Memoria necesaria |
|---|---|
| Solo LLM (Llama 8B Q4) | 5 GB + OS = 13 GB |
| LLM + STT (Llama 8B + Whisper large-v3) | 8 GB + OS = 16 GB |
| LLM + STT + TTS (asistente de voz) | 9 GB + OS = 17 GB |
| LLM + Vision (Llama 8B + LLaVA 7B) | 11 GB + OS = 19 GB |
| Multimodal completo (LLM + Vision + STT + TTS) | 14 GB + OS = 22 GB |
| LLM + RAG (Llama 8B + embeddings + ChromaDB) | 8 GB + OS = 16 GB |
| Multimodal pesado (Llama 70B Q4 + Vision 90B) | 100+ GB |
Los stacks superiores a 22 GB necesitan un Mac mínimo de 36GB. Los superiores a 50 GB necesitan mínimo 64GB. El stack multimodal pesado solo funciona en M5 Max 128GB.
La ventana de contexto añade overhead de memoria
El caché KV escala con la longitud del contexto — cuanto mayor sea la ventana de contexto, más memoria usa el modelo en tiempo de ejecución. Esta es una trampa común que puede hacer que una configuración ajustada caiga en swap.
- Llama 3.1 8B con contexto 8K: +0.5 GB
- Llama 3.1 8B con contexto 32K: +2 GB
- Llama 3.1 8B con contexto 128K: +8 GB
- Llama 3.1 70B con contexto 32K: +6 GB
- Llama 3.1 70B con contexto 128K: +24 GB
Compra la máxima memoria — aquí está el porqué
- No puedes actualizar la memoria de Apple Silicon después de la compra.
- Los tamaños de los modelos crecen: 8B hoy → sweet spot de 13–34B en 2027.
- 16GB ya es marginal para LLMs — mínimo recomendado 36GB.
- Diferencia de precio: 36GB→64GB cuesta ~$200 en el momento de la compra, y evita tener que comprar un Mac nuevo en 2 años cuando los modelos superen los 36GB.
- Ejemplo: M5 Pro 36GB hoy cuesta $999; 64GB cuesta $1,199. Comprar un Mac nuevo en 2 años: $1,500+ por la misma configuración M5 Pro 64GB.
Impacto de la cuantización en la calidad
Q4_K_M (4 bits): ~1–2% de pérdida de calidad vs FP16. Imperceptible para la mayoría de usos. La mejor opción por defecto.
Q5_K_M (5 bits): ~0.5–1% de pérdida de calidad. Insignificante. Recomendado si tienes memoria de sobra.
Q8 (8 bits): ~0.1% de pérdida de calidad. Esencialmente sin pérdida.
Q3_K (3 bits): 3–5% de pérdida de calidad. Perceptible en razonamiento complejo. Aceptable solo en escenarios con espacio muy limitado.
¿Debería elegir 36GB o 64GB?
Elige 64GB si el presupuesto lo permite ($200 más). 36GB funciona hoy, pero en 12 meses se quedará justo a medida que los modelos crezcan. 64GB está preparado para el futuro hasta 2027–2028.
¿Puedo actualizar la memoria después?
No. La memoria de Apple Silicon está soldada y no se puede actualizar. Compra el máximo en el momento de la compra.
¿Por qué 16GB no es suficiente?
16GB para LLM + 4–8GB para macOS = 8–12GB disponibles. Llama 8B Q4 necesita 5GB, sin dejar espacio para Whisper u otras tareas. Es demasiado ajustado.
¿Realmente necesito 128GB?
Solo si ejecutas regularmente modelos 70B o necesitas Vision + LLM + STT simultáneamente. De lo contrario, 64GB es más que suficiente.
¿Es suficiente 48GB para LLMs locales?
Sí — 48GB (disponible en M4 Pro y algunas configuraciones M5 Pro) es un buen punto intermedio. Ejecuta todos los modelos 34B, 70B Q3 al límite, y stacks multimodales completos. Mejor que 36GB; si puedes permitirte 64GB, la preparación para el futuro vale la pena.
¿Cuánta memoria necesito para ejecutar Llama 3.1 70B localmente?
Mínimo 48GB (cuantización Q3, pérdida de calidad notable). Recomendado 64GB (cuantización Q4, espacio justo). Cómodo 128GB (cuantización Q5/Q8, alta calidad). El nivel de 64GB requiere gestión cuidadosa de la memoria; 128GB es la única opción sin preocupaciones para 70B.
¿Necesito 128GB para IA local en 2026?
Solo si ejecutas regularmente modelos 70B o necesitas stacks de Vision + LLM + STT simultáneamente. Para uso cotidiano de LLM (modelos 8B–34B, RAG, asistencia de código), el M5 Pro 64GB es el sweet spot. 128GB implica un salto de precio de 2–3× con beneficio marginal a menos que necesites específicamente 70B.