Mejores recomendaciones de modelos por memoria del Mac
Última verificación: 2026-05-15. Las recomendaciones pueden cambiar con nuevos lanzamientos. Actualizamos esta página trimestralmente.
| Memoria | Elección principal | Cuantización | Tamaño | M5 Pro tok/s | M5 Max tok/s | Alternativa |
|---|---|---|---|---|---|---|
| 16 GB | Phi-4 | Q4_K_M | 2,5 GB | 60–70 | 110–130 | Llama 3.1 8B Q4 (justo) |
| 36 GB | Llama 3.1 8B | Q8 | 8,5 GB | 38–45 | 75–85 | Qwen2.5 14B Q4 (8,5 GB) |
| 48 GB | Qwen2.5 14B | Q8 | 16 GB | 25–30 | 50–60 | Mixtral 8x7B Q4 (26 GB) |
| 64 GB | Qwen2.5 34B | Q5 | 24 GB | 18–22 | 35–42 | Mixtral 8x7B Q5 (32 GB) |
| 96 GB | Llama 3.1 70B | Q4 | 42 GB | 10–13 | 20–25 | Qwen2.5 72B Q4 (44 GB) |
| 128 GB | Llama 3.1 70B | Q5 | 49 GB | 8–11 | 14–18 | Qwen2.5 72B Q5 (51 GB) |
| 128 GB | Llama 3.1 70B | Q8 | 74 GB | N/A | 9–12 | Mejor calidad, solo M5 Max |
Los tamaños son en formato GGUF. Los equivalentes MLX 4-bit son comparables. Los precios pueden variar según tu país.
Benchmarks de calidad de modelos (pruebas estándar 2026)
| Modelo | MMLU | HumanEval | GSM8K | Promedio | Notas |
|---|---|---|---|---|---|
| Phi-4 (3,8B) | 84,8 | 82,6 | 91,0 | 86,1 | Mejor modelo pequeño |
| Llama 3.1 8B | 73,0 | 72,6 | 84,5 | 76,7 | Bueno para todo |
| Qwen2.5 14B | 79,7 | 83,5 | 90,2 | 84,5 | Razonamiento sólido |
| Mistral 7B | 60,1 | 30,5 | 50,0 | 46,9 | Antiguo pero rápido |
| Qwen2.5 34B | 83,3 | 88,4 | 93,0 | 88,2 | Mejor tamaño medio |
| Mixtral 8x7B | 70,6 | 40,2 | 60,4 | 57,1 | Arquitectura MoE |
| Llama 3.1 70B | 86,0 | 80,5 | 95,1 | 87,2 | Mejor general |
| Qwen2.5 72B | 86,1 | 86,6 | 95,8 | 89,5 | Razonamiento top |
| Llama 3.1 405B | 88,6 | 89,0 | 96,8 | 91,5 | No cabe localmente |
| GPT-4o (referencia) | 88,7 | 90,2 | 95,8 | 91,6 | Referencia en la nube |
Qwen2.5 72B en un Mac de 128 GB se acerca a la calidad de GPT-4o con costo continuo cero. Este es el avance más importante en IA local en 2026.
Mejores modelos por caso de uso (2026)
| Caso de uso | Mejor para Mac 36 GB | Mejor para Mac 64 GB | Mejor para Mac 128 GB |
|---|---|---|---|
| Programación (general) | Llama 3.1 8B | DeepSeek Coder V2 16B | Llama 3.1 70B |
| Programación (Python) | DeepSeek Coder V2 Lite | DeepSeek Coder V2 16B | DeepSeek Coder V2 236B |
| Escritura larga | Llama 3.1 8B Q8 | Qwen2.5 34B Q5 | Llama 3.1 70B Q5 |
| Chat / conversación | Mistral 7B | Mixtral 8x7B | Llama 3.1 70B |
| Razonamiento / matemáticas | Qwen2.5 14B | Qwen2.5 34B | Qwen2.5 72B |
| RAG / preguntas y respuestas | Llama 3.1 8B + nomic-embed | Llama 3.1 8B + bge-large | Llama 3.1 70B + bge-large |
| Visión / multimodal | LLaVA 7B | Llama 3.2 Vision 11B | Llama 3.2 Vision 90B |
| Traducción | Qwen2.5 14B | Qwen2.5 34B | Aya Expanse 32B |
| Resumen | Llama 3.1 8B | Qwen2.5 34B | Llama 3.1 70B |
| Revisión de código | DeepSeek Coder V2 Lite | DeepSeek Coder V2 16B | Llama 3.1 70B |
Los modelos especializados suelen superar a los generales en tareas concretas. DeepSeek Coder supera a Llama 3.1 en código incluso cuando Llama es el modelo más grande.
Configuraciones reales por tipo de usuario
💡Tip: Desarrollador independiente (Mac Mini M5 Pro 64 GB, $1,200) - Programación: DeepSeek Coder V2 Lite (16B Q4, 10 GB) - Escritura: Llama 3.1 8B Q8 (8,5 GB) para documentación y correos - Siempre activo: ambos modelos en caliente con `OLLAMA_MAX_LOADED_MODELS=2` - Costo diario: $0 (vs $30–100/mes por Copilot + ChatGPT) - Los precios pueden variar según tu país.
💡Tip: Profesional con enfoque en privacidad (MacBook Pro M5 Pro 48 GB, $2,500) - Principal: Llama 3.1 8B Q8 para trabajo general - Sensible: Qwen2.5 14B Q5 para documentos legales/médicos/financieros - Viajes: funciona sin conexión en aviones y entornos seguros - Ningún dato sale del ordenador - Los precios pueden variar según tu país.
💡Tip: Investigador / Ingeniero ML (Mac Studio M5 Max 128 GB, $4,000) - Principal: Llama 3.1 70B Q5 (49 GB) para calidad - Especializado: Qwen2.5 72B Q4 para investigación en otros idiomas - Programación: DeepSeek Coder V2 16B - Visión: Llama 3.2 Vision 11B para figuras de artículos - Los cuatro modelos cargados simultáneamente - Los precios pueden variar según tu país.
💡Tip: Servidor de IA familiar (Mac Mini M5 Pro 64 GB, siempre encendido) - Asistente de voz: Llama 3.1 8B + Whisper + Piper - RAG: preguntas y respuestas sobre documentos familiares con embeddings - Ayuda de programación para miembros de la familia vía REST API - Costo eléctrico: ~$35/año - Reemplaza: ChatGPT Plus para 4 personas = $1,000/año - Los precios pueden variar según tu país.
Modelos que debes evitar en 2026 (y por qué)
⚠️Warning: Evita Llama 2 (de cualquier tamaño) — Lanzado en 2023, reemplazado por Llama 3 y 3.1. Un 30–50% peor en calidad con el mismo número de parámetros. Sigue apareciendo en tutoriales antiguos — no los sigas. Reemplaza con: Llama 3.1 8B.
⚠️Warning: Evita Vicuna, Alpaca, WizardLM — Fine-tunes comunitarios de 2023. Los modelos base modernos (Llama 3.1, Qwen2.5) igualan o superan su rendimiento. Reemplaza con: Qwen2.5 14B o Llama 3.1 8B.
⚠️Warning: Evita Falcon 180B — No cabe en Apple Silicon de consumo. Llama 3.1 70B (más pequeño) lo supera. Reemplaza con: Llama 3.1 70B Q5.
⚠️Warning: Evita la cuantización FP16 en hardware de consumo — Llama 3.1 70B FP16 = 140 GB, no cabe en ningún Mac. La ganancia de calidad frente a Q5 es menor al 1%. Reemplaza con: Q4_K_M o Q5_K_M.
⚠️Warning: Evita los modelos base puros (sin variante instruct) — Los modelos base completan texto pero no siguen instrucciones. Busca el sufijo "-instruct" o "-chat". Reemplaza con: la variante instruct del mismo modelo.
⚠️Warning: Evita modelos sin desarrollo activo — StableLM, RedPajama, MPT, Pythia: abandonados o desactualizados. Usa modelos de Meta, Alibaba, Mistral, Microsoft con actualizaciones regulares.
Referencia rápida de formatos de modelo
| Formato | Usado por | Tamaño vs original |
|---|---|---|
| GGUF Q4_K_M | Ollama, llama.cpp | ~30% de FP16 |
| GGUF Q5_K_M | Ollama, llama.cpp | ~35% de FP16 |
| GGUF Q8_0 | Ollama, llama.cpp | ~50% de FP16 |
| MLX 4-bit | Framework MLX | ~30% de FP16 |
| MLX 8-bit | Framework MLX | ~50% de FP16 |
| FP16 (original) | Todos los frameworks | 100% |
Los tamaños en este artículo son GGUF Q4_K_M salvo que se indique lo contrario. Los equivalentes MLX 4-bit son de tamaño similar. Para bytes exactos, consulta la ficha del modelo en HuggingFace.
Referencia rápida: descargar estos modelos
# Mac 16 GB
ollama pull phi4
# Mac 36 GB (elige uno)
ollama pull llama3.1:8b
ollama pull qwen2.5:14b
ollama pull mistral:7b
# Mac 64 GB
ollama pull qwen2.5:34b
ollama pull mixtral:8x7b
# Mac 128 GB
ollama pull llama3.1:70b
ollama pull qwen2.5:72b
# Modelos especializados
ollama pull deepseek-coder-v2:16b # programación
ollama pull llama3.2-vision:11b # visión
ollama pull aya-expanse:32b # traducción¿Puedo ejecutar dos modelos diferentes a la vez?
Sí, establece `OLLAMA_MAX_LOADED_MODELS=2` en las variables de entorno. Con 64 GB puedes ejecutar 8B + 34B simultáneamente.
¿Qué modelo es mejor para principiantes?
Llama 3.1 8B. Ampliamente disponible, buena calidad de salida y trayectoria probada. Funciona en cualquier Mac M1+.
¿Mixtral 8x7B es más rápido que Llama 8B?
No, es ligeramente más lento (40–50 tok/s vs 50–60 tok/s en M5 Pro). Pero el razonamiento es superior.
¿Cuál es el mejor LLM local en 2026?
Para la mayoría de usuarios en Apple Silicon: Qwen2.5 (cualquier tamaño que quepa en tu Mac) lidera actualmente los benchmarks de calidad. Llama 3.1 70B es comparable en Macs de 128 GB. Por debajo de 16 GB: Phi-4 supera su categoría con 3,8B parámetros, igualando modelos 8B de 2024.
¿Puedo ejecutar Llama 3.1 405B en un Mac?
No. Llama 3.1 405B requiere más de 200 GB incluso con cuantización Q4 — ningún Mac de consumo tiene suficiente memoria unificada. Espera al M5 Ultra (previsto para mediados de 2026, 256 GB) — será el primer hardware de consumo capaz de ejecutar 405B en Q3–Q4.
¿Es Qwen mejor que Llama para uso local?
En la mayoría de tareas, Qwen2.5 supera ligeramente a Llama 3.1 con el mismo número de parámetros en benchmarks (1–3 puntos en MMLU). Llama tiene una comunidad más amplia y más fine-tunes disponibles. La mayoría de usuarios no notarán la diferencia — elige según disponibilidad y ecosistema de fine-tunes.
¿Cuál es el modelo más pequeño que realmente es útil?
Phi-4 con 3,8B parámetros. Obtiene 84,8 en MMLU — igualando algunos modelos 8B de 2024. Para chat y preguntas y respuestas es sorprendentemente capaz. Para programación o razonamiento complejo, pasa a Llama 3.1 8B o Qwen2.5 14B.