Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Ollama en Mac 2026: Guía completa de configuración Apple Silicon (M1–M5, GPU Metal)
Hardware & Performance

Ollama en Mac 2026: Guía completa de configuración Apple Silicon (M1–M5, GPU Metal)

·10 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Instala Ollama: `brew install ollama`. GPU Metal automático. Descarga modelos: `ollama pull llama2`. Ejecuta: `ollama run llama2`. API REST disponible en `localhost:11434`.

Guía completa de instalación de Ollama para Mac con Apple Silicon 2026. Instalación con un solo comando, verificación de GPU Metal, gestión de modelos (pull, run, list), optimización de memoria para configuraciones con múltiples modelos y configuración de la API REST para desarrolladores.

Configuración rápida (3 comandos)

  1. 1
    Instalar Ollama
    Why it matters: `brew install ollama` — instalación con un clic.
  2. 2
    Descargar un modelo
    Why it matters: `ollama pull llama2` — descarga Llama 2 7B.
  3. 3
    Comenzar a chatear
    Why it matters: `ollama run llama2` — interfaz de chat interactiva.

Verificación de GPU Metal

La aceleración GPU Metal es automática en Ollama en macOS. No se necesita configuración. Para verificar que Metal funciona:

  1. 1
    Ejecutar con salida detallada
    Why it matters: `ollama run llama3.1:8b --verbose` y busca `ggml_metal_init: found device: Apple M[X]` en la salida de la consola.
  2. 2
    Comprobar la velocidad durante la inferencia
    Why it matters: Observa la tasa de generación de tokens: debería ser 20–60 tok/s según el Mac (M5 Pro: ~50 tok/s en Llama 3.1 8B). Fallback solo CPU: ~1–5 tok/s.
  3. 3
    Monitorear el uso de GPU
    Why it matters: Abre el Monitor de Actividad (Aplicaciones → Utilidades) y revisa la sección GPU. Debería mostrar 80–100% de uso de GPU durante la inferencia si Metal funciona.

Gestión de modelos

  1. 1
    `ollama pull <modelo>`
    Why it matters: Descargar modelo. Ejemplo: `ollama pull mistral`.
  2. 2
    `ollama list`
    Why it matters: Listar todos los modelos descargados.
  3. 3
    `ollama run <modelo>`
    Why it matters: Iniciar chat interactivo con el modelo.
  4. 4
    `ollama rm <modelo>`
    Why it matters: Eliminar modelo para liberar espacio.

Optimización de memoria para Apple Silicon

  • OLLAMA_MAX_LOADED_MODELS: Número de modelos a mantener en memoria. Por defecto: 1. Establece 2–3 para configuraciones con múltiples modelos.
  • Capas GPU: Por defecto, Ollama usa toda la memoria unificada disponible. Si la memoria es insuficiente, establece `num_gpu_layers` en el Modelfile.
  • Whisper: Combina con modelo de embeddings y LLM — cabe en 64 GB M5 Pro con Ollama.

Ejecutar varios modelos simultáneamente

¿Necesitas ejecutar Whisper STT + Llama 3.1 8B + LLaVA Vision al mismo tiempo? Configura Ollama para mantener todos los modelos cargados en memoria.

bash
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama

# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b

# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'

Inicio automático al iniciar sesión

Ollama puede iniciarse automáticamente al iniciar sesión en tu Mac mediante brew services.

bash
# Enable auto-start
brew services start ollama

# Check status
brew services list | grep ollama

# Disable auto-start (optional)
brew services stop ollama

Configuración de API para desarrolladores

Ollama expone una API REST compatible con OpenAI en `localhost:11434`. Inicia el servidor con `ollama serve` o usa brew services. Luego envía solicitudes desde cualquier lenguaje de programación.

bash
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "Write a Python function"}],
  "stream": false
}'

# Python example
import requests
response = requests.post(
  "http://localhost:11434/api/chat",
  json={
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": False
  }
)
print(response.json()["message"]["content"])

Personalización del Modelfile

Crea modelos personalizados con prompts de sistema y parámetros.

  • `ollama create llm-expert -f Modelfile` — construye el modelo personalizado
  • `ollama run llm-expert` — inicia el chat interactivo con tu modelo personalizado
  • `ollama run llm-expert "Code review this function"` — envía un prompt directamente
dockerfile
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9

Problemas comunes y soluciones

  • Metal no detectado: Verifica con `ollama run llama3.1:8b --verbose` y busca `ggml_metal_init: found device: Apple M[X]`. Si no aparece, reinicia: `brew services restart ollama` o `pkill ollama && ollama serve &`.
  • Inferencia lenta (fallback a CPU): Causa: Metal no pudo inicializarse, el modelo se ejecuta en CPU. Revisa el Monitor de Actividad — el uso de GPU debería ser 80–100% durante la inferencia. Si GPU muestra 0%: reinicia Ollama.
  • Sin memoria (OOM): El modelo falla o la respuesta se corta. Causa: modelo + contexto + overhead de macOS supera la RAM. Soluciones: (1) Usa cuantización más pequeña (`ollama pull llama3.1:8b-q4_K_M`), (2) Reduce el contexto (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Usa un modelo más pequeño (`ollama pull phi4` — 2.5 GB).
  • Descarga del modelo bloqueada: Causa: limitación de red o límites de tasa de HuggingFace. Solución: `pkill ollama && ollama pull llama3.1:8b` (retoma desde el progreso anterior).
  • Puerto 11434 ya en uso: Otra instancia de Ollama está en ejecución o un servicio diferente usa el puerto. Busca: `lsof -i :11434`. Solución: `pkill ollama` y luego reinicia.
  • El modelo produce texto sin sentido / caracteres aleatorios: Causa: parámetros del Modelfile fuera de rango o plantilla incorrecta. Solución: descarga el modelo oficial `ollama pull llama3.1:8b` (sobrescribe el personalizado), luego prueba: `ollama run llama3.1:8b "Hello, how are you?"`.
  • El almacenamiento se llena: Los modelos se guardan en `~/.ollama/models/`. Verifica el tamaño: `du -sh ~/.ollama/`. Elimina los no usados: `ollama rm <nombre-del-modelo>`.

¿Ollama es gratuito?

Sí. Ollama es de código abierto. Los modelos (Llama, Mistral) tienen licencia gratuita. Sin cargos.

¿Puedo usar Ollama sin GPU?

Sí, pero lento. Solo CPU: ~1–5 tok/s en modelos 7B. GPU (Metal en Mac): 20–60 tok/s según el Mac.

¿Con qué modelo debería empezar?

Mistral 7B o Llama 2 7B. Ambos funcionan en cualquier Mac M1+, producen buena salida. Aproximadamente 4 GB cada uno.

¿Varias personas pueden usar la API de Ollama simultáneamente?

Sí. `ollama serve` en una máquina, todos en la red local pueden acceder a la API REST en la IP de esa máquina:11434.

¿Dónde almacena Ollama los modelos descargados en Mac?

Ubicación predeterminada: `~/.ollama/models/`. Cada modelo ocupa varios GB. Verifica el uso total de disco: `du -sh ~/.ollama/`. Para cambiar la ubicación, establece la variable de entorno `OLLAMA_MODELS=/ruta/a/modelos` antes de iniciar Ollama.

¿Puedo ejecutar Ollama en Macs con Intel?

Sí, pero sin aceleración GPU Metal. El rendimiento será solo CPU: 1–5 tok/s en modelos 7B frente a 20–60 tok/s en Apple Silicon. Útil para pruebas pero no para uso en producción.

¿Ollama funciona sin conexión después de la instalación?

Sí. Una vez que los modelos están descargados, Ollama funciona completamente sin conexión. No se requiere conexión a internet para la inferencia. Solo la descarga de modelos (`ollama pull`) requiere acceso a internet.

Ollama está funcionando. Ahora elige los mejores modelos de código abierto para cargarlo.

Mejores modelos de código abierto para Ollama →

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

¿Tienes Ollama funcionando en tu Mac? Compara tu salida local de Llama 3.1 o Mistral con GPT-4, Claude, Gemini y 22 modelos más con PromptQuorum — valida que tu configuración local alcanza la calidad de la nube para tus casos de uso específicos, todo en un solo envío.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Ollama en Mac 2026: Configura M1–M5 en 2 minutos