Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/Ollama no Mac 2026: Guia completo de configuração Apple Silicon (M1–M5, GPU Metal)
Hardware & Performance

Ollama no Mac 2026: Guia completo de configuração Apple Silicon (M1–M5, GPU Metal)

·10 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Instale o Ollama: `brew install ollama`. GPU Metal automática. Baixe modelos: `ollama pull llama2`. Rode: `ollama run llama2`. API REST disponível em `localhost:11434`.

Guia completo de instalação do Ollama para Mac com Apple Silicon 2026. Instalação com um único comando, verificação da GPU Metal, gerenciamento de modelos (pull, run, list), otimização de memória para configurações com vários modelos e configuração da API REST para desenvolvedores.

Configuração rápida (3 comandos)

  1. 1
    Instalar o Ollama
    Why it matters: `brew install ollama` — instalação com um clique.
  2. 2
    Baixar um modelo
    Why it matters: `ollama pull llama2` — baixa o Llama 3.3 7B.
  3. 3
    Começar a conversar
    Why it matters: `ollama run llama2` — interface de chat interativa.

Verificação da GPU Metal

A aceleração da GPU Metal é automática no Ollama no macOS. Nenhuma configuração necessária. Para verificar se o Metal funciona:

  1. 1
    Rodar com saída detalhada
    Why it matters: `ollama run llama3.1:8b --verbose` e procure por `ggml_metal_init: found device: Apple M[X]` na saída do console.
  2. 2
    Conferir a velocidade durante a inferência
    Why it matters: Observe a taxa de geração de tokens: deve ser 20–60 tok/s conforme o Mac (M5 Pro: ~50 tok/s no Llama 3.3 8B). Fallback apenas CPU: ~1–5 tok/s.
  3. 3
    Monitorar o uso da GPU
    Why it matters: Abra o Monitor de Atividade (Aplicativos → Utilitários) e veja a seção GPU. Deve mostrar 80–100% de uso da GPU durante a inferência se o Metal funcionar.

Gerenciamento de modelos

  1. 1
    `ollama pull <modelo>`
    Why it matters: Baixar modelo. Exemplo: `ollama pull mistral`.
  2. 2
    `ollama list`
    Why it matters: Listar todos os modelos baixados.
  3. 3
    `ollama run <modelo>`
    Why it matters: Iniciar chat interativo com o modelo.
  4. 4
    `ollama rm <modelo>`
    Why it matters: Remover modelo para liberar espaço.

Otimização de memória para Apple Silicon

  • OLLAMA_MAX_LOADED_MODELS: Número de modelos a manter na memória. Padrão: 1. Defina 2–3 para configurações com vários modelos.
  • Camadas de GPU: Por padrão, o Ollama usa toda a memória unificada disponível. Se a memória for insuficiente, defina `num_gpu_layers` no Modelfile.
  • Whisper: Combine com modelo de embeddings e LLM — cabe em um M5 Pro de 64 GB com o Ollama.

Rodar vários modelos simultaneamente

Precisa rodar Whisper STT + Llama 3.3 8B + LLaVA Vision ao mesmo tempo? Configure o Ollama para manter todos os modelos carregados na memória.

bash
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama

# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b

# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'

Início automático no login

O Ollama pode iniciar automaticamente quando você faz login no seu Mac via brew services.

bash
# Enable auto-start
brew services start ollama

# Check status
brew services list | grep ollama

# Disable auto-start (optional)
brew services stop ollama

Configuração de API para desenvolvedores

O Ollama expõe uma API REST compatível com a OpenAI em `localhost:11434`. Inicie o servidor com `ollama serve` ou use brew services. Depois envie requisições de qualquer linguagem de programação.

bash
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "Write a Python function"}],
  "stream": false
}'

# Python example
import requests
response = requests.post(
  "http://localhost:11434/api/chat",
  json={
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": False
  }
)
print(response.json()["message"]["content"])

Personalização do Modelfile

Crie modelos personalizados com prompts de sistema e parâmetros.

  • `ollama create llm-expert -f Modelfile` — constrói o modelo personalizado
  • `ollama run llm-expert` — inicia o chat interativo com seu modelo personalizado
  • `ollama run llm-expert "Code review this function"` — envia um prompt diretamente
dockerfile
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9

Problemas comuns e soluções

  • Metal não detectado: Verifique com `ollama run llama3.1:8b --verbose` e procure por `ggml_metal_init: found device: Apple M[X]`. Se não aparecer, reinicie: `brew services restart ollama` ou `pkill ollama && ollama serve &`.
  • Inferência lenta (fallback para CPU): Causa: o Metal não conseguiu inicializar, o modelo roda na CPU. Veja o Monitor de Atividade — o uso da GPU deve ser 80–100% durante a inferência. Se a GPU mostrar 0%: reinicie o Ollama.
  • Sem memória (OOM): O modelo falha ou a resposta é cortada. Causa: modelo + contexto + overhead do macOS ultrapassa a RAM. Soluções: (1) Use quantização menor (`ollama pull llama3.1:8b-q4_K_M`), (2) Reduza o contexto (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Use um modelo menor (`ollama pull phi4` — 2.5 GB).
  • Download do modelo travado: Causa: limitação de rede ou limites de taxa do HuggingFace. Solução: `pkill ollama && ollama pull llama3.1:8b` (retoma do progresso anterior).
  • Porta 11434 já em uso: Outra instância do Ollama está rodando ou um serviço diferente usa a porta. Verifique: `lsof -i :11434`. Solução: `pkill ollama` e depois reinicie.
  • O modelo produz texto sem sentido / caracteres aleatórios: Causa: parâmetros do Modelfile fora da faixa ou template incorreto. Solução: baixe o modelo oficial `ollama pull llama3.1:8b` (sobrescreve o personalizado), depois teste: `ollama run llama3.1:8b "Hello, how are you?"`.
  • O armazenamento enche: Os modelos são salvos em `~/.ollama/models/`. Verifique o tamanho: `du -sh ~/.ollama/`. Remova os não usados: `ollama rm <nome-do-modelo>`.

O Ollama é gratuito?

Sim. O Ollama é de código aberto. Os modelos (Llama, Mistral) têm licença gratuita. Sem cobranças.

Posso usar o Ollama sem GPU?

Sim, mas lento. Apenas CPU: ~1–5 tok/s em modelos 7B. GPU (Metal no Mac): 20–60 tok/s conforme o Mac.

Com qual modelo devo começar?

Mistral Small ou Llama 3.3 7B. Ambos funcionam em qualquer Mac M1+, produzem boa saída. Cerca de 4 GB cada.

Várias pessoas podem usar a API do Ollama ao mesmo tempo?

Sim. `ollama serve` em uma máquina, todos na rede local podem acessar a API REST no IP dessa máquina:11434.

Onde o Ollama armazena os modelos baixados no Mac?

Local padrão: `~/.ollama/models/`. Cada modelo ocupa vários GB. Verifique o uso total de disco: `du -sh ~/.ollama/`. Para mudar o local, defina a variável de ambiente `OLLAMA_MODELS=/caminho/para/modelos` antes de iniciar o Ollama.

Posso rodar o Ollama em Macs com Intel?

Sim, mas sem aceleração da GPU Metal. O desempenho será apenas CPU: 1–5 tok/s em modelos 7B ante 20–60 tok/s em Apple Silicon. Útil para testes, mas não para uso em produção.

O Ollama funciona offline após a instalação?

Sim. Uma vez que os modelos estão baixados, o Ollama funciona totalmente offline. Nenhuma conexão à internet é necessária para a inferência. Apenas o download de modelos (`ollama pull`) exige acesso à internet.

O Ollama está funcionando. Agora escolha os melhores modelos de código aberto para carregar.

Melhores modelos de código aberto para o Ollama →

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Já está com o Ollama rodando no seu Mac? Compare sua saída local do Llama 3.3 ou Mistral com GPT-4, Claude, Gemini e mais 22 modelos com o PromptQuorum — valide se sua configuração local atinge a qualidade da nuvem para seus casos de uso específicos, tudo em um único envio.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Ollama no Mac 2026: Configure M1–M5 em 2 minutos