Configuração rápida (3 comandos)
- 1Instalar o Ollama
Why it matters: `brew install ollama` — instalação com um clique. - 2Baixar um modelo
Why it matters: `ollama pull llama2` — baixa o Llama 3.3 7B. - 3Começar a conversar
Why it matters: `ollama run llama2` — interface de chat interativa.
Verificação da GPU Metal
A aceleração da GPU Metal é automática no Ollama no macOS. Nenhuma configuração necessária. Para verificar se o Metal funciona:
- 1Rodar com saída detalhada
Why it matters: `ollama run llama3.1:8b --verbose` e procure por `ggml_metal_init: found device: Apple M[X]` na saída do console. - 2Conferir a velocidade durante a inferência
Why it matters: Observe a taxa de geração de tokens: deve ser 20–60 tok/s conforme o Mac (M5 Pro: ~50 tok/s no Llama 3.3 8B). Fallback apenas CPU: ~1–5 tok/s. - 3Monitorar o uso da GPU
Why it matters: Abra o Monitor de Atividade (Aplicativos → Utilitários) e veja a seção GPU. Deve mostrar 80–100% de uso da GPU durante a inferência se o Metal funcionar.
Gerenciamento de modelos
- 1`ollama pull <modelo>`
Why it matters: Baixar modelo. Exemplo: `ollama pull mistral`. - 2`ollama list`
Why it matters: Listar todos os modelos baixados. - 3`ollama run <modelo>`
Why it matters: Iniciar chat interativo com o modelo. - 4`ollama rm <modelo>`
Why it matters: Remover modelo para liberar espaço.
Otimização de memória para Apple Silicon
- OLLAMA_MAX_LOADED_MODELS: Número de modelos a manter na memória. Padrão: 1. Defina 2–3 para configurações com vários modelos.
- Camadas de GPU: Por padrão, o Ollama usa toda a memória unificada disponível. Se a memória for insuficiente, defina `num_gpu_layers` no Modelfile.
- Whisper: Combine com modelo de embeddings e LLM — cabe em um M5 Pro de 64 GB com o Ollama.
Rodar vários modelos simultaneamente
Precisa rodar Whisper STT + Llama 3.3 8B + LLaVA Vision ao mesmo tempo? Configure o Ollama para manter todos os modelos carregados na memória.
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama
# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b
# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'Início automático no login
O Ollama pode iniciar automaticamente quando você faz login no seu Mac via brew services.
# Enable auto-start
brew services start ollama
# Check status
brew services list | grep ollama
# Disable auto-start (optional)
brew services stop ollamaConfiguração de API para desenvolvedores
O Ollama expõe uma API REST compatível com a OpenAI em `localhost:11434`. Inicie o servidor com `ollama serve` ou use brew services. Depois envie requisições de qualquer linguagem de programação.
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Write a Python function"}],
"stream": false
}'
# Python example
import requests
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Hello"}],
"stream": False
}
)
print(response.json()["message"]["content"])Personalização do Modelfile
Crie modelos personalizados com prompts de sistema e parâmetros.
- `ollama create llm-expert -f Modelfile` — constrói o modelo personalizado
- `ollama run llm-expert` — inicia o chat interativo com seu modelo personalizado
- `ollama run llm-expert "Code review this function"` — envia um prompt diretamente
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9Problemas comuns e soluções
- Metal não detectado: Verifique com `ollama run llama3.1:8b --verbose` e procure por `ggml_metal_init: found device: Apple M[X]`. Se não aparecer, reinicie: `brew services restart ollama` ou `pkill ollama && ollama serve &`.
- Inferência lenta (fallback para CPU): Causa: o Metal não conseguiu inicializar, o modelo roda na CPU. Veja o Monitor de Atividade — o uso da GPU deve ser 80–100% durante a inferência. Se a GPU mostrar 0%: reinicie o Ollama.
- Sem memória (OOM): O modelo falha ou a resposta é cortada. Causa: modelo + contexto + overhead do macOS ultrapassa a RAM. Soluções: (1) Use quantização menor (`ollama pull llama3.1:8b-q4_K_M`), (2) Reduza o contexto (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Use um modelo menor (`ollama pull phi4` — 2.5 GB).
- Download do modelo travado: Causa: limitação de rede ou limites de taxa do HuggingFace. Solução: `pkill ollama && ollama pull llama3.1:8b` (retoma do progresso anterior).
- Porta 11434 já em uso: Outra instância do Ollama está rodando ou um serviço diferente usa a porta. Verifique: `lsof -i :11434`. Solução: `pkill ollama` e depois reinicie.
- O modelo produz texto sem sentido / caracteres aleatórios: Causa: parâmetros do Modelfile fora da faixa ou template incorreto. Solução: baixe o modelo oficial `ollama pull llama3.1:8b` (sobrescreve o personalizado), depois teste: `ollama run llama3.1:8b "Hello, how are you?"`.
- O armazenamento enche: Os modelos são salvos em `~/.ollama/models/`. Verifique o tamanho: `du -sh ~/.ollama/`. Remova os não usados: `ollama rm <nome-do-modelo>`.
O Ollama é gratuito?
Sim. O Ollama é de código aberto. Os modelos (Llama, Mistral) têm licença gratuita. Sem cobranças.
Posso usar o Ollama sem GPU?
Sim, mas lento. Apenas CPU: ~1–5 tok/s em modelos 7B. GPU (Metal no Mac): 20–60 tok/s conforme o Mac.
Com qual modelo devo começar?
Mistral Small ou Llama 3.3 7B. Ambos funcionam em qualquer Mac M1+, produzem boa saída. Cerca de 4 GB cada.
Várias pessoas podem usar a API do Ollama ao mesmo tempo?
Sim. `ollama serve` em uma máquina, todos na rede local podem acessar a API REST no IP dessa máquina:11434.
Onde o Ollama armazena os modelos baixados no Mac?
Local padrão: `~/.ollama/models/`. Cada modelo ocupa vários GB. Verifique o uso total de disco: `du -sh ~/.ollama/`. Para mudar o local, defina a variável de ambiente `OLLAMA_MODELS=/caminho/para/modelos` antes de iniciar o Ollama.
Posso rodar o Ollama em Macs com Intel?
Sim, mas sem aceleração da GPU Metal. O desempenho será apenas CPU: 1–5 tok/s em modelos 7B ante 20–60 tok/s em Apple Silicon. Útil para testes, mas não para uso em produção.
O Ollama funciona offline após a instalação?
Sim. Uma vez que os modelos estão baixados, o Ollama funciona totalmente offline. Nenhuma conexão à internet é necessária para a inferência. Apenas o download de modelos (`ollama pull`) exige acesso à internet.