Key Takeaways
- `ollama pull <model>` — Baixa um modelo (ex: `ollama pull llama3.2:3b`).
- `ollama run <model>` — Inicia um chat com um modelo.
- `ollama list` — Mostra todos os modelos baixados e seus tamanhos.
- `ollama rm <model>` — Remove um modelo baixado.
- `ollama serve` — Inicia o servidor API do Ollama (executa automaticamente no Mac/Windows).
- `ollama create <name> -f <modelfile>` — Cria um modelo personalizado a partir de um Modelfile.
- Em abril de 2026, esses comandos são estáveis e cobrem todos os casos de uso comuns.
Quais são os comandos essenciais do Ollama?
- `ollama list` — Mostra os modelos baixados, uso de disco e data de modificação.
- `ollama pull <model>` — Baixa um modelo por nome (ex: `ollama pull mistral`).
- `ollama run <model>` — Inicia uma sessão de chat com um modelo.
- `ollama rm <model>` — Remove um modelo e libera espaço em disco.
- `ollama serve` — Inicia o servidor API REST (normalmente executa automaticamente).
- `ollama help` — Mostra todos os comandos disponíveis.
Como gerenciar modelos no Ollama?
O gerenciamento de modelos no Ollama é totalmente por comandos:
# Listar todos os modelos baixados
ollama list
# Baixar um modelo da biblioteca Ollama
ollama pull llama3.2:3b # Versão 7-bit (~2,5 GB)
ollama pull llama3.2:3b-fp16 # Precisão total (~6,5 GB)
# Baixar quantização específica
ollama pull qwen2.5:7b-q4 # Quantização 4-bit
ollama pull qwen2.5:7b-q8 # Quantização 8-bit
# Ver uso de disco
du -sh ~/.ollama/models
# Remover um modelo
ollama rm llama3.2:3b
# Baixar de registro personalizado (avançado)
ollama pull localhost:5000/custom-modelComo executar modelos e servir a API?
O Ollama pode ser executado em modo interativo (chat) ou como servidor API:
# Modo de chat interativo
ollama run llama3.2:3b
# Executar com parâmetros
ollama run llama3.2:3b --verbose
# Iniciar servidor API (já executa em segundo plano no Mac/Windows)
ollama serve
# Testar a API REST
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2:3b",
"prompt": "Olá, como vai?",
"stream": false
}'
# Listar modelos via API
curl http://localhost:11434/api/tagsComo criar Modelfiles personalizados?
Um Modelfile é um arquivo de configuração que define um modelo personalizado com instruções de sistema, parâmetros e até mesmo base em outro modelo:
# Criar um Modelfile
cat > Modelfile << 'EOF'
FROM llama3.2:3b
SYSTEM """
Você é um assistente técnico especializado em desenvolvimento de software.
Responda sempre em português do Brasil.
Seja conciso e direto.
"""
PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF
# Criar o modelo personalizado
ollama create meu-assistente -f Modelfile
# Executar o modelo personalizado
ollama run meu-assistenteComo escolher e usar quantizações?
A quantização reduz o tamanho do modelo sacrificando um pouco de qualidade. Q4 usa ~4 bits por parâmetro, Q8 usa ~8 bits. Q4_K_M é geralmente o melhor equilíbrio entre tamanho e qualidade.
- Q4 (4-bit): ~55% do tamanho do modelo, ~2–3% de perda de qualidade. Recomendado para hardware com VRAM/RAM limitada.
- Q8 (8-bit): ~90% do tamanho do modelo, ~0,5% de perda de qualidade. Recomendado quando há VRAM suficiente.
- FP16 (full precision): 100% do tamanho, sem perda. Apenas se você tiver VRAM/RAM abundante.
# Q4 (menor, mais rápido, menor qualidade)
ollama pull llama3.2:3b-q4
# Q8 (maior, mais lento, melhor qualidade)
ollama pull llama3.2:3b-q8
# Padrão (geralmente Q4_K_M — melhor equilíbrio)
ollama pull llama3.2:3b
# Ver qual quantização foi baixada
ollama show llama3.2:3bComo usar modelos de embedding com Ollama?
O Ollama também suporta modelos de embedding para RAG e busca semântica:
# Baixar modelo de embedding
ollama pull nomic-embed-text
# Gerar embedding via API
curl http://localhost:11434/api/embeddings -d '{
"model": "nomic-embed-text",
"prompt": "Texto para converter em vetor"
}'Variáveis de ambiente importantes
- `OLLAMA_HOST`: Define o endereço de escuta. Padrão: `localhost:11434`. Use `0.0.0.0` para acesso da rede local.
- `OLLAMA_MODELS`: Diretório de armazenamento dos modelos. Padrão: `~/.ollama/models`.
- `OLLAMA_KEEP_ALIVE`: Tempo para manter o modelo em memória após o último uso. Padrão: `5m`. Use `0` para descarregar imediatamente, `-1` para manter sempre.
- `OLLAMA_NUM_GPU`: Número de GPUs para usar. Padrão: detecta automaticamente.
- `OLLAMA_GPU_LAYERS`: Quantas camadas offloar para GPU. Padrão: automático.
# Exemplos de configuração
export OLLAMA_HOST=0.0.0.0 # Permitir acesso da rede local
export OLLAMA_KEEP_ALIVE=30m # Manter modelo em memória por 30 min
export OLLAMA_MODELS=/data/models # Usar diretório alternativo de modelos
# Reiniciar Ollama após mudanças
killall ollama && ollama serveErros comuns com o Ollama
- Baixar o modelo errado. `ollama pull llama3` baixa uma versão antiga. Use `ollama pull llama3.2:3b` ou `llama3.2:8b` para os modelos mais recentes.
- Não verificar o uso de RAM antes de executar. `ollama run llama3.3:70b` em um sistema com 16 GB de RAM causará lentidão severa. Verifique: 3B requer ~3 GB, 8B requer ~8 GB, 70B requer ~40 GB.
- Esquecer de iniciar o servidor. No Linux, o Ollama não inicia automaticamente. Execute `ollama serve` em segundo plano ou configure como serviço systemd.
- Não usar `--stream false` nas chamadas de API. Por padrão, a API retorna um stream JSON. Se sua aplicação espera uma resposta JSON simples, adicione `"stream": false`.
- Armazenar modelos em disco lento. Modelos grandes em discos HDD carregam lentamente. Use SSD para o diretório `~/.ollama/models`.
Perguntas frequentes sobre comandos Ollama
Como atualizar um modelo Ollama para a versão mais recente?
`ollama pull <model>` — o Ollama verifica automaticamente se há uma versão mais nova e baixa apenas os bytes diferentes. Execute o mesmo comando pull novamente para atualizar.
Onde o Ollama armazena os modelos baixados?
Por padrão: `~/.ollama/models` no macOS e Linux, `%USERPROFILE%\.ollama\models` no Windows. Use a variável `OLLAMA_MODELS` para alterar o diretório.
Posso executar vários modelos simultaneamente no Ollama?
Sim. O Ollama mantém o último modelo usado em memória e carrega novos modelos conforme solicitado. Para manter múltiplos modelos em memória simultaneamente, use `OLLAMA_KEEP_ALIVE=-1` e envie requisições a diferentes modelos.
Como verificar se o Ollama está usando minha GPU?
Execute `ollama run llama3.2:3b` e verifique `nvidia-smi` (NVIDIA) ou `sudo powermetrics --samplers gpu_power` (Apple Silicon) em outro terminal. Você deve ver o uso de GPU aumentar durante a inferência.
Posso usar o Ollama como backend para o Open WebUI?
Sim. O Open WebUI se conecta automaticamente ao Ollama em localhost:11434. Instale o Open WebUI com Docker e ele detectará automaticamente todos os modelos Ollama instalados.
Fontes
- Documentação oficial do Ollama — Referência completa da CLI
- Biblioteca de modelos Ollama — Todos os modelos disponíveis
- Repositório Ollama no GitHub — Código-fonte e issues