Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/Guia de Comandos Ollama: Todos os Comandos Explicados (2026)
Tools & Interfaces

Guia de Comandos Ollama: Todos os Comandos Explicados (2026)

·11 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

O Ollama é uma ferramenta de linha de comando, e entender seus comandos o torna muito mais poderoso. Este guia cobre os comandos essenciais: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` e opções avançadas como quantização de modelos e Modelfiles personalizados.

O Ollama é uma ferramenta de linha de comando, e entender seus comandos o torna muito mais poderoso. Este guia cobre os comandos essenciais: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` e opções avançadas como quantização de modelos e Modelfiles personalizados. Em abril de 2026, esses comandos cobrem 95% dos casos de uso do mundo real.

Key Takeaways

  • `ollama pull <model>` — Baixa um modelo (ex: `ollama pull llama3.2:3b`).
  • `ollama run <model>` — Inicia um chat com um modelo.
  • `ollama list` — Mostra todos os modelos baixados e seus tamanhos.
  • `ollama rm <model>` — Remove um modelo baixado.
  • `ollama serve` — Inicia o servidor API do Ollama (executa automaticamente no Mac/Windows).
  • `ollama create <name> -f <modelfile>` — Cria um modelo personalizado a partir de um Modelfile.
  • Em abril de 2026, esses comandos são estáveis e cobrem todos os casos de uso comuns.

Quais são os comandos essenciais do Ollama?

  • `ollama list` — Mostra os modelos baixados, uso de disco e data de modificação.
  • `ollama pull <model>` — Baixa um modelo por nome (ex: `ollama pull mistral`).
  • `ollama run <model>` — Inicia uma sessão de chat com um modelo.
  • `ollama rm <model>` — Remove um modelo e libera espaço em disco.
  • `ollama serve` — Inicia o servidor API REST (normalmente executa automaticamente).
  • `ollama help` — Mostra todos os comandos disponíveis.

Como gerenciar modelos no Ollama?

O gerenciamento de modelos no Ollama é totalmente por comandos:

bash
# Listar todos os modelos baixados
ollama list

# Baixar um modelo da biblioteca Ollama
ollama pull llama3.2:3b       # Versão 7-bit (~2,5 GB)
ollama pull llama3.2:3b-fp16  # Precisão total (~6,5 GB)

# Baixar quantização específica
ollama pull qwen2.5:7b-q4   # Quantização 4-bit
ollama pull qwen2.5:7b-q8   # Quantização 8-bit

# Ver uso de disco
du -sh ~/.ollama/models

# Remover um modelo
ollama rm llama3.2:3b

# Baixar de registro personalizado (avançado)
ollama pull localhost:5000/custom-model

Como executar modelos e servir a API?

O Ollama pode ser executado em modo interativo (chat) ou como servidor API:

bash
# Modo de chat interativo
ollama run llama3.2:3b

# Executar com parâmetros
ollama run llama3.2:3b --verbose

# Iniciar servidor API (já executa em segundo plano no Mac/Windows)
ollama serve

# Testar a API REST
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:3b",
  "prompt": "Olá, como vai?",
  "stream": false
}'

# Listar modelos via API
curl http://localhost:11434/api/tags

Como criar Modelfiles personalizados?

Um Modelfile é um arquivo de configuração que define um modelo personalizado com instruções de sistema, parâmetros e até mesmo base em outro modelo:

bash
# Criar um Modelfile
cat > Modelfile << 'EOF'
FROM llama3.2:3b

SYSTEM """
Você é um assistente técnico especializado em desenvolvimento de software.
Responda sempre em português do Brasil.
Seja conciso e direto.
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF

# Criar o modelo personalizado
ollama create meu-assistente -f Modelfile

# Executar o modelo personalizado
ollama run meu-assistente

Como escolher e usar quantizações?

A quantização reduz o tamanho do modelo sacrificando um pouco de qualidade. Q4 usa ~4 bits por parâmetro, Q8 usa ~8 bits. Q4_K_M é geralmente o melhor equilíbrio entre tamanho e qualidade.

  • Q4 (4-bit): ~55% do tamanho do modelo, ~2–3% de perda de qualidade. Recomendado para hardware com VRAM/RAM limitada.
  • Q8 (8-bit): ~90% do tamanho do modelo, ~0,5% de perda de qualidade. Recomendado quando há VRAM suficiente.
  • FP16 (full precision): 100% do tamanho, sem perda. Apenas se você tiver VRAM/RAM abundante.
bash
# Q4 (menor, mais rápido, menor qualidade)
ollama pull llama3.2:3b-q4

# Q8 (maior, mais lento, melhor qualidade)
ollama pull llama3.2:3b-q8

# Padrão (geralmente Q4_K_M — melhor equilíbrio)
ollama pull llama3.2:3b

# Ver qual quantização foi baixada
ollama show llama3.2:3b

Como usar modelos de embedding com Ollama?

O Ollama também suporta modelos de embedding para RAG e busca semântica:

bash
# Baixar modelo de embedding
ollama pull nomic-embed-text

# Gerar embedding via API
curl http://localhost:11434/api/embeddings -d '{
  "model": "nomic-embed-text",
  "prompt": "Texto para converter em vetor"
}'

Variáveis de ambiente importantes

  • `OLLAMA_HOST`: Define o endereço de escuta. Padrão: `localhost:11434`. Use `0.0.0.0` para acesso da rede local.
  • `OLLAMA_MODELS`: Diretório de armazenamento dos modelos. Padrão: `~/.ollama/models`.
  • `OLLAMA_KEEP_ALIVE`: Tempo para manter o modelo em memória após o último uso. Padrão: `5m`. Use `0` para descarregar imediatamente, `-1` para manter sempre.
  • `OLLAMA_NUM_GPU`: Número de GPUs para usar. Padrão: detecta automaticamente.
  • `OLLAMA_GPU_LAYERS`: Quantas camadas offloar para GPU. Padrão: automático.
bash
# Exemplos de configuração
export OLLAMA_HOST=0.0.0.0       # Permitir acesso da rede local
export OLLAMA_KEEP_ALIVE=30m     # Manter modelo em memória por 30 min
export OLLAMA_MODELS=/data/models # Usar diretório alternativo de modelos

# Reiniciar Ollama após mudanças
killall ollama && ollama serve

Erros comuns com o Ollama

  • Baixar o modelo errado. `ollama pull llama3` baixa uma versão antiga. Use `ollama pull llama3.2:3b` ou `llama3.2:8b` para os modelos mais recentes.
  • Não verificar o uso de RAM antes de executar. `ollama run llama3.3:70b` em um sistema com 16 GB de RAM causará lentidão severa. Verifique: 3B requer ~3 GB, 8B requer ~8 GB, 70B requer ~40 GB.
  • Esquecer de iniciar o servidor. No Linux, o Ollama não inicia automaticamente. Execute `ollama serve` em segundo plano ou configure como serviço systemd.
  • Não usar `--stream false` nas chamadas de API. Por padrão, a API retorna um stream JSON. Se sua aplicação espera uma resposta JSON simples, adicione `"stream": false`.
  • Armazenar modelos em disco lento. Modelos grandes em discos HDD carregam lentamente. Use SSD para o diretório `~/.ollama/models`.

Perguntas frequentes sobre comandos Ollama

Como atualizar um modelo Ollama para a versão mais recente?

`ollama pull <model>` — o Ollama verifica automaticamente se há uma versão mais nova e baixa apenas os bytes diferentes. Execute o mesmo comando pull novamente para atualizar.

Onde o Ollama armazena os modelos baixados?

Por padrão: `~/.ollama/models` no macOS e Linux, `%USERPROFILE%\.ollama\models` no Windows. Use a variável `OLLAMA_MODELS` para alterar o diretório.

Posso executar vários modelos simultaneamente no Ollama?

Sim. O Ollama mantém o último modelo usado em memória e carrega novos modelos conforme solicitado. Para manter múltiplos modelos em memória simultaneamente, use `OLLAMA_KEEP_ALIVE=-1` e envie requisições a diferentes modelos.

Como verificar se o Ollama está usando minha GPU?

Execute `ollama run llama3.2:3b` e verifique `nvidia-smi` (NVIDIA) ou `sudo powermetrics --samplers gpu_power` (Apple Silicon) em outro terminal. Você deve ver o uso de GPU aumentar durante a inferência.

Posso usar o Ollama como backend para o Open WebUI?

Sim. O Open WebUI se conecta automaticamente ao Ollama em localhost:11434. Instale o Open WebUI com Docker e ele detectará automaticamente todos os modelos Ollama instalados.

Fontes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Referência de Comandos Ollama 2026: pull, run, serve