Início/LLMs locais/Guia de Comandos Ollama: Todos os Comandos Explicados (2026)

Tools & Interfaces

Guia de Comandos Ollama: Todos os Comandos Explicados (2026)

Last updated: 19 de abril de 2026·11 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

O Ollama é uma ferramenta de linha de comando, e entender seus comandos o torna muito mais poderoso. Este guia cobre os comandos essenciais: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` e opções avançadas como quantização de modelos e Modelfiles personalizados.

Key Takeaways

`ollama pull <model>` — Baixa um modelo (ex: `ollama pull llama3.2:3b`).
`ollama run <model>` — Inicia um chat com um modelo.
`ollama list` — Mostra todos os modelos baixados e seus tamanhos.
`ollama rm <model>` — Remove um modelo baixado.
`ollama serve` — Inicia o servidor API do Ollama (executa automaticamente no Mac/Windows).
`ollama create <name> -f <modelfile>` — Cria um modelo personalizado a partir de um Modelfile.
Em abril de 2026, esses comandos são estáveis e cobrem todos os casos de uso comuns.

Quais são os comandos essenciais do Ollama?

`ollama list` — Mostra os modelos baixados, uso de disco e data de modificação.
`ollama pull <model>` — Baixa um modelo por nome (ex: `ollama pull mistral`).
`ollama run <model>` — Inicia uma sessão de chat com um modelo.
`ollama rm <model>` — Remove um modelo e libera espaço em disco.
`ollama serve` — Inicia o servidor API REST (normalmente executa automaticamente).
`ollama help` — Mostra todos os comandos disponíveis.

Como gerenciar modelos no Ollama?

O gerenciamento de modelos no Ollama é totalmente por comandos:

bash

# Listar todos os modelos baixados
ollama list

# Baixar um modelo da biblioteca Ollama
ollama pull llama3.2:3b       # Versão 7-bit (~2,5 GB)
ollama pull llama3.2:3b-fp16  # Precisão total (~6,5 GB)

# Baixar quantização específica
ollama pull qwen2.5:7b-q4   # Quantização 4-bit
ollama pull qwen2.5:7b-q8   # Quantização 8-bit

# Ver uso de disco
du -sh ~/.ollama/models

# Remover um modelo
ollama rm llama3.2:3b

# Baixar de registro personalizado (avançado)
ollama pull localhost:5000/custom-model

Como executar modelos e servir a API?

O Ollama pode ser executado em modo interativo (chat) ou como servidor API:

bash

# Modo de chat interativo
ollama run llama3.2:3b

# Executar com parâmetros
ollama run llama3.2:3b --verbose

# Iniciar servidor API (já executa em segundo plano no Mac/Windows)
ollama serve

# Testar a API REST
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:3b",
  "prompt": "Olá, como vai?",
  "stream": false
}'

# Listar modelos via API
curl http://localhost:11434/api/tags

Como criar Modelfiles personalizados?

Um Modelfile é um arquivo de configuração que define um modelo personalizado com instruções de sistema, parâmetros e até mesmo base em outro modelo:

bash

# Criar um Modelfile
cat > Modelfile << 'EOF'
FROM llama3.2:3b

SYSTEM """
Você é um assistente técnico especializado em desenvolvimento de software.
Responda sempre em português do Brasil.
Seja conciso e direto.
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF

# Criar o modelo personalizado
ollama create meu-assistente -f Modelfile

# Executar o modelo personalizado
ollama run meu-assistente

Como escolher e usar quantizações?

A quantização reduz o tamanho do modelo sacrificando um pouco de qualidade. Q4 usa ~4 bits por parâmetro, Q8 usa ~8 bits. Q4_K_M é geralmente o melhor equilíbrio entre tamanho e qualidade.

Q4 (4-bit): ~55% do tamanho do modelo, ~2–3% de perda de qualidade. Recomendado para hardware com VRAM/RAM limitada.
Q8 (8-bit): ~90% do tamanho do modelo, ~0,5% de perda de qualidade. Recomendado quando há VRAM suficiente.
FP16 (full precision): 100% do tamanho, sem perda. Apenas se você tiver VRAM/RAM abundante.

bash

# Q4 (menor, mais rápido, menor qualidade)
ollama pull llama3.2:3b-q4

# Q8 (maior, mais lento, melhor qualidade)
ollama pull llama3.2:3b-q8

# Padrão (geralmente Q4_K_M — melhor equilíbrio)
ollama pull llama3.2:3b

# Ver qual quantização foi baixada
ollama show llama3.2:3b

Como usar modelos de embedding com Ollama?

O Ollama também suporta modelos de embedding para RAG e busca semântica:

bash

# Baixar modelo de embedding
ollama pull nomic-embed-text

# Gerar embedding via API
curl http://localhost:11434/api/embeddings -d '{
  "model": "nomic-embed-text",
  "prompt": "Texto para converter em vetor"
}'

Variáveis de ambiente importantes

`OLLAMA_HOST`: Define o endereço de escuta. Padrão: `localhost:11434`. Use `0.0.0.0` para acesso da rede local.
`OLLAMA_MODELS`: Diretório de armazenamento dos modelos. Padrão: `~/.ollama/models`.
`OLLAMA_KEEP_ALIVE`: Tempo para manter o modelo em memória após o último uso. Padrão: `5m`. Use `0` para descarregar imediatamente, `-1` para manter sempre.
`OLLAMA_NUM_GPU`: Número de GPUs para usar. Padrão: detecta automaticamente.
`OLLAMA_GPU_LAYERS`: Quantas camadas offloar para GPU. Padrão: automático.

bash

# Exemplos de configuração
export OLLAMA_HOST=0.0.0.0       # Permitir acesso da rede local
export OLLAMA_KEEP_ALIVE=30m     # Manter modelo em memória por 30 min
export OLLAMA_MODELS=/data/models # Usar diretório alternativo de modelos

# Reiniciar Ollama após mudanças
killall ollama && ollama serve

Erros comuns com o Ollama

Baixar o modelo errado. `ollama pull llama3` baixa uma versão antiga. Use `ollama pull llama3.2:3b` ou `llama3.2:8b` para os modelos mais recentes.
Não verificar o uso de RAM antes de executar. `ollama run llama3.3:70b` em um sistema com 16 GB de RAM causará lentidão severa. Verifique: 3B requer ~3 GB, 8B requer ~8 GB, 70B requer ~40 GB.
Esquecer de iniciar o servidor. No Linux, o Ollama não inicia automaticamente. Execute `ollama serve` em segundo plano ou configure como serviço systemd.
Não usar `--stream false` nas chamadas de API. Por padrão, a API retorna um stream JSON. Se sua aplicação espera uma resposta JSON simples, adicione `"stream": false`.
Armazenar modelos em disco lento. Modelos grandes em discos HDD carregam lentamente. Use SSD para o diretório `~/.ollama/models`.

Perguntas frequentes sobre comandos Ollama

Como atualizar um modelo Ollama para a versão mais recente?

`ollama pull <model>` — o Ollama verifica automaticamente se há uma versão mais nova e baixa apenas os bytes diferentes. Execute o mesmo comando pull novamente para atualizar.

Onde o Ollama armazena os modelos baixados?

Por padrão: `~/.ollama/models` no macOS e Linux, `%USERPROFILE%\.ollama\models` no Windows. Use a variável `OLLAMA_MODELS` para alterar o diretório.

Posso executar vários modelos simultaneamente no Ollama?

Sim. O Ollama mantém o último modelo usado em memória e carrega novos modelos conforme solicitado. Para manter múltiplos modelos em memória simultaneamente, use `OLLAMA_KEEP_ALIVE=-1` e envie requisições a diferentes modelos.

Como verificar se o Ollama está usando minha GPU?

Execute `ollama run llama3.2:3b` e verifique `nvidia-smi` (NVIDIA) ou `sudo powermetrics --samplers gpu_power` (Apple Silicon) em outro terminal. Você deve ver o uso de GPU aumentar durante a inferência.

Posso usar o Ollama como backend para o Open WebUI?

Sim. O Open WebUI se conecta automaticamente ao Ollama em localhost:11434. Instale o Open WebUI com Docker e ele detectará automaticamente todos os modelos Ollama instalados.

Fontes

Documentação oficial do Ollama — Referência completa da CLI
Biblioteca de modelos Ollama — Todos os modelos disponíveis
Repositório Ollama no GitHub — Código-fonte e issues

Nota sobre informações de terceiros

Este artigo faz referência a modelos de IA, benchmarks, preços e licenças de terceiros. O cenário da IA muda rapidamente. Pontuações de benchmark, termos de licença, nomes de modelos e preços de API podem mudar entre o momento em que foi escrito e quando você está lendo. Antes de tomar decisões de implantação ou conformidade com base neste artigo, verifique os dados atuais na fonte oficial de cada fornecedor: fichas de modelos do Hugging Face para licenças e benchmarks, sites dos fornecedores para preços de API e EUR-Lex para o texto atual do GDPR e da Lei de IA da UE. Este artigo reflete informações publicamente disponíveis em maio de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Guia de Comandos Ollama: Todos os Comandos Explicados (2026)

Quais são os comandos essenciais do Ollama?

Como gerenciar modelos no Ollama?

Como executar modelos e servir a API?

Como criar Modelfiles personalizados?

Como escolher e usar quantizações?

Como usar modelos de embedding com Ollama?

Variáveis de ambiente importantes

Erros comuns com o Ollama

Perguntas frequentes sobre comandos Ollama

Como atualizar um modelo Ollama para a versão mais recente?

Onde o Ollama armazena os modelos baixados?

Posso executar vários modelos simultaneamente no Ollama?

Como verificar se o Ollama está usando minha GPU?

Posso usar o Ollama como backend para o Open WebUI?

Leituras relacionadas

Fontes

Nota sobre informações de terceiros