Key Takeaways
- O caminho mais rápido: instale o Ollama → execute `ollama run llama3.2` → converse no seu terminal. Tempo total: menos de 5 minutos com uma conexão rápida.
- Para máquinas com 8 GB de RAM: comece com `llama3.2:3b` (download de 2 GB) ou `phi4-mini` (2,3 GB). Ambos funcionam em qualquer notebook moderno.
- Espere 15-40 tokens/seg na CPU e 60-120 tokens/seg em uma GPU intermediária ou Apple Silicon.
- As primeiras respostas podem parecer mais lentas que as APIs em nuvem — os modelos locais trocam velocidade por privacidade e custo zero.
- Após o download inicial do modelo, tudo funciona offline. Não é preciso internet para as sessões seguintes.
Passo 1: Instalar o Ollama
O Ollama é a forma mais rápida de rodar um LLM local. Instale-o com um comando ou um download de 2 minutos:
# macOS (Homebrew)
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: download installer from ollama.com/downloadVerificar se o Ollama está em execução
Após a instalação, confirme que o Ollama está ativo:
curl http://localhost:11434
# Expected output: Ollama is runningPasso 2: Escolher seu primeiro modelo
Escolha um modelo conforme a RAM disponível. Na dúvida, comece com `llama3.2:3b` — funciona em qualquer máquina com 4 GB de RAM e produz resultados úteis:
| Sua RAM | Modelo recomendado | Tamanho do download | Por quê |
|---|---|---|---|
| 4 GB | llama3.2:1b | ~1,3 GB | O menor modelo Llama que ainda é útil |
| 8 GB | Llama 3.2 3B | ~2 GB | Melhor relação qualidade/tamanho para iniciantes |
| 8-16 GB | Llama 3.3 8B | ~4,7 GB | Modelo de propósito geral de alto desempenho |
| 16+ GB | mistral:7b ou qwen2.5:7b | ~4-5 GB | Qualidade competitiva, inferência rápida |
Passo 3: Baixar o modelo
Baixe o modelo com `ollama pull`. O modelo é salvo em `~/.ollama/models` e só precisa ser baixado uma vez:
ollama pull llama3.2
# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8bComo é o download?
O Ollama mostra o progresso do download no terminal. Um modelo `llama3.2:3b` leva 2-5 minutos em uma conexão de banda larga típica. O modelo é armazenado comprimido — os 2 GB baixados se expandem para cerca de 2,3 GB em disco.
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏ 42 B
verifying sha256 digest
writing manifest
successPasso 4: Rodar o modelo e enviar seu primeiro prompt
Inicie uma sessão de chat interativa:
ollama run llama3.2
# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)Sua primeira conversa
Digite uma mensagem e pressione Enter. O modelo transmite a resposta token por token:
>>> What are local LLMs?
Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...O que esperar: velocidade, qualidade e limitações
Velocidade varia conforme o hardware. Em um notebook de 2023 (sem GPU): espere 15-25 tokens/seg para um modelo 3B e 8-15 tokens/seg para um 8B. No Apple M3 Pro: 50-80 tokens/seg para 8B. Em uma NVIDIA RTX 4070 Ti: 90-130 tokens/seg para 8B.
Qualidade do `llama3.2:3b` é nitidamente inferior ao GPT-5.5 ou ao Claude Opus 4.8 em tarefas complexas. Para resumos, perguntas e respostas simples e explicação de código, o resultado é útil. Para raciocínio em várias etapas ou escrita longa, faça upgrade para um modelo 8B ou 13B.
Janela de contexto: o `llama3.2:3b` suporta 128K tokens por padrão no Ollama. Na prática, a qualidade se degrada após ~16K tokens em uma única conversa.
Atraso na primeira resposta: a primeira resposta após `ollama run` inclui o tempo de carregamento do modelo (5-30 segundos). As respostas seguintes na mesma sessão são mais rápidas.
Como usar seu LLM local além do terminal?
O chat no terminal do Ollama é útil para testes, mas a maioria dos casos de uso reais precisa de uma interface melhor:
- Open WebUI: uma interface web completa para o Ollama. Rode com Docker: `docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`. Acesse em http://localhost:3000.
- LM Studio: se você prefere uma GUI de desktop, Como instalar o LM Studio cobre a configuração completa. O chat integrado do LM Studio é polido e suporta histórico de conversas.
- Integração via API: a API do Ollama em `localhost:11434` é compatível com o SDK da OpenAI. Qualquer aplicação que aceite uma URL base da OpenAI pode se conectar ao seu modelo local.
- VS Code / Cursor: extensões como o Continue.dev se conectam ao Ollama e fornecem assistência de codificação com IA local diretamente no seu editor.
Rodar seu primeiro LLM local: contexto regional
UE / GDPR e Brasil / LGPD: rodar um LLM local com o Ollama significa que nenhum dado de prompt, contexto ou saída sai da sua máquina — os mecanismos de transferência do Artigo 46 do GDPR não se aplicam, e a LGPD brasileira (Lei nº 13.709/2018) é atendida pelo mesmo princípio de não transferência. Para profissionais que lidam com dados pessoais, esta é a alternativa que preserva a privacidade frente às APIs de IA em nuvem. Seu primeiro modelo local (llama3.2:3b) usa 2 GB de disco, gera zero chamadas de API externas e cumpre por design as diretrizes de minimização de dados.
Japão (METI): as diretrizes de governança de IA do METI exigem documentar onde a inferência de IA ocorre. Sua primeira configuração do Ollama cria um ambiente local completo e auditável: arquivos de modelo armazenados em ~/.ollama/models com nomes de arquivo específicos de versão, sem dependências de API externas, e inferência verificável via `ollama ps`. Profissionais japoneses que rodam Llama ou Qwen3 localmente podem documentar a versão exata do modelo e o hardware para os fins de conformidade do METI.
China: para fluxos de trabalho em chinês, substitua o llama3.2:3b por qwen2.5:3b como primeiro modelo: `ollama pull qwen2.5:3b`. O Qwen3 processa texto em chinês 30-40% mais eficientemente em tokens que o Llama, produzindo melhores resultados no mesmo nível de hardware. Os comandos ollama pull e run são idênticos.
Perguntas frequentes ao rodar seu primeiro LLM local
A resposta do modelo está muito lenta — isso é normal?
Em hardware apenas com CPU, 8-20 tokens/seg é normal para um modelo 7B. Cada token equivale a cerca de 0,75 palavra. A 10 tokens/seg, uma resposta de 100 palavras leva uns 13 segundos. Para acelerar a inferência, use um modelo menor (3B em vez de 8B), ative o offload para GPU se tiver uma compatível, ou use o nível de quantização Q4_K_M, que é a configuração mais rápida habitual.
Posso rodar dois modelos ao mesmo tempo?
O Ollama pode manter vários modelos carregados simultaneamente se você tiver RAM suficiente. Por padrão, o Ollama descarrega um modelo após 5 minutos de inatividade. Você pode mudar isso com a variável de ambiente OLLAMA_KEEP_ALIVE. Rodar dois modelos 7B ao mesmo tempo exige ~16 GB de RAM.
Como paro o Ollama para que ele não rode em segundo plano?
No macOS: clique no ícone da lhama na barra de menus e selecione Sair. No Linux: execute `systemctl stop ollama`. No Windows: clique com o botão direito no ícone da bandeja do sistema e selecione Sair. Para evitar que o Ollama inicie no login, remova-o dos seus itens de inicialização.
Qual é a forma mais fácil de rodar um LLM local pela primeira vez?
Instale o Ollama (ollama.com), execute `ollama pull llama3.2:3b` e depois `ollama run llama3.2:3b`. É isso. Três comandos, 2-5 minutos e você tem um modelo de IA funcionando na sua máquina sem precisar de internet após o download inicial.
Como sei se meu LLM local está funcionando corretamente?
Execute `ollama ps` no terminal. Se o modelo estiver em execução, ele aparecerá na lista com nome, tamanho e uso de memória. Envie um prompt simples como "Quanto é 2+2?" — se responder "4", o modelo está funcionando corretamente.
Meu computador precisa de uma GPU para rodar um LLM local?
Não. Os LLMs locais rodam na CPU. Uma GPU torna a inferência 5-10 vezes mais rápida, mas apenas com CPU já dá conta para aprender e para muitos casos de uso reais. Notebooks modernos com Apple M1/M2, AMD Ryzen ou Intel de 12ª geração conseguem rodar modelos 3B-7B em velocidades razoáveis (10-30 tokens/seg).
Quanto espaço em disco um LLM local ocupa?
O `llama3.2:1b` ocupa 1,3 GB, o `llama3.2:3b` ocupa 2 GB, o `llama3.1:8b` ocupa 4,7 GB. Esses são os tamanhos comprimidos como o Ollama os armazena. Após carregá-los na RAM para a inferência, os tamanhos diferem (consulte Quanta VRAM para LLM local para mais detalhes).
Posso usar meu LLM local sem conexão à internet?
Sim, totalmente. Baixe o modelo uma vez com o Ollama (exige internet) e depois rode-o localmente para sempre sem internet. Perfeito para redes privadas, aviões ou ambientes totalmente offline.
Qual é a diferença entre um LLM local e o ChatGPT?
O ChatGPT roda nos servidores da OpenAI. Os LLMs locais rodam na sua máquina. Local = nenhum dado sai do seu dispositivo, privacidade total, sem custos de API. ChatGPT = melhor qualidade em tarefas complexas, exige internet e uma assinatura paga. Ambos têm vantagens e desvantagens.
Qual é o melhor primeiro modelo para testar com o Ollama?
`ollama pull llama3.2:3b` — pesa 2 GB, funciona em qualquer notebook moderno, produz respostas competentes e é o ponto de partida recomendado pelo Ollama. Depois de testá-lo, consulte Melhores modelos LLM locais para iniciantes para alternativas conforme seu hardware.
Próximos passos após sua primeira execução
Agora que você tem um LLM local funcionando, explore o que ele consegue fazer. Para entender quais modelos rendem melhor com seu hardware, consulte Melhores modelos LLM locais para iniciantes. Para dicas de desempenho específicas para notebooks, consulte Como rodar LLMs locais em um notebook. Para boas práticas de privacidade e segurança, consulte a Lista de verificação de segurança e privacidade de LLM local.
Fontes
- **Biblioteca de modelos do Ollama** -- Lista oficial de modelos disponíveis para download e suas especificações
- **Repositório do Ollama no GitHub** -- Código-fonte aberto, documentação e rastreamento de problemas
- **Ficha do modelo Meta Llama 3.2** -- Especificações oficiais, dados de treinamento e benchmarks de desempenho
Erros comuns após sua primeira execução
- Confundir a contagem de tokens com a velocidade — um modelo 7B que gera 100 tokens a 20 tokens/seg leva 5 segundos, não é instantâneo.
- Rodar a inferência enquanto o sistema está ocupado com outras tarefas, reduzindo significativamente os tokens/seg efetivos.
- Não verificar os limites da janela de contexto — a maioria dos modelos para iniciantes suporta 2K-8K tokens, não os 100K+ dos modelos de fronteira.
- Esperar respostas instantâneas na primeira execução — a primeira resposta inclui o tempo de carregamento do modelo (5-30 segundos). As respostas seguintes na mesma sessão são 2-5 vezes mais rápidas.
- Usar a tag de modelo errada — `llama3.1:8b-text` é o modo de completação de texto base e produzirá loops/repetições infinitos. Use tags `-instruct` como `llama3.1:8b-instruct` para chat.