Key Takeaways
- OOM (falta de memória): use quantização Q4_K_M ou um modelo menor. Verifique a RAM com `free -h` antes de baixar modelos.
- GPU não detectada: instale drivers NVIDIA 525+, CUDA 11.3+, ou ROCm 5.7+ para AMD. Defina `OLLAMA_GPU_LAYERS=999`.
- Inferência lenta: confirme atividade da GPU com `ollama ps`. Se apenas CPU, reduza o tamanho do modelo.
- Porta 11434 recusada: o Ollama não está em execução. Execute `ollama serve` em um terminal separado.
- Saída corrompida: o modelo errado foi baixado ou o arquivo GGUF está corrompido. Exclua e rebaixe.
Perguntas frequentes
Por que meu LLM local está travando com erro OOM?
O modelo não cabe na VRAM disponível. Solução: use quantização Q4_K_M (reduce VRAM em ~55% vs FP16) ou mude para um modelo menor. Verifique a VRAM disponível com `nvidia-smi` antes de baixar.
Por que o Ollama não detecta minha GPU NVIDIA?
Drivers desatualizados são a causa mais comum. Instale drivers NVIDIA 525+ e CUDA 11.3+. No Linux, execute `nvidia-smi` para verificar. Se a GPU aparecer no nvidia-smi mas não no Ollama, tente definir `OLLAMA_GPU_LAYERS=999` como variável de ambiente.
Como sei se meu LLM está rodando na GPU ou na CPU?
Execute `ollama ps` enquanto um modelo está carregado — a saída mostra quais camadas estão na GPU vs CPU. Alternativamente, monitore a utilização da GPU com `nvidia-smi -l 1`. Se a utilização da GPU ficar em 0%, o Ollama está rodando apenas em CPU.
Por que a geração do LLM para antes do tempo?
Paradas antecipadas geralmente são causadas por tokens de parada no Modelfile. Verifique o prompt do sistema e o template para sequências de parada inesperadas. Também verifique o parâmetro `num_predict` — se configurado muito baixo, o Ollama truncará a saída nesse número de tokens.