Início/LLMs locais/Corrigir erros de LLM local em 2026: 11 problemas frequentes no Ollama, LM Studio e vLLM

Getting Started

Corrigir erros de LLM local em 2026: 11 problemas frequentes no Ollama, LM Studio e vLLM

Last updated: 15 de julho de 2026·9 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Os erros mais comuns em LLMs locais são travamentos por falta de memória, GPU não detectada, inferência em CPU extremamente lenta, conexão recusada pela API e saída corrompida.

Os erros mais comuns em LLMs locais são travamentos por falta de memória, GPU não detectada, inferência em CPU extremamente lenta, conexão recusada pela API e saída corrompida. A partir de julho de 2026, existem soluções para os 11 erros — a maioria requer apenas um ou dois comandos de terminal. Este guia cobre Ollama (porta 11434), LM Studio (porta 1234) e vLLM com comandos exatos para cada erro.

Slide Deck: Corrigir erros de LLM local em 2026: 11 problemas frequentes no Ollama, LM Studio e vLLM

A apresentação abaixo cobre: os 10 erros mais comuns na configuração de LLM local (sem memória, GPU não detectada, inferência lenta, conexão recusada, saída corrompida), os requisitos de RAM para modelos 3B–14B com quantização Q4_K_M e Q8_0, um processo de depuração em 5 etapas e os comandos do Ollama para cada correção. O erro 11 (host remoto inesperado) é abordado no texto do artigo. Baixe o PDF como cartão de referência para solução de problemas de LLM local.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Falta de memória: mude para uma quantização menor (Q4_K_M → Q3_K_S) ou um modelo menor.
GPU não detectada na NVIDIA: atualize o driver para 525+ no Linux, 452+ no Windows. Execute `nvidia-smi` para confirmar.
Inferência extremamente lenta: você está rodando apenas na CPU. Ative o offload de GPU no Ollama com a variável de ambiente `OLLAMA_GPU_LAYERS`.
Conexão recusada: o Ollama não está em execução. Inicie-o com `ollama serve` ou reinicie o serviço.
Saída corrompida: template de prompt errado. Use a variante Instruct do modelo, não a variante base.

Os 10 erros mais comuns de LLM local com sintomas e correções — referência rápida para configurações de Ollama, LM Studio e vLLM (julho de 2026).

Erro 1: "Falta de memória" / Travamento por falta de memória

Erros de falta de memória significam que o modelo precisa de mais RAM do que a disponível -- não é uma falha de hardware. Este é o erro mais comum para usuários iniciantes. Veja Quantização de LLM explicada para entender como a quantização reduz os requisitos de RAM.

Verifique a RAM disponível: execute `free -h` no macOS/Linux, ou abra o Gerenciador de Tarefas → Desempenho → Memória no Windows.
Mude para uma quantização menor: substitua `Q8_0` ou `Q5_K_M` por `Q4_K_M`. Para o Ollama: `ollama run llama3.2-instruct-q4_K_M`.
Feche aplicativos em segundo plano antes de carregar o modelo -- navegadores e outros apps consomem RAM, reduzindo o que fica disponível para o modelo.
Mude para um modelo menor: se o 8B falhar com 8 GB de RAM, tente o `llama3.2:3b` (precisa de apenas ~2,5 GB).

Requisitos de RAM de LLM local por tamanho de modelo: llama3.2 1B–3B cabe em 8 GB, modelos 7B–8B precisam de 16 GB, modelos 70B precisam de 64 GB com quantização Q4_K_M.

Verificar a RAM disponível no Linux / macOS

bash

# Linux
free -h

# macOS
vm_stat | grep "Pages free"

# Mais legível no macOS
top -l 1 | grep "PhysMem"

Erro 2: GPU não está sendo usada (rodando apenas na CPU)

GPU não usada significa que o LLM roda de 5 a 10 vezes mais devagar que o esperado -- verifique a instalação do driver antes de qualquer outra coisa. Confirme que sua GPU está visível para o sistema:

bash

# NVIDIA — deve mostrar o nome da GPU e a versão do driver
nvidia-smi

# AMD no Linux
rocm-smi

# macOS — verificar se o Metal está disponível
system_profiler SPDisplaysDataType | grep "Metal"

Somente CPU vs. GPU ativa: o Ollama na CPU gera 2–8 tok/s; o modo GPU gera 30–120 tok/s. Verifique com ollama ps ou nvidia-smi.

Como ativar a GPU no Ollama?

NVIDIA no Linux: instale o driver NVIDIA 525+ e o CUDA Toolkit 11.3+. O Ollama detecta o CUDA automaticamente ao reiniciar.
NVIDIA no Windows: verifique se a versão do driver é 452.39 ou superior. O Ollama instala o suporte a CUDA automaticamente pelo instalador do Windows.
AMD no Linux: instale o ROCm 5.7+. Se a detecção falhar, defina `HSA_OVERRIDE_GFX_VERSION=11.0.0` para placas da série RX 6000.
Apple Silicon: o Ollama usa Metal por padrão -- não precisa de configuração. Confirme com `ollama ps` depois de carregar um modelo; as camadas de GPU aparecem na saída.

Erro 3: Inferência extremamente lenta (menos de 5 tokens por segundo)

Menos de 5 tokens por segundo significa que o modelo está rodando só na CPU ou que o modelo é grande demais para a VRAM disponível. Um modelo 7B na GPU gera 30–80 tok/s; o mesmo modelo na CPU gera 3–10 tok/s.

Confirme se a GPU está ativa: execute `ollama ps` enquanto um modelo estiver carregado. A saída mostra quantas camadas estão na GPU vs. CPU.
Reduza o tamanho do modelo: um modelo 13B na CPU gera 3–6 tok/s. Mudar para 7B dobra a velocidade; mudar para 3B a quadruplica.
Aumente as camadas de GPU no Ollama: defina `OLLAMA_GPU_LAYERS=999` para mover todas as camadas para a GPU (o Ollama limita ao que cabe na VRAM).
Use uma quantização mais rápida: Q4_K_M é a quantização mais rápida que mantém qualidade aceitável. Q8_0 tem qualidade maior, mas é ~30% mais lenta.

Definir camadas de GPU no Ollama

bash

# Definir a variável de ambiente antes de iniciar o Ollama
export OLLAMA_GPU_LAYERS=999
ollama serve

# Ou em um Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999

Erro 4: "Conexão recusada" ao chamar a API

Conexão recusada significa que o Ollama não está em execução -- a API em `localhost:11434` só responde quando o serviço está ativo. Inicie-o antes de fazer chamadas de API.

bash

# Iniciar o Ollama manualmente
ollama serve

# No Linux -- reiniciar o serviço systemd
systemctl restart ollama

# Verificar se está em execução
curl http://localhost:11434
# Esperado: "Ollama is running"

Erro 5: Erro "Modelo não encontrado"

"Modelo não encontrado" significa que o nome do modelo no seu comando não corresponde a nenhum modelo baixado. Os nomes de modelos no Ollama diferenciam maiúsculas de minúsculas e incluem tags de versão.

bash

# Listar todos os modelos baixados
ollama list

# Baixar um modelo se estiver faltando
ollama pull llama3.2

# Verifique o nome exato do modelo -- as tags importam
# "llama3.2" e "llama3.2:3b" são entradas diferentes

Erro 6: Arquivo de modelo corrompido

Arquivos de modelo corrompidos são causados por downloads interrompidos -- exclua e baixe novamente para corrigir. O Ollama nem sempre detecta downloads parciais automaticamente.

bash

# Remover o modelo corrompido
ollama rm llama3.2

# Baixar novamente
ollama pull llama3.2

# Para o LM Studio: exclua os arquivos de modelo manualmente
# Local padrão: ~/.cache/lm-studio/models/

Erro 6b: "Falha ao resolver o modelo" no LM Studio

"Failed to resolve model lmstudio-community/..." significa que o LM Studio não consegue encontrar o modelo no seu registro. Isso geralmente acontece quando um modelo é baixado do `lmstudio-community` no Hugging Face, mas a referência do registro mudou. O LM Studio está usando uma entrada de registro em cache que não corresponde mais aos arquivos de modelo disponíveis.

Abra o LM Studio → aba My Models → clique no menu de três pontos do modelo com falha → selecione "Delete model" (mantém o arquivo, remove o registro)
Procure o mesmo modelo no navegador de modelos e baixe novamente -- o LM Studio vai registrá-lo de novo
Alternativa: feche o LM Studio, navegue até `~/.cache/lm-studio/models/`, exclua a pasta do modelo específico e baixe novamente

bash

# Limpar manualmente o cache de modelos do LM Studio (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>

Erro 6c: "No Compatible Options Available for This Format"

Este erro significa que o arquivo de modelo baixado não está em um formato que o seu backend instalado consegue executar -- não é um download corrompido. Ele aparece quando um arquivo `.safetensors` ou exclusivo de MLX é carregado em um backend baseado em llama.cpp, ou quando um arquivo GGUF precisa de um runtime mais novo do que o instalado.

Verifique o formato do arquivo: o Ollama e o backend padrão do LM Studio executam arquivos GGUF. As builds MLX só funcionam em Apple Silicon com o backend MLX selecionado nas configurações do LM Studio.
Baixe novamente no formato correto: na página do modelo, escolha uma quantização GGUF (por exemplo, Q4_K_M) em vez de um repositório `.safetensors`.
Atualize o LM Studio: esquemas de quantização GGUF mais novos às vezes exigem uma atualização do runtime. Verifique Configurações → Runtime para ver atualizações disponíveis antes de baixar o modelo de novo.

Erro 7: Erros de inicialização de CUDA / ROCm

Erros de CUDA e ROCm indicam incompatibilidade de versão entre driver e biblioteca -- atualize o driver para a versão mínima exigida.

"CUDA driver version insufficient": atualize o driver da NVIDIA. O mínimo para o llama.cpp é CUDA 11.3 / driver 450.80.
"No kernel image available for execution": a arquitetura da sua GPU não é suportada. A série GTX 900 (Maxwell) e anteriores não são suportadas pelas builds recentes do CUDA.
AMD ROCm "HSA_STATUS_ERROR_INVALID_ISA": defina `HSA_OVERRIDE_GFX_VERSION=10.3.0` (para RX 6000) ou `11.0.0` (para RX 7000) antes de iniciar o Ollama.
Verifique a versão do CUDA: execute `nvcc --version` ou `nvidia-smi | grep CUDA`.

Erro 8: Saída corrompida, repetitiva ou sem sentido

Saída corrompida quase sempre significa que você está usando um modelo base em vez de uma variante instruct/chat. Modelos base geram completações de texto bruto, não respostas a perguntas.

Modelos base (por exemplo, `llama3.1:8b`) não são ajustados para conversação e, quando recebem uma pergunta, geram completações brutas que parecem sem sentido. Sempre use a variante instruct: `llama3.1:8b-instruct`. Veja Como instalar o LM Studio para um método baseado em interface gráfica para trocar de variante do modelo.

No Ollama, a tag padrão da maioria dos modelos já aponta para a variante instruct. Se você baixou manualmente do Hugging Face, confirme se o nome do arquivo inclui "Instruct" ou "chat".

Erro 9: "Endereço já em uso" -- Conflito de porta

"Address already in use" significa que outro processo está ocupando a porta 11434 (Ollama) ou 1234 (LM Studio). Encontre e encerre o processo em conflito.

bash

# Encontrar o que está usando a porta 11434 (Ollama)
lsof -i :11434

# Encerrar pelo PID
kill -9 <PID>

# Ou mudar a porta do Ollama
export OLLAMA_HOST=0.0.0.0:11435
ollama serve

Erro 10: O modelo para de gerar no meio da resposta

Parar no meio da resposta é causado por atingir o limite de tamanho de contexto ou por `num_predict` configurado muito baixo. O `num_predict` padrão em muitas configurações é 128 tokens -- suficiente para apenas 1–2 frases.

Aumente o num_predict: esse parâmetro define o número máximo de tokens a gerar. O padrão costuma ser 128. Aumente-o: no Ollama, adicione `PARAMETER num_predict 2048` ao Modelfile.
Verifique a janela de contexto: se sua conversa for muito longa, o modelo pode ter atingido o limite de contexto. Comece uma nova sessão ou use um modelo com uma janela de contexto maior (o Llama 3.2 3B suporta 128K).
Verifique os tokens de parada: alguns Modelfiles incluem sequências de parada que encerram a geração antecipadamente. Verifique o prompt do sistema e o template em busca de padrões de parada inesperados.

Erro 11: "Falha ao carregar o cliente LLM" -- Host remoto inesperado

**Um erro "failed to load LLM client: [host]:443" significa que o aplicativo está tentando acessar um servidor externo via HTTPS -- não a sua instalação local do Ollama ou LM Studio.** O Ollama e o LM Studio nunca contatam um servidor remoto para inferência por padrão; se um cliente mostrar esse erro para um domínio desconhecido, esse aplicativo é um wrapper ou fork de terceiros com um endpoint remoto fixo no código, e esse endpoint está inacessível no momento.

Identifique qual aplicativo está gerando o erro: essa mensagem não vem diretamente do Ollama nem do LM Studio. Verifique as configurações, o README ou o código-fonte do aplicativo em busca de um endpoint de API fixo no código.
Verifique primeiro a sua rede: se o aplicativo realmente precisa chamar um serviço na nuvem, confirme que o firewall, a VPN ou o antivírus não estão bloqueando o tráfego HTTPS de saída na porta 443 para esse host.
Mude para um cliente totalmente local se quiser inferência offline: use o Ollama (`localhost:11434`) ou o LM Studio (`localhost:1234`) diretamente -- nenhum dos dois faz chamadas de saída para nenhum servidor no caso de modelos locais.
Não digite chaves de API nem credenciais em um cliente desconhecido até confirmar o que é o endpoint remoto e por que o aplicativo precisa dele. Desinstale o aplicativo se não conseguir verificar a origem dele.

Leitura relacionada

Quantização de LLM explicada -- Por que Q4_K_M é o padrão e como a quantização afeta a RAM
Guia de hardware para LLM local 2026 -- Requisitos de hardware para rodar modelos de 7B a 70B
Como instalar o Ollama -- Guia de instalação e configuração
Ollama vs. LM Studio -- Comparação das duas ferramentas de LLM local mais populares
Como rodar LLMs locais em um notebook -- Otimização térmica e de bateria específica para notebooks
Melhores modelos de LLM local para iniciantes -- Recomendações de modelos para 8 GB de RAM
Melhores LLMs locais para programação 2026 — Comparativo Qwen3-Coder vs. DeepSeek

Onde encontrar mais ajuda

Para problemas específicos de hardware em notebooks (throttling térmico, consumo de bateria), veja Como rodar LLMs locais em um notebook. Para dúvidas de configuração de segurança e privacidade, veja a Lista de verificação de segurança e privacidade de LLM local. A página de issues do Ollama no GitHub (github.com/ollama/ollama/issues) e o subreddit r/LocalLLaMA são os recursos de comunidade mais ativos para bugs específicos de modelos.

Erros comuns na solução de problemas de LLM local

Confundir erros OOM com falha de hardware -- o erro significa que a RAM é pequena demais para o modelo, não que o hardware está quebrado. Correção: use quantização Q4_K_M ou um modelo menor.
Não verificar a carga do sistema -- a velocidade de inferência cai bastante quando outros aplicativos consomem CPU/GPU. Feche o navegador, o player de vídeo e processos em segundo plano antes de fazer benchmarks.
Ignorar incompatibilidade de versão do driver -- o CUDA da NVIDIA exige versões específicas de driver por versão do CUDA. Verifique a saída do `nvidia-smi`; a versão do driver precisa ser ≥450.80 para o CUDA 11.x.
Usar o nome errado do modelo no Ollama -- `llama3.2` e `llama3.2:3b` são tags diferentes no Ollama. Execute `ollama list` para ver os nomes exatos dos modelos baixados.
Não reiniciar o Ollama depois de atualizar o driver -- o Ollama detecta a GPU na inicialização. Depois de atualizar os drivers da NVIDIA ou ROCm, reinicie o Ollama completamente (`ollama serve`) para detectar a GPU novamente.

Processo de depuração de LLM local em 5 passos: verificar RAM → verificar GPU → verificar servidor → verificar modelo → verificar qualidade da saída. Pare no primeiro passo que falhar.

Fontes

NVIDIA. (2024). "CUDA Toolkit Release Notes." https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/ — Requisitos oficiais de versão de driver CUDA por versão.
Ollama. (2026). "Ollama Troubleshooting." https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md — Documentação oficial do Ollama para erros comuns.
AMD. (2024). "ROCm Installation Guide." https://rocm.docs.amd.com/projects/install-on-linux/en/latest/ — Instalação oficial do AMD ROCm e suporte de GPU para Linux.

Nota sobre informações de terceiros

Este artigo faz referência a modelos de IA, benchmarks, preços e licenças de terceiros. O cenário da IA muda rapidamente. Pontuações de benchmark, termos de licença, nomes de modelos e preços de API podem mudar entre o momento em que foi escrito e quando você está lendo. Antes de tomar decisões de implantação ou conformidade com base neste artigo, verifique os dados atuais na fonte oficial de cada fornecedor: fichas de modelos do Hugging Face para licenças e benchmarks, sites dos fornecedores para preços de API e EUR-Lex para o texto atual do GDPR e da Lei de IA da UE. Este artigo reflete informações publicamente disponíveis em maio de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs