Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/LLMs Locais com VS Code e Cursor: Configuração e Boas Práticas
Tools & Interfaces

LLMs Locais com VS Code e Cursor: Configuração e Boas Práticas

·10 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

O VS Code e o Cursor (um editor de código voltado para IA) podem usar LLMs locais para completar e sugerir código, via extensão Continue.dev (VS Code) ou integração direta (Cursor). A partir de abril de 2026, os completamentos de código locais são práticos para modelos 7B-13B e exigem 8-16 GB de RAM. Este guia cobre a configuração, os melhores modelos e o ajuste de desempenho.

Key Takeaways

  • O VS Code usa a extensão Continue.dev para se conectar a modelos locais (Ollama, LM Studio, vLLM).
  • O Cursor é um fork do VS Code com suporte nativo a modelos locais. Você não precisa de nenhuma extensão.
  • Melhores modelos locais para código: Qwen3-Coder 7B, Llama Code 13B ou Mistral Small.
  • Espere uma latência de completamento de 2-5 segundos em GPUs de consumo com modelos 7B.
  • A partir de abril de 2026, os completamentos de código locais são práticos para uso pessoal, mas ainda não estão prontos para produção em equipes.

Como configurar o Continue.dev no VS Code?

O Continue.dev é uma extensão do VS Code para completamentos de código locais e em nuvem.

json
# 1. Install Continue from VS Code marketplace
# Search "Continue" and click Install

# 2. Make sure Ollama is running
ollama serve

# 3. Open Continue settings (Ctrl+Shift+P → Continue: Open Settings)
# config.json opens

# 4. Configure for your local model:
# Replace the default settings with:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Start typing code and press Tab for completions
# Or Ctrl+Shift+\ to manually trigger completions

Como usar modelos locais no Cursor?

O Cursor é um fork do VS Code otimizado para a programação assistida por IA. Ele tem suporte integrado a modelos locais via Ollama.

bash
# 1. Download Cursor from cursor.sh
# 2. Make sure Ollama is running
ollama serve

# 3. Open Cursor Settings (Cmd/Ctrl + ,)
# 4. Search "Model" and set:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (or your choice)
#    - API Base: "http://localhost:11434"

# 5. Type code and press Tab for inline completions
# 6. Ctrl+K for multi-line completions

Quais modelos são os melhores para código?

⚠️ Regra de VRAM: Tenha sempre 2-3 GB de VRAM livre acima do que o modelo exige. Um modelo 7B em Q4 (4,7 GB) precisa de 8 GB de VRAM no total ao rodar no VS Code ou no Cursor.

ModeloHumanEvalVRAMVelocidadeIdeal para
Qwen3-Coder 7B72%4,7 GBRápidoMelhor equilíbrio, mais veloz
Llama Code 7B69%4,7 GBRápidoProgramação geral
Mistral Small61%4,5 GBMuito rápidoLeve, servidores UE
Llama Code 13B74%8,5 GBMédioMelhor qualidade em máquinas de 16 GB
DeepSeek-Coder 6.7B68%4 GBRápidoAlternativa leve

Que latência e VRAM você deve esperar?

A latência de completamento (tempo até o primeiro token) é fundamental para a experiência no IDE. A partir de abril de 2026, estes são os valores típicos:

⚠️ Verificação de realidade da latência: Os completamentos locais são 2-10× mais lentos que os da nuvem. Use o local para trabalho privado; use a nuvem (Copilot, Claude) para programação em que o tempo importa.

💡 Otimização do desempenho: Reduza o `contextLength` de 2048 para 1024 tokens para reduzir a latência pela metade. O contraponto: menos linhas de código de contexto para as sugestões.

HardwareModeloLatênciaVazão
RTX 4090 GPUQwen3-Coder 7B0,3-0,5 seg150 tokens/seg
RTX 4070 GPUQwen3-Coder 7B0,8-1,5 seg80 tokens/seg
M3 MacBook ProQwen3-Coder 7B2-3 seg20 tokens/seg
CPU de 8 núcleos apenasQwen3-Coder 7B5-10 seg3 tokens/seg

Nota sobre os dados de desempenho: Latência e vazão medidas com o formato Qwen3-Coder 7B Q4_K_M, batch size = 1, em um sistema sem carga (sem tarefas em segundo plano). Sua vazão real depende do sistema operacional, da disponibilidade de VRAM, do formato de quantização e da carga concorrente.

Como configurar os completamentos de código para o melhor desempenho?

Ajuste a experiência com estes parâmetros:

⚠️ Aviso: Em máquinas de 8 GB com modelos 13B, os completamentos podem levar 5-10 segundos, deixando o IDE pouco responsivo. Fique com os modelos 7B para um desempenho fluido.

💡 Dica profissional: Aumente o `debounceWaitMs` para 400-500 ms para reduzir o flicker e evitar mostrar sugestões incompletas.

json
# config.json advanced settings
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # How much code context to send
    "maxTokens": 50            # Max tokens per completion
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Wait before showing completions (ms)
  },
  # For faster inference, use smaller context:
  "models": [{
    "contextLength": 1024      # Smaller context = faster
  }]
}

# For best speed on 8GB machines:
# - Use 7B model (not 13B)
# - Set maxTokens to 30
# - Set debounceWaitMs to 500 (less flickering)

Quais são os erros comuns ao configurar completamentos de código locais?

  • Não ajustar a latência de debounce: Se os completamentos parecerem "lentos", aumente o debounceWaitMs (por exemplo, para 400 ms) para evitar mostrar sugestões incompletas.
  • Usar um modelo grande demais para a sua VRAM: Um modelo 13B mais o overhead do editor pode usar mais de 12 GB. Em máquinas de 8 GB, fique com modelos 7B.
  • Esperar qualidade de código no nível da nuvem: O GPT-5.5 é significativamente melhor em código que qualquer modelo 7B. Os completamentos locais representam 70-80% da qualidade da nuvem.
  • Rodar a inferência na CPU: Os completamentos na CPU são pouco práticos (latência de 5-10 segundos). A GPU é necessária para completamentos utilizáveis.

Perguntas frequentes: Completamentos de código locais

Os completamentos de código locais são mais rápidos que os da nuvem?

Não. Os completamentos na nuvem (GitHub Copilot) são mais rápidos graças a servidores otimizados. Os completamentos locais têm maior latência, mas têm custo zero e risco zero para a privacidade.

Posso usar completamentos locais com outros IDEs (PyCharm, Neovim)?

Sim, embora a configuração varie. O PyCharm tem um plugin para o Ollama. Para o Neovim, use o cmp-ollama (plugin de completamentos). Consulte sempre a comunidade do seu IDE para conhecer as integrações disponíveis.

Posso usar modelos em nuvem no Continue ou no Cursor?

Sim. Configure o Continue para usar OpenAI, Claude ou Gemini. Você também pode combiná-los (local para tarefas rápidas, nuvem para código complexo).

Os completamentos de código locais funcionam offline?

Sim. Se você baixou o modelo no Ollama, os completamentos funcionam totalmente offline.

Leituras relacionadas

Fontes

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen3-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen3-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

LLMs Locais no VS Code e Cursor: Guia de Configuração 2026