Key Takeaways
- O VS Code usa a extensão Continue.dev para se conectar a modelos locais (Ollama, LM Studio, vLLM).
- O Cursor é um fork do VS Code com suporte nativo a modelos locais. Você não precisa de nenhuma extensão.
- Melhores modelos locais para código: Qwen3-Coder 7B, Llama Code 13B ou Mistral Small.
- Espere uma latência de completamento de 2-5 segundos em GPUs de consumo com modelos 7B.
- A partir de abril de 2026, os completamentos de código locais são práticos para uso pessoal, mas ainda não estão prontos para produção em equipes.
Como configurar o Continue.dev no VS Code?
O Continue.dev é uma extensão do VS Code para completamentos de código locais e em nuvem.
# 1. Install Continue from VS Code marketplace
# Search "Continue" and click Install
# 2. Make sure Ollama is running
ollama serve
# 3. Open Continue settings (Ctrl+Shift+P → Continue: Open Settings)
# config.json opens
# 4. Configure for your local model:
# Replace the default settings with:
{
"models": [{
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"apiBase": "http://localhost:11434"
}],
"tabAutocompleteModel": {
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
# 5. Start typing code and press Tab for completions
# Or Ctrl+Shift+\ to manually trigger completionsComo usar modelos locais no Cursor?
O Cursor é um fork do VS Code otimizado para a programação assistida por IA. Ele tem suporte integrado a modelos locais via Ollama.
# 1. Download Cursor from cursor.sh
# 2. Make sure Ollama is running
ollama serve
# 3. Open Cursor Settings (Cmd/Ctrl + ,)
# 4. Search "Model" and set:
# - Model Provider: "Ollama"
# - Model: "qwen2.5-coder:7b" (or your choice)
# - API Base: "http://localhost:11434"
# 5. Type code and press Tab for inline completions
# 6. Ctrl+K for multi-line completionsQuais modelos são os melhores para código?
⚠️ Regra de VRAM: Tenha sempre 2-3 GB de VRAM livre acima do que o modelo exige. Um modelo 7B em Q4 (4,7 GB) precisa de 8 GB de VRAM no total ao rodar no VS Code ou no Cursor.
| Modelo | HumanEval | VRAM | Velocidade | Ideal para |
|---|---|---|---|---|
| Qwen3-Coder 7B | 72% | 4,7 GB | Rápido | Melhor equilíbrio, mais veloz |
| Llama Code 7B | 69% | 4,7 GB | Rápido | Programação geral |
| Mistral Small | 61% | 4,5 GB | Muito rápido | Leve, servidores UE |
| Llama Code 13B | 74% | 8,5 GB | Médio | Melhor qualidade em máquinas de 16 GB |
| DeepSeek-Coder 6.7B | 68% | 4 GB | Rápido | Alternativa leve |
Que latência e VRAM você deve esperar?
A latência de completamento (tempo até o primeiro token) é fundamental para a experiência no IDE. A partir de abril de 2026, estes são os valores típicos:
⚠️ Verificação de realidade da latência: Os completamentos locais são 2-10× mais lentos que os da nuvem. Use o local para trabalho privado; use a nuvem (Copilot, Claude) para programação em que o tempo importa.
💡 Otimização do desempenho: Reduza o `contextLength` de 2048 para 1024 tokens para reduzir a latência pela metade. O contraponto: menos linhas de código de contexto para as sugestões.
| Hardware | Modelo | Latência | Vazão |
|---|---|---|---|
| RTX 4090 GPU | Qwen3-Coder 7B | 0,3-0,5 seg | 150 tokens/seg |
| RTX 4070 GPU | Qwen3-Coder 7B | 0,8-1,5 seg | 80 tokens/seg |
| M3 MacBook Pro | Qwen3-Coder 7B | 2-3 seg | 20 tokens/seg |
| CPU de 8 núcleos apenas | Qwen3-Coder 7B | 5-10 seg | 3 tokens/seg |
Nota sobre os dados de desempenho: Latência e vazão medidas com o formato Qwen3-Coder 7B Q4_K_M, batch size = 1, em um sistema sem carga (sem tarefas em segundo plano). Sua vazão real depende do sistema operacional, da disponibilidade de VRAM, do formato de quantização e da carga concorrente.
Como configurar os completamentos de código para o melhor desempenho?
Ajuste a experiência com estes parâmetros:
⚠️ Aviso: Em máquinas de 8 GB com modelos 13B, os completamentos podem levar 5-10 segundos, deixando o IDE pouco responsivo. Fique com os modelos 7B para um desempenho fluido.
💡 Dica profissional: Aumente o `debounceWaitMs` para 400-500 ms para reduzir o flicker e evitar mostrar sugestões incompletas.
# config.json advanced settings
{
"tabAutocompleteModel": {
"contextLength": 2048, # How much code context to send
"maxTokens": 50 # Max tokens per completion
},
"completionOptions": {
"maxContextTokens": 1024,
"maxSuggestionsCount": 5,
"debounceWaitMs": 200 # Wait before showing completions (ms)
},
# For faster inference, use smaller context:
"models": [{
"contextLength": 1024 # Smaller context = faster
}]
}
# For best speed on 8GB machines:
# - Use 7B model (not 13B)
# - Set maxTokens to 30
# - Set debounceWaitMs to 500 (less flickering)Quais são os erros comuns ao configurar completamentos de código locais?
- Não ajustar a latência de debounce: Se os completamentos parecerem "lentos", aumente o debounceWaitMs (por exemplo, para 400 ms) para evitar mostrar sugestões incompletas.
- Usar um modelo grande demais para a sua VRAM: Um modelo 13B mais o overhead do editor pode usar mais de 12 GB. Em máquinas de 8 GB, fique com modelos 7B.
- Esperar qualidade de código no nível da nuvem: O GPT-5.5 é significativamente melhor em código que qualquer modelo 7B. Os completamentos locais representam 70-80% da qualidade da nuvem.
- Rodar a inferência na CPU: Os completamentos na CPU são pouco práticos (latência de 5-10 segundos). A GPU é necessária para completamentos utilizáveis.
Perguntas frequentes: Completamentos de código locais
Os completamentos de código locais são mais rápidos que os da nuvem?
Não. Os completamentos na nuvem (GitHub Copilot) são mais rápidos graças a servidores otimizados. Os completamentos locais têm maior latência, mas têm custo zero e risco zero para a privacidade.
Posso usar completamentos locais com outros IDEs (PyCharm, Neovim)?
Sim, embora a configuração varie. O PyCharm tem um plugin para o Ollama. Para o Neovim, use o cmp-ollama (plugin de completamentos). Consulte sempre a comunidade do seu IDE para conhecer as integrações disponíveis.
Posso usar modelos em nuvem no Continue ou no Cursor?
Sim. Configure o Continue para usar OpenAI, Claude ou Gemini. Você também pode combiná-los (local para tarefas rápidas, nuvem para código complexo).
Os completamentos de código locais funcionam offline?
Sim. Se você baixou o modelo no Ollama, os completamentos funcionam totalmente offline.
Leituras relacionadas
- Melhor assistente de código com IA para LLM local -- Comparativo completo de Cursor, Continue.dev, Cody, Tabnine e Windsurf com suporte a LLM local.
- Stack de desenvolvedor com LLM local -- O stack completo que inclui configuração do servidor de API e monitoramento em produção, além da integração com o IDE.
- Como instalar o Ollama -- Configure o Ollama para completamentos de código.
- Melhores LLMs locais para programação -- Benchmark detalhado de modelos de código.
- Como instalar o LM Studio -- Qual ferramenta usar.
- API compatível com OpenAI para LLM local -- APIs para completamentos de código.
Fontes
- Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
- Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
- Alibaba Qwen Team. (2025). "Qwen3-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen3-Coder variants.
- DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.