Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/LLMs Locales con VS Code y Cursor: Configuración y Mejores Prácticas
Tools & Interfaces

LLMs Locales con VS Code y Cursor: Configuración y Mejores Prácticas

·10 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

VS Code y Cursor (un editor de código orientado a la IA) pueden usar LLMs locales para completar y sugerir código, mediante la extensión Continue.dev (VS Code) o la integración directa (Cursor). A partir de abril de 2026, las completaciones de código locales son prácticas para modelos 7B-13B y requieren 8-16 GB de RAM. Esta guía cubre la configuración, los mejores modelos y el ajuste del rendimiento.

Key Takeaways

  • VS Code usa la extensión Continue.dev para conectarse a modelos locales (Ollama, LM Studio, vLLM).
  • Cursor es un fork de VS Code con soporte nativo para modelos locales. No necesitas ninguna extensión.
  • Mejores modelos locales para código: Qwen2.5-Coder 7B, Llama Code 13B o Mistral 7B.
  • Espera una latencia de completación de 2-5 segundos en GPUs de consumo con modelos 7B.
  • A partir de abril de 2026, las completaciones de código locales son prácticas para uso personal, pero aún no están listas para producción en equipos.

¿Cómo configurar Continue.dev en VS Code?

Continue.dev es una extensión de VS Code para completaciones de código locales y en la nube.

json
# 1. Install Continue from VS Code marketplace
# Search "Continue" and click Install

# 2. Make sure Ollama is running
ollama serve

# 3. Open Continue settings (Ctrl+Shift+P → Continue: Open Settings)
# config.json opens

# 4. Configure for your local model:
# Replace the default settings with:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Start typing code and press Tab for completions
# Or Ctrl+Shift+\ to manually trigger completions

¿Cómo usar modelos locales en Cursor?

Cursor es un fork de VS Code optimizado para la programación asistida por IA. Tiene soporte integrado para modelos locales mediante Ollama.

bash
# 1. Download Cursor from cursor.sh
# 2. Make sure Ollama is running
ollama serve

# 3. Open Cursor Settings (Cmd/Ctrl + ,)
# 4. Search "Model" and set:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (or your choice)
#    - API Base: "http://localhost:11434"

# 5. Type code and press Tab for inline completions
# 6. Ctrl+K for multi-line completions

¿Qué modelos son los mejores para código?

⚠️ Regla de VRAM: Ten siempre 2-3 GB de VRAM libre por encima de lo que requiere el modelo. Un modelo 7B en Q4 (4,7 GB) necesita 8 GB de VRAM en total al ejecutarse en VS Code o Cursor.

ModeloHumanEvalVRAMVelocidadIdeal para
Qwen2.5-Coder 7B72%4,7 GBRápidoMejor equilibrio, más veloz
Llama Code 7B69%4,7 GBRápidoProgramación general
Mistral 7B61%4,5 GBMuy rápidoLigero, servidores UE
Llama Code 13B74%8,5 GBMedioMejor calidad en máquinas de 16 GB
DeepSeek-Coder 6.7B68%4 GBRápidoAlternativa ligera

¿Qué latencia y VRAM debes esperar?

La latencia de completación (tiempo hasta el primer token) es fundamental para la experiencia en el IDE. A partir de abril de 2026, estos son los valores típicos:

⚠️ Verificación de realidad de la latencia: Las completaciones locales son 2-10× más lentas que las de la nube. Usa lo local para trabajo privado; usa la nube (Copilot, Claude) para programación donde el tiempo importa.

💡 Optimización del rendimiento: Reduce `contextLength` de 2048 a 1024 tokens para reducir la latencia a la mitad. La contrapartida: menos líneas de código de contexto para las sugerencias.

HardwareModeloLatenciaRendimiento
RTX 4090 GPUQwen2.5-Coder 7B0,3-0,5 seg150 tokens/seg
RTX 4070 GPUQwen2.5-Coder 7B0,8-1,5 seg80 tokens/seg
M3 MacBook ProQwen2.5-Coder 7B2-3 seg20 tokens/seg
CPU de 8 núcleos soloQwen2.5-Coder 7B5-10 seg3 tokens/seg

Nota sobre los datos de rendimiento: Latencia y rendimiento medidos con el formato Qwen2.5-Coder 7B Q4_K_M, tamaño de lote = 1, en un sistema sin carga (sin tareas en segundo plano). Tu rendimiento real depende del sistema operativo, la disponibilidad de VRAM, el formato de cuantización y la carga concurrente.

¿Cómo configurar las completaciones de código para obtener el mejor rendimiento?

Ajusta la experiencia con estos parámetros:

⚠️ Advertencia: En máquinas de 8 GB con modelos 13B, las completaciones pueden tardar 5-10 segundos, haciendo que el IDE se sienta poco responsivo. Quédate con los modelos 7B para un rendimiento fluido.

💡 Consejo profesional: Aumenta `debounceWaitMs` a 400-500 ms para reducir el parpadeo y evitar mostrar sugerencias incompletas.

json
# config.json advanced settings
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # How much code context to send
    "maxTokens": 50            # Max tokens per completion
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Wait before showing completions (ms)
  },
  # For faster inference, use smaller context:
  "models": [{
    "contextLength": 1024      # Smaller context = faster
  }]
}

# For best speed on 8GB machines:
# - Use 7B model (not 13B)
# - Set maxTokens to 30
# - Set debounceWaitMs to 500 (less flickering)

¿Cuáles son los errores comunes al configurar completaciones de código locales?

  • No ajustar la latencia de debounce: Si las completaciones se sienten "lentas", aumenta debounceWaitMs (por ejemplo, a 400 ms) para evitar mostrar sugerencias incompletas.
  • Usar un modelo demasiado grande para tu VRAM: Un modelo 13B más la sobrecarga del editor puede usar más de 12 GB. En máquinas de 8 GB, quédate con modelos 7B.
  • Esperar calidad de código al nivel de la nube: GPT-4o es significativamente mejor en código que cualquier modelo 7B. Las completaciones locales representan el 70-80% de la calidad de la nube.
  • Ejecutar la inferencia en CPU: Las completaciones en CPU son poco prácticas (latencia de 5-10 segundos). La GPU es necesaria para obtener completaciones utilizables.

Preguntas frecuentes: Completaciones de código locales

¿Las completaciones de código locales son más rápidas que las de la nube?

No. Las completaciones en la nube (GitHub Copilot) son más rápidas gracias a servidores optimizados. Las completaciones locales tienen mayor latencia, pero tienen coste cero y cero riesgo para la privacidad.

¿Puedo usar completaciones locales con otros IDEs (PyCharm, Neovim)?

Sí, aunque la configuración varía. PyCharm tiene un plugin para Ollama. Para Neovim, usa cmp-ollama (plugin de completaciones). Consulta siempre la comunidad de tu IDE para conocer las integraciones disponibles.

¿Puedo usar modelos en la nube en Continue o Cursor?

Sí. Configura Continue para usar OpenAI, Claude o Gemini. También puedes combinarlos (local para tareas rápidas, nube para código complejo).

¿Las completaciones de código locales funcionan sin conexión?

Sí. Si has descargado el modelo en Ollama, las completaciones funcionan completamente sin conexión.

Lecturas relacionadas

Fuentes

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

LLMs Locales en VS Code y Cursor: Guía de Configuración 2026