PromptQuorumPromptQuorum
Accueil/LLMs locaux/LLM Locaux avec VS Code et Cursor : Configuration et Bonnes Pratiques
Tools & Interfaces

LLM Locaux avec VS Code et Cursor : Configuration et Bonnes Pratiques

·9 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

VS Code et Cursor (un éditeur de code axé sur l'IA) peuvent tous deux utiliser des LLM locaux pour les complétions et suggestions de code, via l'extension Continue.dev (VS Code) ou l'intégration directe (Cursor). Depuis avril 2026, les complétions de code locales sont pratiques pour les modèles 7B-13B et nécessitent 8-16 Go de RAM. Ce guide couvre la configuration, les meilleurs modèles et l'optimisation des performances.

Points clés

  • VS Code utilise l'extension Continue.dev pour se connecter aux modèles locaux (Ollama, LM Studio, vLLM).
  • Cursor est un fork VS Code avec support de modèle local intégré. Aucune extension requise.
  • Meilleurs modèles locaux pour le code : Qwen2.5-Coder 7B, Llama Code 13B ou Mistral 7B.
  • Attendez-vous à 2-5 secondes de latence de complétude sur les GPU grand public avec des modèles 7B.
  • Depuis avril 2026, les complétions de code locales sont pratiques pour usage personnel, pas encore prêtes pour la production d'équipe.

Comment configurer Continue.dev dans VS Code ?

Continue.dev est une extension VS Code pour les complétions de code locales et cloud.

json
# 1. Installez Continue depuis la marketplace VS Code
# Recherchez "Continue" et cliquez sur Installer

# 2. Assurez-vous qu'Ollama fonctionne
ollama serve

# 3. Ouvrez les paramètres de Continue (Ctrl+Maj+P → Continue: Ouvrir les paramètres)
# config.json s'ouvre

# 4. Configurez pour votre modèle local :
# Remplacez les paramètres par défaut :
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Commencez à coder et appuyez sur Tab pour les complétions
# Ou Ctrl+Maj+\ pour déclencher manuellement les complétions

Comment utiliser des modèles locaux dans Cursor ?

Cursor est un fork VS Code optimisé pour le codage assisté par IA. Il dispose du support intégré des modèles locaux via Ollama.

bash
# 1. Téléchargez Cursor depuis cursor.sh
# 2. Assurez-vous qu'Ollama fonctionne
ollama serve

# 3. Ouvrez les paramètres de Cursor (Cmd/Ctrl + ,)
# 4. Recherchez "Model" et définissez :
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (ou votre choix)
#    - API Base: "http://localhost:11434"

# 5. Tapez du code et appuyez sur Tab pour les complétions inline
# 6. Ctrl+K pour les complétions multiligne

Quels modèles conviennent le mieux au code ?

⚠️ Règle RAM : Ayez toujours 2-3 Go de RAM libre de plus que ce que le modèle nécessite. Un modèle 7B en Q4 (4,7 Go) nécessite 8 Go de RAM totale lors de l'exécution dans VS Code ou Cursor.

ModèleHumanEvalRAMVitesseMeilleur pour
Qwen2.5-Coder 7B72%4,7 GoRapideMeilleur équilibre, le plus rapide
Llama Code 7B69%4,7 GoRapideCodage général
Mistral 7B61%4,5 GoTrès rapideLéger, serveurs UE
Llama Code 13B74%8,5 GoMoyenMeilleure qualité sur 16Go
DeepSeek-Coder 6,7B68%4 GoRapideAlternative légère

Quelle latence et quelle RAM devez-vous attendre ?

La latence de complétude (temps jusqu'au premier jeton) est critique pour l'expérience de l'IDE. À partir d'avril 2026, voici les chiffres typiques :

⚠️ Vérification de la réalité de la latence : Les complétions locales sont 2-10× plus lentes que le cloud. Utilisez le local pour le travail privé ; utilisez le cloud (Copilot, Claude) pour le codage sensible au temps.

💡 Optimisation des performances : Réduisez `contextLength` de 2048 à 1024 jetons pour réduire la latence de moitié. Compromis : moins de lignes de code dans le contexte pour les suggestions.

MatérielModèleLatenceDébit
RTX 4090 GPUQwen2.5-Coder 7B0,3-0,5 sec150 jetons/sec
RTX 4070 GPUQwen2.5-Coder 7B0,8-1,5 sec80 jetons/sec
M3 MacBook ProQwen2.5-Coder 7B2-3 sec20 jetons/sec
CPU 8 cœurs uniquementQwen2.5-Coder 7B5-10 sec3 jetons/sec

Remarque sur les données de performance : Latence et débit mesurés avec format Qwen2.5-Coder 7B Q4_K_M, taille de lot = 1, sur système frais (pas de tâches en arrière-plan). Vos performances réelles dépendent du SE, de la disponibilité RAM, du format de quantification et de la charge simultanée.

Comment configurez-vous les complétions de code pour les performances ?

Affinez l'expérience avec ces paramètres :

⚠️ Avertissement : Sur les machines 8Go avec des modèles 13B, les complétions peuvent prendre 5-10 secondes, ce qui rend l'IDE peu réactif. Restez avec les modèles 7B pour une performance fluide.

💡 Conseil pro : Augmentez `debounceWaitMs` à 400-500 ms pour réduire le scintillement et éviter d'afficher des suggestions incomplètes.

json
# Paramètres avancés config.json
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # Combien de contexte de code envoyer
    "maxTokens": 50            # Jetons max par complétude
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Attendre avant d'afficher (ms)
  },
  # Pour une inférence plus rapide, utilisez un contexte plus petit :
  "models": [{
    "contextLength": 1024      # Contexte plus petit = plus rapide
  }]
}

# Pour la meilleure vitesse sur machines 8Go :
# - Utilisez le modèle 7B (pas 13B)
# - Réglez maxTokens sur 30
# - Réglez debounceWaitMs sur 500 (moins de scintillement)

Quelles sont les erreurs courantes lors de la configuration des complétions de code local ?

  • Ne pas optimiser la latence de debounce : Si les complétions semblent « lentes », augmentez debounceWaitMs (par exemple à 400 ms) pour éviter les suggestions incomplètes.
  • Utiliser un modèle trop grand pour votre RAM : Un modèle 13B + surcharge d'éditeur peut utiliser 12+ Go. Sur les machines 8Go, restez avec les modèles 7B.
  • Attendre une qualité de code au niveau du cloud : GPT-4o est bien meilleur pour le code que n'importe quel modèle 7B. Les complétions locales représentent 70-80% de la qualité cloud.
  • Exécution de l'inférence sur CPU : Les complétions CPU sont impratiques (latence 5-10 secondes). GPU est requis pour les complétions utilisables.

FAQ : Complétions de code locales

Les complétions de code locales sont-elles plus rapides que le cloud ?

Non. Les complétions cloud (GitHub Copilot) sont plus rapides en raison des serveurs optimisés. Les complétions locales ont une latence plus élevée mais zéro coût et zéro risque de confidentialité.

Puis-je utiliser les complétions locales avec d'autres IDE (PyCharm, Neovim) ?

Oui, mais la configuration varie. PyCharm a un plugin Ollama. Pour Neovim, utilisez cmp-ollama (plugin de complétions). Vérifiez toujours auprès de la communauté IDE les intégrations.

Puis-je utiliser les modèles cloud dans Continue ou Cursor ?

Oui. Configurez Continue pour utiliser OpenAI, Claude ou Gemini. Vous pouvez également mélanger (local pour rapide, cloud pour code complexe).

Les complétions de code locales fonctionnent-elles hors ligne ?

Oui. Si vous avez tiré le modèle dans Ollama, les complétions fonctionnent entièrement hors ligne.

Lectures connexes

Sources

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

LLM Locaux dans VS Code & Cursor : Configuration 2026