VS Code et Cursor (un éditeur de code axé sur l'IA) peuvent tous deux utiliser des LLM locaux pour les complétions et suggestions de code, via l'extension Continue.dev (VS Code) ou l'intégration directe (Cursor). Depuis avril 2026, les complétions de code locales sont pratiques pour les modèles 7B-13B et nécessitent 8-16 Go de RAM. Ce guide couvre la configuration, les meilleurs modèles et l'optimisation des performances.

Points clés

VS Code utilise l'extension Continue.dev pour se connecter aux modèles locaux (Ollama, LM Studio, vLLM).
Cursor est un fork VS Code avec support de modèle local intégré. Aucune extension requise.
Meilleurs modèles locaux pour le code : Qwen2.5-Coder 7B, Llama Code 13B ou Mistral 7B.
Attendez-vous à 2-5 secondes de latence de complétude sur les GPU grand public avec des modèles 7B.
Depuis avril 2026, les complétions de code locales sont pratiques pour usage personnel, pas encore prêtes pour la production d'équipe.

Comment configurer Continue.dev dans VS Code ?

Continue.dev est une extension VS Code pour les complétions de code locales et cloud.

json

# 1. Installez Continue depuis la marketplace VS Code
# Recherchez "Continue" et cliquez sur Installer

# 2. Assurez-vous qu'Ollama fonctionne
ollama serve

# 3. Ouvrez les paramètres de Continue (Ctrl+Maj+P → Continue: Ouvrir les paramètres)
# config.json s'ouvre

# 4. Configurez pour votre modèle local :
# Remplacez les paramètres par défaut :
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Commencez à coder et appuyez sur Tab pour les complétions
# Ou Ctrl+Maj+\ pour déclencher manuellement les complétions

Comment utiliser des modèles locaux dans Cursor ?

Cursor est un fork VS Code optimisé pour le codage assisté par IA. Il dispose du support intégré des modèles locaux via Ollama.

bash

# 1. Téléchargez Cursor depuis cursor.sh
# 2. Assurez-vous qu'Ollama fonctionne
ollama serve

# 3. Ouvrez les paramètres de Cursor (Cmd/Ctrl + ,)
# 4. Recherchez "Model" et définissez :
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (ou votre choix)
#    - API Base: "http://localhost:11434"

# 5. Tapez du code et appuyez sur Tab pour les complétions inline
# 6. Ctrl+K pour les complétions multiligne

Quels modèles conviennent le mieux au code ?

⚠️ Règle RAM : Ayez toujours 2-3 Go de RAM libre de plus que ce que le modèle nécessite. Un modèle 7B en Q4 (4,7 Go) nécessite 8 Go de RAM totale lors de l'exécution dans VS Code ou Cursor.

Modèle	HumanEval	RAM	Vitesse	Meilleur pour
Qwen2.5-Coder 7B	72%	4,7 Go	Rapide	Meilleur équilibre, le plus rapide
Llama Code 7B	69%	4,7 Go	Rapide	Codage général
Mistral 7B	61%	4,5 Go	Très rapide	Léger, serveurs UE
Llama Code 13B	74%	8,5 Go	Moyen	Meilleure qualité sur 16Go
DeepSeek-Coder 6,7B	68%	4 Go	Rapide	Alternative légère

Quelle latence et quelle RAM devez-vous attendre ?

La latence de complétude (temps jusqu'au premier jeton) est critique pour l'expérience de l'IDE. À partir d'avril 2026, voici les chiffres typiques :

⚠️ Vérification de la réalité de la latence : Les complétions locales sont 2-10× plus lentes que le cloud. Utilisez le local pour le travail privé ; utilisez le cloud (Copilot, Claude) pour le codage sensible au temps.

💡 Optimisation des performances : Réduisez `contextLength` de 2048 à 1024 jetons pour réduire la latence de moitié. Compromis : moins de lignes de code dans le contexte pour les suggestions.

Matériel	Modèle	Latence	Débit
RTX 4090 GPU	Qwen2.5-Coder 7B	0,3-0,5 sec	150 jetons/sec
RTX 4070 GPU	Qwen2.5-Coder 7B	0,8-1,5 sec	80 jetons/sec
M3 MacBook Pro	Qwen2.5-Coder 7B	2-3 sec	20 jetons/sec
CPU 8 cœurs uniquement	Qwen2.5-Coder 7B	5-10 sec	3 jetons/sec

Remarque sur les données de performance : Latence et débit mesurés avec format Qwen2.5-Coder 7B Q4_K_M, taille de lot = 1, sur système frais (pas de tâches en arrière-plan). Vos performances réelles dépendent du SE, de la disponibilité RAM, du format de quantification et de la charge simultanée.

Comment configurez-vous les complétions de code pour les performances ?

Affinez l'expérience avec ces paramètres :

⚠️ Avertissement : Sur les machines 8Go avec des modèles 13B, les complétions peuvent prendre 5-10 secondes, ce qui rend l'IDE peu réactif. Restez avec les modèles 7B pour une performance fluide.

💡 Conseil pro : Augmentez `debounceWaitMs` à 400-500 ms pour réduire le scintillement et éviter d'afficher des suggestions incomplètes.

json

# Paramètres avancés config.json
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # Combien de contexte de code envoyer
    "maxTokens": 50            # Jetons max par complétude
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Attendre avant d'afficher (ms)
  },
  # Pour une inférence plus rapide, utilisez un contexte plus petit :
  "models": [{
    "contextLength": 1024      # Contexte plus petit = plus rapide
  }]
}

# Pour la meilleure vitesse sur machines 8Go :
# - Utilisez le modèle 7B (pas 13B)
# - Réglez maxTokens sur 30
# - Réglez debounceWaitMs sur 500 (moins de scintillement)

Quelles sont les erreurs courantes lors de la configuration des complétions de code local ?

Ne pas optimiser la latence de debounce : Si les complétions semblent « lentes », augmentez debounceWaitMs (par exemple à 400 ms) pour éviter les suggestions incomplètes.
Utiliser un modèle trop grand pour votre RAM : Un modèle 13B + surcharge d'éditeur peut utiliser 12+ Go. Sur les machines 8Go, restez avec les modèles 7B.
Attendre une qualité de code au niveau du cloud : GPT-4o est bien meilleur pour le code que n'importe quel modèle 7B. Les complétions locales représentent 70-80% de la qualité cloud.
Exécution de l'inférence sur CPU : Les complétions CPU sont impratiques (latence 5-10 secondes). GPU est requis pour les complétions utilisables.

FAQ : Complétions de code locales

Les complétions de code locales sont-elles plus rapides que le cloud ?

Non. Les complétions cloud (GitHub Copilot) sont plus rapides en raison des serveurs optimisés. Les complétions locales ont une latence plus élevée mais zéro coût et zéro risque de confidentialité.

Puis-je utiliser les complétions locales avec d'autres IDE (PyCharm, Neovim) ?

Oui, mais la configuration varie. PyCharm a un plugin Ollama. Pour Neovim, utilisez cmp-ollama (plugin de complétions). Vérifiez toujours auprès de la communauté IDE les intégrations.

Puis-je utiliser les modèles cloud dans Continue ou Cursor ?

Oui. Configurez Continue pour utiliser OpenAI, Claude ou Gemini. Vous pouvez également mélanger (local pour rapide, cloud pour code complexe).

Les complétions de code locales fonctionnent-elles hors ligne ?

Oui. Si vous avez tiré le modèle dans Ollama, les complétions fonctionnent entièrement hors ligne.

Lectures connexes

Stack LLM Développeur Local -- Stack complet avec serveur API et monitoring de production au-delà de l'intégration IDE.
Installer Ollama -- Configurer Ollama pour les complétions de code.
Meilleurs LLM locaux pour le codage -- Benchmark détaillé du modèle de codage.
How to Install LM Studio -- Quel outil utiliser.
API compatible OpenAI LLM local -- APIs de complétions de code.

Sources

Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

LLM Locaux avec VS Code et Cursor : Configuration et Bonnes Pratiques