Points clés
- VS Code utilise l'extension Continue.dev pour se connecter aux modèles locaux (Ollama, LM Studio, vLLM).
- Cursor est un fork VS Code avec support de modèle local intégré. Aucune extension requise.
- Meilleurs modèles locaux pour le code : Qwen2.5-Coder 7B, Llama Code 13B ou Mistral 7B.
- Attendez-vous à 2-5 secondes de latence de complétude sur les GPU grand public avec des modèles 7B.
- Depuis avril 2026, les complétions de code locales sont pratiques pour usage personnel, pas encore prêtes pour la production d'équipe.
Comment configurer Continue.dev dans VS Code ?
Continue.dev est une extension VS Code pour les complétions de code locales et cloud.
# 1. Installez Continue depuis la marketplace VS Code
# Recherchez "Continue" et cliquez sur Installer
# 2. Assurez-vous qu'Ollama fonctionne
ollama serve
# 3. Ouvrez les paramètres de Continue (Ctrl+Maj+P → Continue: Ouvrir les paramètres)
# config.json s'ouvre
# 4. Configurez pour votre modèle local :
# Remplacez les paramètres par défaut :
{
"models": [{
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"apiBase": "http://localhost:11434"
}],
"tabAutocompleteModel": {
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
# 5. Commencez à coder et appuyez sur Tab pour les complétions
# Ou Ctrl+Maj+\ pour déclencher manuellement les complétionsComment utiliser des modèles locaux dans Cursor ?
Cursor est un fork VS Code optimisé pour le codage assisté par IA. Il dispose du support intégré des modèles locaux via Ollama.
# 1. Téléchargez Cursor depuis cursor.sh
# 2. Assurez-vous qu'Ollama fonctionne
ollama serve
# 3. Ouvrez les paramètres de Cursor (Cmd/Ctrl + ,)
# 4. Recherchez "Model" et définissez :
# - Model Provider: "Ollama"
# - Model: "qwen2.5-coder:7b" (ou votre choix)
# - API Base: "http://localhost:11434"
# 5. Tapez du code et appuyez sur Tab pour les complétions inline
# 6. Ctrl+K pour les complétions multiligneQuels modèles conviennent le mieux au code ?
⚠️ Règle RAM : Ayez toujours 2-3 Go de RAM libre de plus que ce que le modèle nécessite. Un modèle 7B en Q4 (4,7 Go) nécessite 8 Go de RAM totale lors de l'exécution dans VS Code ou Cursor.
| Modèle | HumanEval | RAM | Vitesse | Meilleur pour |
|---|---|---|---|---|
| Qwen2.5-Coder 7B | 72% | 4,7 Go | Rapide | Meilleur équilibre, le plus rapide |
| Llama Code 7B | 69% | 4,7 Go | Rapide | Codage général |
| Mistral 7B | 61% | 4,5 Go | Très rapide | Léger, serveurs UE |
| Llama Code 13B | 74% | 8,5 Go | Moyen | Meilleure qualité sur 16Go |
| DeepSeek-Coder 6,7B | 68% | 4 Go | Rapide | Alternative légère |
Quelle latence et quelle RAM devez-vous attendre ?
La latence de complétude (temps jusqu'au premier jeton) est critique pour l'expérience de l'IDE. À partir d'avril 2026, voici les chiffres typiques :
⚠️ Vérification de la réalité de la latence : Les complétions locales sont 2-10× plus lentes que le cloud. Utilisez le local pour le travail privé ; utilisez le cloud (Copilot, Claude) pour le codage sensible au temps.
💡 Optimisation des performances : Réduisez `contextLength` de 2048 à 1024 jetons pour réduire la latence de moitié. Compromis : moins de lignes de code dans le contexte pour les suggestions.
| Matériel | Modèle | Latence | Débit |
|---|---|---|---|
| RTX 4090 GPU | Qwen2.5-Coder 7B | 0,3-0,5 sec | 150 jetons/sec |
| RTX 4070 GPU | Qwen2.5-Coder 7B | 0,8-1,5 sec | 80 jetons/sec |
| M3 MacBook Pro | Qwen2.5-Coder 7B | 2-3 sec | 20 jetons/sec |
| CPU 8 cœurs uniquement | Qwen2.5-Coder 7B | 5-10 sec | 3 jetons/sec |
Remarque sur les données de performance : Latence et débit mesurés avec format Qwen2.5-Coder 7B Q4_K_M, taille de lot = 1, sur système frais (pas de tâches en arrière-plan). Vos performances réelles dépendent du SE, de la disponibilité RAM, du format de quantification et de la charge simultanée.
Comment configurez-vous les complétions de code pour les performances ?
Affinez l'expérience avec ces paramètres :
⚠️ Avertissement : Sur les machines 8Go avec des modèles 13B, les complétions peuvent prendre 5-10 secondes, ce qui rend l'IDE peu réactif. Restez avec les modèles 7B pour une performance fluide.
💡 Conseil pro : Augmentez `debounceWaitMs` à 400-500 ms pour réduire le scintillement et éviter d'afficher des suggestions incomplètes.
# Paramètres avancés config.json
{
"tabAutocompleteModel": {
"contextLength": 2048, # Combien de contexte de code envoyer
"maxTokens": 50 # Jetons max par complétude
},
"completionOptions": {
"maxContextTokens": 1024,
"maxSuggestionsCount": 5,
"debounceWaitMs": 200 # Attendre avant d'afficher (ms)
},
# Pour une inférence plus rapide, utilisez un contexte plus petit :
"models": [{
"contextLength": 1024 # Contexte plus petit = plus rapide
}]
}
# Pour la meilleure vitesse sur machines 8Go :
# - Utilisez le modèle 7B (pas 13B)
# - Réglez maxTokens sur 30
# - Réglez debounceWaitMs sur 500 (moins de scintillement)Quelles sont les erreurs courantes lors de la configuration des complétions de code local ?
- Ne pas optimiser la latence de debounce : Si les complétions semblent « lentes », augmentez debounceWaitMs (par exemple à 400 ms) pour éviter les suggestions incomplètes.
- Utiliser un modèle trop grand pour votre RAM : Un modèle 13B + surcharge d'éditeur peut utiliser 12+ Go. Sur les machines 8Go, restez avec les modèles 7B.
- Attendre une qualité de code au niveau du cloud : GPT-4o est bien meilleur pour le code que n'importe quel modèle 7B. Les complétions locales représentent 70-80% de la qualité cloud.
- Exécution de l'inférence sur CPU : Les complétions CPU sont impratiques (latence 5-10 secondes). GPU est requis pour les complétions utilisables.
FAQ : Complétions de code locales
Les complétions de code locales sont-elles plus rapides que le cloud ?
Non. Les complétions cloud (GitHub Copilot) sont plus rapides en raison des serveurs optimisés. Les complétions locales ont une latence plus élevée mais zéro coût et zéro risque de confidentialité.
Puis-je utiliser les complétions locales avec d'autres IDE (PyCharm, Neovim) ?
Oui, mais la configuration varie. PyCharm a un plugin Ollama. Pour Neovim, utilisez cmp-ollama (plugin de complétions). Vérifiez toujours auprès de la communauté IDE les intégrations.
Puis-je utiliser les modèles cloud dans Continue ou Cursor ?
Oui. Configurez Continue pour utiliser OpenAI, Claude ou Gemini. Vous pouvez également mélanger (local pour rapide, cloud pour code complexe).
Les complétions de code locales fonctionnent-elles hors ligne ?
Oui. Si vous avez tiré le modèle dans Ollama, les complétions fonctionnent entièrement hors ligne.
Lectures connexes
- Stack LLM Développeur Local -- Stack complet avec serveur API et monitoring de production au-delà de l'intégration IDE.
- Installer Ollama -- Configurer Ollama pour les complétions de code.
- Meilleurs LLM locaux pour le codage -- Benchmark détaillé du modèle de codage.
- How to Install LM Studio -- Quel outil utiliser.
- API compatible OpenAI LLM local -- APIs de complétions de code.
Sources
- Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
- Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
- Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
- DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.