Wichtigste Erkenntnisse
- VS Code nutzt die Continue.dev-Erweiterung, um sich mit lokalen Modellen zu verbinden (Ollama, LM Studio, vLLM).
- Cursor ist ein VS Code-Fork mit eingebauter lokaler Modellunterstützung. Keine Erweiterung erforderlich.
- Beste lokale Modelle für Code: Qwen2.5-Coder 7B, Llama Code 13B oder Mistral 7B.
- Erwarten Sie 2-5 Sekunden Vervollständigungslatenz auf Consumer-GPUs mit 7B-Modellen.
- Stand April 2026 sind lokale Code-Completions für Einzelnutzer praktisch, noch nicht produktionsreif für Teams.
Wie richten Sie Continue.dev in VS Code ein?
Continue.dev ist eine VS Code-Erweiterung für lokale und Cloud-Code-Vervollständigung.
# 1. Installieren Sie Continue aus dem VS Code Marketplace
# Suchen Sie nach "Continue" und klicken Sie auf "Installieren"
# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve
# 3. Öffnen Sie Continue-Einstellungen (Strg+Umschalt+P → Continue: Einstellungen öffnen)
# config.json wird geöffnet
# 4. Konfigurieren Sie für Ihr lokales Modell:
# Ersetzen Sie die Standard-Einstellungen durch:
{
"models": [{
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"apiBase": "http://localhost:11434"
}],
"tabAutocompleteModel": {
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
# 5. Beginnen Sie zu tippen und drücken Sie Tab für Vervollständigungen
# Oder Strg+Umschalt+\ zur manuellen Auslösung von VervollständigungenWie verwenden Sie lokale Modelle in Cursor?
Cursor ist ein VS Code-Fork, optimiert für KI-gestützte Programmierung. Es hat eingebaute Unterstützung für lokale Modelle über Ollama.
# 1. Laden Sie Cursor von cursor.sh herunter
# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve
# 3. Öffnen Sie Cursor-Einstellungen (Cmd/Strg + ,)
# 4. Suchen Sie nach "Model" und stellen Sie ein:
# - Model Provider: "Ollama"
# - Model: "qwen2.5-coder:7b" (oder Ihre Wahl)
# - API Base: "http://localhost:11434"
# 5. Tippen Sie Code und drücken Sie Tab für Inline-Vervollständigung
# 6. Strg+K für mehrzeilige VervollständigungWelche Modelle eignen sich am besten für Code?
⚠️ VRAM-Regel: Haben Sie immer 2-3 GB mehr freien VRAM als das Modell benötigt. Ein 7B-Modell bei Q4 (4,7 GB) benötigt insgesamt 8 GB VRAM bei Ausführung in VS Code oder Cursor.
| Modell | HumanEval | VRAM | Geschwindigkeit | Beste für |
|---|---|---|---|---|
| Qwen2.5-Coder 7B | 72% | 4,7 GB | Schnell | Beste Balance, schnellste |
| Llama Code 7B | 69% | 4,7 GB | Schnell | Allgemeine Programmierung |
| Mistral 7B | 61% | 4,5 GB | Sehr schnell | Leichtgewicht, EU-Server |
| Llama Code 13B | 74% | 8,5 GB | Mittel | Bessere Qualität bei 16GB-Maschinen |
| DeepSeek-Coder 6,7B | 68% | 4 GB | Schnell | Leichtgewicht-Alternative |
Welche Latenz und welchen VRAM sollten Sie erwarten?
Vervollständigungslatenz (Zeit bis zum ersten Token) ist kritisch für die IDE-Erfahrung. Stand April 2026 sind hier typische Zahlen:
⚠️ Latenz-Realitätsprüfung: Lokale Vervollständigungen sind 2-10× langsamer als Cloud. Verwenden Sie lokal für private Arbeiten; verwenden Sie Cloud (Copilot, Claude) für zeitkritische Programmierung.
💡 Performance-Tuning: Reduzieren Sie `contextLength` von 2048 auf 1024 Tokens, um die Latenz zu halbieren. Kompromiss: weniger Codezeilen im Kontext für Vorschläge.
| Hardware | Modell | Latenz | Durchsatz |
|---|---|---|---|
| RTX 4090 GPU | Qwen2.5-Coder 7B | 0,3-0,5 Sekunden | 150 Tokens/Sek |
| RTX 4070 GPU | Qwen2.5-Coder 7B | 0,8-1,5 Sekunden | 80 Tokens/Sek |
| M3 MacBook Pro | Qwen2.5-Coder 7B | 2-3 Sekunden | 20 Tokens/Sek |
| 8-Kern CPU nur | Qwen2.5-Coder 7B | 5-10 Sekunden | 3 Tokens/Sek |
Hinweis zu Performance-Daten: Latenz und Durchsatz gemessen mit Qwen2.5-Coder 7B Q4_K_M-Format, Batch-Größe = 1, auf frischem System (keine Hintergrund-Aufgaben). Ihre tatsächliche Performance hängt ab von OS, VRAM-Verfügbarkeit, Quantisierungsformat und gleichzeitiger Last.
Wie konfigurieren Sie Code-Vervollständigungen für Performance?
Feinabstimmung der Erfahrung mit diesen Einstellungen:
⚠️ Warnung: Bei 8GB-Maschinen mit 13B-Modellen können Vervollständigungen 5-10 Sekunden dauern, wodurch die IDE träge wirkt. Bleiben Sie mit 7B-Modellen für flüssige Performance.
💡 Pro-Tipp: Erhöhen Sie `debounceWaitMs` auf 400-500 ms, um Flimmern zu reduzieren und unvollständige Vorschläge zu vermeiden.
# config.json erweiterte Einstellungen
{
"tabAutocompleteModel": {
"contextLength": 2048, # Wie viel Code-Kontext senden
"maxTokens": 50 # Max Tokens pro Vervollständigung
},
"completionOptions": {
"maxContextTokens": 1024,
"maxSuggestionsCount": 5,
"debounceWaitMs": 200 # Warten vor Anzeige (ms)
},
# Für schnellere Inferenz kleineren Kontext nutzen:
"models": [{
"contextLength": 1024 # Kleinerer Kontext = schneller
}]
}
# Für beste Geschwindigkeit auf 8GB-Maschinen:
# - Verwenden Sie 7B-Modell (nicht 13B)
# - Setzen Sie maxTokens auf 30
# - Setzen Sie debounceWaitMs auf 500 (weniger Flimmern)Was sind häufige Fehler bei der Einrichtung lokaler Code-Vervollständigungen?
- Keine Debounce-Latenz-Optimierung: Falls Vervollständigungen sich "langsam" anfühlen, erhöhen Sie debounceWaitMs (z.B. auf 400 ms), um unvollständige Vorschläge zu vermeiden.
- Verwendung eines für Ihren VRAM zu großen Modells: Ein 13B-Modell + Editor-Overhead kann 12+ GB verwenden. Bei 8GB-Maschinen bleiben Sie mit 7B-Modellen.
- Erwartung von Cloud-Level-Code-Qualität: GPT-4o ist deutlich besser bei Code als jedes 7B-Modell. Lokale Vervollständigungen sind 70-80% der Cloud-Qualität.
- Ausführung von Inferenz auf CPU: CPU-Vervollständigungen sind unpraktisch (5-10 Sekunden Latenz). GPU ist erforderlich für nutzbare Vervollständigungen.
FAQ: Lokale Code-Vervollständigung
Ist lokale Code-Vervollständigung schneller als Cloud?
Nein. Cloud-Vervollständigungen (GitHub Copilot) sind schneller wegen optimierter Server. Lokale Vervollständigungen haben höhere Latenz, aber Null-Kosten und Null-Datenschutzrisiko.
Kann ich lokale Vervollständigungen mit anderen IDEs nutzen (PyCharm, Neovim)?
Ja, aber Setup variiert. PyCharm hat ein Ollama-Plugin. Für Neovim verwenden Sie cmp-ollama (Completion-Plugin). Prüfen Sie immer die IDE-Community auf Integrationen.
Kann ich Cloud-Modelle in Continue oder Cursor verwenden?
Ja. Konfigurieren Sie Continue für OpenAI, Claude oder Gemini. Sie können auch mischen (lokal für schnell, Cloud für komplexer Code).
Funktioniert lokale Code-Vervollständigung offline?
Ja. Falls Sie das Modell in Ollama gepullt haben, funktionieren Vervollständigungen vollständig offline.
Weiterführende Lektüre
- Beste KI-Coding-Assistenten für lokale LLM -- Umfassender Vergleich von Cursor, Continue.dev, Cody, Tabnine und Windsurf mit Unterstützung für lokale LLMs.
- Lokaler LLM-Entwickler-Stack -- Vollständiger Stack mit API-Server und Produktions-Monitoring über die IDE-Integration hinaus.
- Ollama installieren -- Ollama für Code-Vervollständigungen einrichten.
- Beste lokale LLMs für Programmierung -- Detaillierter Programmierungs-Modell-Benchmark.
- How to Install LM Studio -- Welches Werkzeug verwenden.
- Lokale LLM OpenAI-kompatible API -- Code-Vervollständigungs-APIs.
Quellen
- Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
- Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
- Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
- DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.