VS Code und Cursor (ein KI-fokussierter Code-Editor) können beide lokale LLMs für Code-Vervollständigungen und Vorschläge nutzen, über die Continue.dev-Erweiterung (VS Code) oder direkte Integration (Cursor). Stand April 2026 sind lokale Code-Vervollständigungen praktisch für 7B-13B-Modelle und erfordern 8-16 GB RAM. Dieser Leitfaden behandelt Einrichtung, beste Modelle und Performance-Tuning.

Wichtigste Erkenntnisse

VS Code nutzt die Continue.dev-Erweiterung, um sich mit lokalen Modellen zu verbinden (Ollama, LM Studio, vLLM).
Cursor ist ein VS Code-Fork mit eingebauter lokaler Modellunterstützung. Keine Erweiterung erforderlich.
Beste lokale Modelle für Code: Qwen2.5-Coder 7B, Llama Code 13B oder Mistral 7B.
Erwarten Sie 2-5 Sekunden Vervollständigungslatenz auf Consumer-GPUs mit 7B-Modellen.
Stand April 2026 sind lokale Code-Completions für Einzelnutzer praktisch, noch nicht produktionsreif für Teams.

Wie richten Sie Continue.dev in VS Code ein?

Continue.dev ist eine VS Code-Erweiterung für lokale und Cloud-Code-Vervollständigung.

json

# 1. Installieren Sie Continue aus dem VS Code Marketplace
# Suchen Sie nach "Continue" und klicken Sie auf "Installieren"

# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve

# 3. Öffnen Sie Continue-Einstellungen (Strg+Umschalt+P → Continue: Einstellungen öffnen)
# config.json wird geöffnet

# 4. Konfigurieren Sie für Ihr lokales Modell:
# Ersetzen Sie die Standard-Einstellungen durch:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Beginnen Sie zu tippen und drücken Sie Tab für Vervollständigungen
# Oder Strg+Umschalt+\ zur manuellen Auslösung von Vervollständigungen

Wie verwenden Sie lokale Modelle in Cursor?

Cursor ist ein VS Code-Fork, optimiert für KI-gestützte Programmierung. Es hat eingebaute Unterstützung für lokale Modelle über Ollama.

bash

# 1. Laden Sie Cursor von cursor.sh herunter
# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve

# 3. Öffnen Sie Cursor-Einstellungen (Cmd/Strg + ,)
# 4. Suchen Sie nach "Model" und stellen Sie ein:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (oder Ihre Wahl)
#    - API Base: "http://localhost:11434"

# 5. Tippen Sie Code und drücken Sie Tab für Inline-Vervollständigung
# 6. Strg+K für mehrzeilige Vervollständigung

Welche Modelle eignen sich am besten für Code?

⚠️ VRAM-Regel: Haben Sie immer 2-3 GB mehr freien VRAM als das Modell benötigt. Ein 7B-Modell bei Q4 (4,7 GB) benötigt insgesamt 8 GB VRAM bei Ausführung in VS Code oder Cursor.

Modell	HumanEval	VRAM	Geschwindigkeit	Beste für
Qwen2.5-Coder 7B	72%	4,7 GB	Schnell	Beste Balance, schnellste
Llama Code 7B	69%	4,7 GB	Schnell	Allgemeine Programmierung
Mistral 7B	61%	4,5 GB	Sehr schnell	Leichtgewicht, EU-Server
Llama Code 13B	74%	8,5 GB	Mittel	Bessere Qualität bei 16GB-Maschinen
DeepSeek-Coder 6,7B	68%	4 GB	Schnell	Leichtgewicht-Alternative

Welche Latenz und welchen VRAM sollten Sie erwarten?

Vervollständigungslatenz (Zeit bis zum ersten Token) ist kritisch für die IDE-Erfahrung. Stand April 2026 sind hier typische Zahlen:

⚠️ Latenz-Realitätsprüfung: Lokale Vervollständigungen sind 2-10× langsamer als Cloud. Verwenden Sie lokal für private Arbeiten; verwenden Sie Cloud (Copilot, Claude) für zeitkritische Programmierung.

💡 Performance-Tuning: Reduzieren Sie `contextLength` von 2048 auf 1024 Tokens, um die Latenz zu halbieren. Kompromiss: weniger Codezeilen im Kontext für Vorschläge.

Hardware	Modell	Latenz	Durchsatz
RTX 4090 GPU	Qwen2.5-Coder 7B	0,3-0,5 Sekunden	150 Tokens/Sek
RTX 4070 GPU	Qwen2.5-Coder 7B	0,8-1,5 Sekunden	80 Tokens/Sek
M3 MacBook Pro	Qwen2.5-Coder 7B	2-3 Sekunden	20 Tokens/Sek
8-Kern CPU nur	Qwen2.5-Coder 7B	5-10 Sekunden	3 Tokens/Sek

Hinweis zu Performance-Daten: Latenz und Durchsatz gemessen mit Qwen2.5-Coder 7B Q4_K_M-Format, Batch-Größe = 1, auf frischem System (keine Hintergrund-Aufgaben). Ihre tatsächliche Performance hängt ab von OS, VRAM-Verfügbarkeit, Quantisierungsformat und gleichzeitiger Last.

Wie konfigurieren Sie Code-Vervollständigungen für Performance?

Feinabstimmung der Erfahrung mit diesen Einstellungen:

⚠️ Warnung: Bei 8GB-Maschinen mit 13B-Modellen können Vervollständigungen 5-10 Sekunden dauern, wodurch die IDE träge wirkt. Bleiben Sie mit 7B-Modellen für flüssige Performance.

💡 Pro-Tipp: Erhöhen Sie `debounceWaitMs` auf 400-500 ms, um Flimmern zu reduzieren und unvollständige Vorschläge zu vermeiden.

json

# config.json erweiterte Einstellungen
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # Wie viel Code-Kontext senden
    "maxTokens": 50            # Max Tokens pro Vervollständigung
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Warten vor Anzeige (ms)
  },
  # Für schnellere Inferenz kleineren Kontext nutzen:
  "models": [{
    "contextLength": 1024      # Kleinerer Kontext = schneller
  }]
}

# Für beste Geschwindigkeit auf 8GB-Maschinen:
# - Verwenden Sie 7B-Modell (nicht 13B)
# - Setzen Sie maxTokens auf 30
# - Setzen Sie debounceWaitMs auf 500 (weniger Flimmern)

Was sind häufige Fehler bei der Einrichtung lokaler Code-Vervollständigungen?

Keine Debounce-Latenz-Optimierung: Falls Vervollständigungen sich "langsam" anfühlen, erhöhen Sie debounceWaitMs (z.B. auf 400 ms), um unvollständige Vorschläge zu vermeiden.
Verwendung eines für Ihren VRAM zu großen Modells: Ein 13B-Modell + Editor-Overhead kann 12+ GB verwenden. Bei 8GB-Maschinen bleiben Sie mit 7B-Modellen.
Erwartung von Cloud-Level-Code-Qualität: GPT-4o ist deutlich besser bei Code als jedes 7B-Modell. Lokale Vervollständigungen sind 70-80% der Cloud-Qualität.
Ausführung von Inferenz auf CPU: CPU-Vervollständigungen sind unpraktisch (5-10 Sekunden Latenz). GPU ist erforderlich für nutzbare Vervollständigungen.

FAQ: Lokale Code-Vervollständigung

Ist lokale Code-Vervollständigung schneller als Cloud?

Nein. Cloud-Vervollständigungen (GitHub Copilot) sind schneller wegen optimierter Server. Lokale Vervollständigungen haben höhere Latenz, aber Null-Kosten und Null-Datenschutzrisiko.

Kann ich lokale Vervollständigungen mit anderen IDEs nutzen (PyCharm, Neovim)?

Ja, aber Setup variiert. PyCharm hat ein Ollama-Plugin. Für Neovim verwenden Sie cmp-ollama (Completion-Plugin). Prüfen Sie immer die IDE-Community auf Integrationen.

Kann ich Cloud-Modelle in Continue oder Cursor verwenden?

Ja. Konfigurieren Sie Continue für OpenAI, Claude oder Gemini. Sie können auch mischen (lokal für schnell, Cloud für komplexer Code).

Funktioniert lokale Code-Vervollständigung offline?

Ja. Falls Sie das Modell in Ollama gepullt haben, funktionieren Vervollständigungen vollständig offline.

Weiterführende Lektüre

Beste KI-Coding-Assistenten für lokale LLM -- Umfassender Vergleich von Cursor, Continue.dev, Cody, Tabnine und Windsurf mit Unterstützung für lokale LLMs.
Lokaler LLM-Entwickler-Stack -- Vollständiger Stack mit API-Server und Produktions-Monitoring über die IDE-Integration hinaus.
Ollama installieren -- Ollama für Code-Vervollständigungen einrichten.
Beste lokale LLMs für Programmierung -- Detaillierter Programmierungs-Modell-Benchmark.
How to Install LM Studio -- Welches Werkzeug verwenden.
Lokale LLM OpenAI-kompatible API -- Code-Vervollständigungs-APIs.

Quellen

Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

Lokale LLMs mit VS Code und Cursor: Einrichtung und Best Practices