Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Lokale LLMs mit VS Code und Cursor: Einrichtung und Best Practices
Tools & Interfaces

Lokale LLMs mit VS Code und Cursor: Einrichtung und Best Practices

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

VS Code und Cursor (ein KI-fokussierter Code-Editor) können beide lokale LLMs für Code-Vervollständigungen und Vorschläge nutzen, über die Continue.dev-Erweiterung (VS Code) oder direkte Integration (Cursor). Stand April 2026 sind lokale Code-Vervollständigungen praktisch für 7B-13B-Modelle und erfordern 8-16 GB RAM. Dieser Leitfaden behandelt Einrichtung, beste Modelle und Performance-Tuning.

Wichtigste Erkenntnisse

  • VS Code nutzt die Continue.dev-Erweiterung, um sich mit lokalen Modellen zu verbinden (Ollama, LM Studio, vLLM).
  • Cursor ist ein VS Code-Fork mit eingebauter lokaler Modellunterstützung. Keine Erweiterung erforderlich.
  • Beste lokale Modelle für Code: Qwen3-Coder 7B, Llama Code 13B oder Mistral Small.
  • Erwarten Sie 2-5 Sekunden Vervollständigungslatenz auf Consumer-GPUs mit 7B-Modellen.
  • Stand April 2026 sind lokale Code-Completions für Einzelnutzer praktisch, noch nicht produktionsreif für Teams.

Wie richten Sie Continue.dev in VS Code ein?

Continue.dev ist eine VS Code-Erweiterung für lokale und Cloud-Code-Vervollständigung.

json
# 1. Installieren Sie Continue aus dem VS Code Marketplace
# Suchen Sie nach "Continue" und klicken Sie auf "Installieren"

# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve

# 3. Öffnen Sie Continue-Einstellungen (Strg+Umschalt+P → Continue: Einstellungen öffnen)
# config.json wird geöffnet

# 4. Konfigurieren Sie für Ihr lokales Modell:
# Ersetzen Sie die Standard-Einstellungen durch:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Beginnen Sie zu tippen und drücken Sie Tab für Vervollständigungen
# Oder Strg+Umschalt+\ zur manuellen Auslösung von Vervollständigungen

Wie verwenden Sie lokale Modelle in Cursor?

Cursor ist ein VS Code-Fork, optimiert für KI-gestützte Programmierung. Es hat eingebaute Unterstützung für lokale Modelle über Ollama.

bash
# 1. Laden Sie Cursor von cursor.sh herunter
# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve

# 3. Öffnen Sie Cursor-Einstellungen (Cmd/Strg + ,)
# 4. Suchen Sie nach "Model" und stellen Sie ein:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (oder Ihre Wahl)
#    - API Base: "http://localhost:11434"

# 5. Tippen Sie Code und drücken Sie Tab für Inline-Vervollständigung
# 6. Strg+K für mehrzeilige Vervollständigung

Welche Modelle eignen sich am besten für Code?

⚠️ VRAM-Regel: Haben Sie immer 2-3 GB mehr freien VRAM als das Modell benötigt. Ein 7B-Modell bei Q4 (4,7 GB) benötigt insgesamt 8 GB VRAM bei Ausführung in VS Code oder Cursor.

ModellHumanEvalVRAMGeschwindigkeitBeste für
Qwen3-Coder 7B72%4,7 GBSchnellBeste Balance, schnellste
Llama Code 7B69%4,7 GBSchnellAllgemeine Programmierung
Mistral Small61%4,5 GBSehr schnellLeichtgewicht, EU-Server
Llama Code 13B74%8,5 GBMittelBessere Qualität bei 16GB-Maschinen
DeepSeek-Coder 6,7B68%4 GBSchnellLeichtgewicht-Alternative

Welche Latenz und welchen VRAM sollten Sie erwarten?

Vervollständigungslatenz (Zeit bis zum ersten Token) ist kritisch für die IDE-Erfahrung. Stand April 2026 sind hier typische Zahlen:

⚠️ Latenz-Realitätsprüfung: Lokale Vervollständigungen sind 2-10× langsamer als Cloud. Verwenden Sie lokal für private Arbeiten; verwenden Sie Cloud (Copilot, Claude) für zeitkritische Programmierung.

💡 Performance-Tuning: Reduzieren Sie `contextLength` von 2048 auf 1024 Tokens, um die Latenz zu halbieren. Kompromiss: weniger Codezeilen im Kontext für Vorschläge.

HardwareModellLatenzDurchsatz
RTX 4090 GPUQwen3-Coder 7B0,3-0,5 Sekunden150 Tokens/Sek
RTX 4070 GPUQwen3-Coder 7B0,8-1,5 Sekunden80 Tokens/Sek
M3 MacBook ProQwen3-Coder 7B2-3 Sekunden20 Tokens/Sek
8-Kern CPU nurQwen3-Coder 7B5-10 Sekunden3 Tokens/Sek

Hinweis zu Performance-Daten: Latenz und Durchsatz gemessen mit Qwen3-Coder 7B Q4_K_M-Format, Batch-Größe = 1, auf frischem System (keine Hintergrund-Aufgaben). Ihre tatsächliche Performance hängt ab von OS, VRAM-Verfügbarkeit, Quantisierungsformat und gleichzeitiger Last.

Wie konfigurieren Sie Code-Vervollständigungen für Performance?

Feinabstimmung der Erfahrung mit diesen Einstellungen:

⚠️ Warnung: Bei 8GB-Maschinen mit 13B-Modellen können Vervollständigungen 5-10 Sekunden dauern, wodurch die IDE träge wirkt. Bleiben Sie mit 7B-Modellen für flüssige Performance.

💡 Pro-Tipp: Erhöhen Sie `debounceWaitMs` auf 400-500 ms, um Flimmern zu reduzieren und unvollständige Vorschläge zu vermeiden.

json
# config.json erweiterte Einstellungen
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # Wie viel Code-Kontext senden
    "maxTokens": 50            # Max Tokens pro Vervollständigung
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Warten vor Anzeige (ms)
  },
  # Für schnellere Inferenz kleineren Kontext nutzen:
  "models": [{
    "contextLength": 1024      # Kleinerer Kontext = schneller
  }]
}

# Für beste Geschwindigkeit auf 8GB-Maschinen:
# - Verwenden Sie 7B-Modell (nicht 13B)
# - Setzen Sie maxTokens auf 30
# - Setzen Sie debounceWaitMs auf 500 (weniger Flimmern)

Was sind häufige Fehler bei der Einrichtung lokaler Code-Vervollständigungen?

  • Keine Debounce-Latenz-Optimierung: Falls Vervollständigungen sich "langsam" anfühlen, erhöhen Sie debounceWaitMs (z.B. auf 400 ms), um unvollständige Vorschläge zu vermeiden.
  • Verwendung eines für Ihren VRAM zu großen Modells: Ein 13B-Modell + Editor-Overhead kann 12+ GB verwenden. Bei 8GB-Maschinen bleiben Sie mit 7B-Modellen.
  • Erwartung von Cloud-Level-Code-Qualität: GPT-5.5 ist deutlich besser bei Code als jedes 7B-Modell. Lokale Vervollständigungen sind 70-80% der Cloud-Qualität.
  • Ausführung von Inferenz auf CPU: CPU-Vervollständigungen sind unpraktisch (5-10 Sekunden Latenz). GPU ist erforderlich für nutzbare Vervollständigungen.

FAQ: Lokale Code-Vervollständigung

Ist lokale Code-Vervollständigung schneller als Cloud?

Nein. Cloud-Vervollständigungen (GitHub Copilot) sind schneller wegen optimierter Server. Lokale Vervollständigungen haben höhere Latenz, aber Null-Kosten und Null-Datenschutzrisiko.

Kann ich lokale Vervollständigungen mit anderen IDEs nutzen (PyCharm, Neovim)?

Ja, aber Setup variiert. PyCharm hat ein Ollama-Plugin. Für Neovim verwenden Sie cmp-ollama (Completion-Plugin). Prüfen Sie immer die IDE-Community auf Integrationen.

Kann ich Cloud-Modelle in Continue oder Cursor verwenden?

Ja. Konfigurieren Sie Continue für OpenAI, Claude oder Gemini. Sie können auch mischen (lokal für schnell, Cloud für komplexer Code).

Funktioniert lokale Code-Vervollständigung offline?

Ja. Falls Sie das Modell in Ollama gepullt haben, funktionieren Vervollständigungen vollständig offline.

Lokale LLMs für deutsche Entwickler: DSGVO, Cursor Pro und Privacy

Für deutsche Softwareentwickler ist Cursor Pro ein zweischneidiges Schwert: Leistungsstarke KI-Features, aber Code wird an US-Server übertragen. Bei Projekten mit personenbezogenen Daten, Kundendaten oder vertraulichem Quellcode ist dies nach DSGVO Art. 28 (Auftragsverarbeitung) problematisch ohne entsprechenden DPA mit Anthropic/OpenAI.

Die datenschutzkonforme Alternative: Continue.dev mit lokalem LLM (Ollama + DeepSeek Coder oder Qwen3-Coder). Kein Code verlässt das Gerät, kein DPA nötig, BSI Grundschutz-kompatibel. Abstriche bei der Modellqualität gegenüber Claude Sonnet 4.6 sind bei einigen Tasks spürbar, bei anderen nicht.

  • DSGVO und Cursor Pro: Cursor überträgt Code-Snippets zur KI-Verarbeitung. Für Open-Source-Projekte unproblematisch. Für Projekte mit Gesundheits-, Finanz- oder personenbezogenen Daten: Cursor Business mit EU Data Residency-Option prüfen oder auf lokale Alternative wechseln.
  • Continue.dev DE-Konfiguration: Continue.dev lässt sich vollständig lokal betreiben. `~/.continue/config.json` mit Ollama-Backend: `"provider": "ollama"`, `"model": "qwen2.5-coder:7b"`. Deutsche VS Code Lokalisierung (de-DE) funktioniert problemlos mit Continue.
  • Deutsche Entwickler-Community: query „cursor ローカルllm" zeigt JA-Signal — DE-Äquivalent: Heise Developer, Golem.de, t3n.de als primäre News-Quellen. GitHub-Stars für Continue.dev (>20k) spiegeln globale Akzeptanz wider.
  • Empfohlene Modelle für Code-Completion (DE-Kontext): Qwen3-Coder-7B (beste Balance), DeepSeek Coder V2 (stärkste Reasoning-Leistung), Codestral Mamba (schnell auf CPU). Alle via Ollama verfügbar.
  • JetBrains-Nutzer in DE: Continue.dev unterstützt auch JetBrains IDEs (IntelliJ, WebStorm, PyCharm) — in Deutschland oft beliebter als VS Code, besonders in Java/Kotlin-Shops.

Weiterführende Lektüre

Quellen

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen3-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen3-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs