PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Lokale LLMs mit VS Code und Cursor: Einrichtung und Best Practices
Tools & Interfaces

Lokale LLMs mit VS Code und Cursor: Einrichtung und Best Practices

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

VS Code und Cursor (ein KI-fokussierter Code-Editor) können beide lokale LLMs für Code-Vervollständigungen und Vorschläge nutzen, über die Continue.dev-Erweiterung (VS Code) oder direkte Integration (Cursor). Stand April 2026 sind lokale Code-Vervollständigungen praktisch für 7B-13B-Modelle und erfordern 8-16 GB RAM. Dieser Leitfaden behandelt Einrichtung, beste Modelle und Performance-Tuning.

Wichtigste Erkenntnisse

  • VS Code nutzt die Continue.dev-Erweiterung, um sich mit lokalen Modellen zu verbinden (Ollama, LM Studio, vLLM).
  • Cursor ist ein VS Code-Fork mit eingebauter lokaler Modellunterstützung. Keine Erweiterung erforderlich.
  • Beste lokale Modelle für Code: Qwen2.5-Coder 7B, Llama Code 13B oder Mistral 7B.
  • Erwarten Sie 2-5 Sekunden Vervollständigungslatenz auf Consumer-GPUs mit 7B-Modellen.
  • Stand April 2026 sind lokale Code-Completions für Einzelnutzer praktisch, noch nicht produktionsreif für Teams.

Wie richten Sie Continue.dev in VS Code ein?

Continue.dev ist eine VS Code-Erweiterung für lokale und Cloud-Code-Vervollständigung.

json
# 1. Installieren Sie Continue aus dem VS Code Marketplace
# Suchen Sie nach "Continue" und klicken Sie auf "Installieren"

# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve

# 3. Öffnen Sie Continue-Einstellungen (Strg+Umschalt+P → Continue: Einstellungen öffnen)
# config.json wird geöffnet

# 4. Konfigurieren Sie für Ihr lokales Modell:
# Ersetzen Sie die Standard-Einstellungen durch:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Beginnen Sie zu tippen und drücken Sie Tab für Vervollständigungen
# Oder Strg+Umschalt+\ zur manuellen Auslösung von Vervollständigungen

Wie verwenden Sie lokale Modelle in Cursor?

Cursor ist ein VS Code-Fork, optimiert für KI-gestützte Programmierung. Es hat eingebaute Unterstützung für lokale Modelle über Ollama.

bash
# 1. Laden Sie Cursor von cursor.sh herunter
# 2. Stellen Sie sicher, dass Ollama läuft
ollama serve

# 3. Öffnen Sie Cursor-Einstellungen (Cmd/Strg + ,)
# 4. Suchen Sie nach "Model" und stellen Sie ein:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (oder Ihre Wahl)
#    - API Base: "http://localhost:11434"

# 5. Tippen Sie Code und drücken Sie Tab für Inline-Vervollständigung
# 6. Strg+K für mehrzeilige Vervollständigung

Welche Modelle eignen sich am besten für Code?

⚠️ VRAM-Regel: Haben Sie immer 2-3 GB mehr freien VRAM als das Modell benötigt. Ein 7B-Modell bei Q4 (4,7 GB) benötigt insgesamt 8 GB VRAM bei Ausführung in VS Code oder Cursor.

ModellHumanEvalVRAMGeschwindigkeitBeste für
Qwen2.5-Coder 7B72%4,7 GBSchnellBeste Balance, schnellste
Llama Code 7B69%4,7 GBSchnellAllgemeine Programmierung
Mistral 7B61%4,5 GBSehr schnellLeichtgewicht, EU-Server
Llama Code 13B74%8,5 GBMittelBessere Qualität bei 16GB-Maschinen
DeepSeek-Coder 6,7B68%4 GBSchnellLeichtgewicht-Alternative

Welche Latenz und welchen VRAM sollten Sie erwarten?

Vervollständigungslatenz (Zeit bis zum ersten Token) ist kritisch für die IDE-Erfahrung. Stand April 2026 sind hier typische Zahlen:

⚠️ Latenz-Realitätsprüfung: Lokale Vervollständigungen sind 2-10× langsamer als Cloud. Verwenden Sie lokal für private Arbeiten; verwenden Sie Cloud (Copilot, Claude) für zeitkritische Programmierung.

💡 Performance-Tuning: Reduzieren Sie `contextLength` von 2048 auf 1024 Tokens, um die Latenz zu halbieren. Kompromiss: weniger Codezeilen im Kontext für Vorschläge.

HardwareModellLatenzDurchsatz
RTX 4090 GPUQwen2.5-Coder 7B0,3-0,5 Sekunden150 Tokens/Sek
RTX 4070 GPUQwen2.5-Coder 7B0,8-1,5 Sekunden80 Tokens/Sek
M3 MacBook ProQwen2.5-Coder 7B2-3 Sekunden20 Tokens/Sek
8-Kern CPU nurQwen2.5-Coder 7B5-10 Sekunden3 Tokens/Sek

Hinweis zu Performance-Daten: Latenz und Durchsatz gemessen mit Qwen2.5-Coder 7B Q4_K_M-Format, Batch-Größe = 1, auf frischem System (keine Hintergrund-Aufgaben). Ihre tatsächliche Performance hängt ab von OS, VRAM-Verfügbarkeit, Quantisierungsformat und gleichzeitiger Last.

Wie konfigurieren Sie Code-Vervollständigungen für Performance?

Feinabstimmung der Erfahrung mit diesen Einstellungen:

⚠️ Warnung: Bei 8GB-Maschinen mit 13B-Modellen können Vervollständigungen 5-10 Sekunden dauern, wodurch die IDE träge wirkt. Bleiben Sie mit 7B-Modellen für flüssige Performance.

💡 Pro-Tipp: Erhöhen Sie `debounceWaitMs` auf 400-500 ms, um Flimmern zu reduzieren und unvollständige Vorschläge zu vermeiden.

json
# config.json erweiterte Einstellungen
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # Wie viel Code-Kontext senden
    "maxTokens": 50            # Max Tokens pro Vervollständigung
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Warten vor Anzeige (ms)
  },
  # Für schnellere Inferenz kleineren Kontext nutzen:
  "models": [{
    "contextLength": 1024      # Kleinerer Kontext = schneller
  }]
}

# Für beste Geschwindigkeit auf 8GB-Maschinen:
# - Verwenden Sie 7B-Modell (nicht 13B)
# - Setzen Sie maxTokens auf 30
# - Setzen Sie debounceWaitMs auf 500 (weniger Flimmern)

Was sind häufige Fehler bei der Einrichtung lokaler Code-Vervollständigungen?

  • Keine Debounce-Latenz-Optimierung: Falls Vervollständigungen sich "langsam" anfühlen, erhöhen Sie debounceWaitMs (z.B. auf 400 ms), um unvollständige Vorschläge zu vermeiden.
  • Verwendung eines für Ihren VRAM zu großen Modells: Ein 13B-Modell + Editor-Overhead kann 12+ GB verwenden. Bei 8GB-Maschinen bleiben Sie mit 7B-Modellen.
  • Erwartung von Cloud-Level-Code-Qualität: GPT-4o ist deutlich besser bei Code als jedes 7B-Modell. Lokale Vervollständigungen sind 70-80% der Cloud-Qualität.
  • Ausführung von Inferenz auf CPU: CPU-Vervollständigungen sind unpraktisch (5-10 Sekunden Latenz). GPU ist erforderlich für nutzbare Vervollständigungen.

FAQ: Lokale Code-Vervollständigung

Ist lokale Code-Vervollständigung schneller als Cloud?

Nein. Cloud-Vervollständigungen (GitHub Copilot) sind schneller wegen optimierter Server. Lokale Vervollständigungen haben höhere Latenz, aber Null-Kosten und Null-Datenschutzrisiko.

Kann ich lokale Vervollständigungen mit anderen IDEs nutzen (PyCharm, Neovim)?

Ja, aber Setup variiert. PyCharm hat ein Ollama-Plugin. Für Neovim verwenden Sie cmp-ollama (Completion-Plugin). Prüfen Sie immer die IDE-Community auf Integrationen.

Kann ich Cloud-Modelle in Continue oder Cursor verwenden?

Ja. Konfigurieren Sie Continue für OpenAI, Claude oder Gemini. Sie können auch mischen (lokal für schnell, Cloud für komplexer Code).

Funktioniert lokale Code-Vervollständigung offline?

Ja. Falls Sie das Modell in Ollama gepullt haben, funktionieren Vervollständigungen vollständig offline.

Weiterführende Lektüre

Quellen

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Lokale LLMs in VS Code & Cursor: Einrichtung 2026