Wichtigste Erkenntnisse
- Stufe 1 (einfach): `ollama run llama3.2` + OpenWebUI. Kein Code erforderlich.
- Stufe 2 (Standard): vLLM + FastAPI-Wrapper. Python 3.10+, pip install 2 Pakete, 30 Minuten Einrichtung.
- Stufe 3 (Produktion): vLLM + nginx Load Balancer + Monitoring (Prometheus). Multi-GPU, mehrere Nutzer, fehlertolerant.
- IDE-Integration: VS Code Copilot oder Cursor mit vLLM OpenAI-API-Endpunkt.
- Batch-Verarbeitung: 10 Prompts gleichzeitig senden, 10 Antworten parallel erhalten (nicht sequenziell).
- Kosten: Null (Open Source) vs. 20 $/Monat (Claude Pro) oder 200 $/Monat (großes Team, Cloud).
- Geschwindigkeit: Stufe 2 erreicht 30-50 Tok/s beim Coding. Stufe 3 erreicht 200+ Tok/s über mehrere Nutzer.
- Komplexität: Stufe 1 (1/10), Stufe 2 (4/10), Stufe 3 (8/10).
Die drei Stufen
Auswahl je nach Anwendungsfall:
- Stufe 1: Einzelentwickler, gelegentliche Nutzung, kein API-Server. Ollama + Chat-UI.
- Stufe 2: Einzelentwickler, IDE-Integration, eigene Skripte. vLLM + FastAPI.
- Stufe 3: Team-Deployment, 5+ Entwickler, Dauerbetrieb. vLLM + nginx + Monitoring.
Stufe 1: CLI-Schnellstart (5 Minuten)
Für Coding: VS Code-Erweiterung „Continue" (`continue.dev`) installieren, auf Ollama-API verweisen und Echtzeit-Vervollständigungen erhalten.
- 1`brew install ollama` (macOS) oder Windows-Installer herunterladen.
- 2`ollama run llama3.2` (lädt 8B-Modell herunter und startet es).
- 3Browser öffnen: `http://localhost:11434` (Ollama Web-UI).
- 4Chatten beginnen. Fertig.
Stufe 2: API-Server mit FastAPI (30 Minuten)
Warum FastAPI: OpenAI-kompatibler Endpunkt. Drop-in-Ersatz für die echte OpenAI-API im eigenen Code.
- 1Python 3.10+ installieren: `python --version`.
- 2vLLM installieren: `pip install vllm torch`.
- 3vLLM-Server starten: `python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3.3-8B-Instruct --port 8000`.
- 4Endpunkt testen: `curl http://localhost:8000/v1/chat/completions -d '{"model": "Llama-3.1-8B-Instruct", "messages": [{"role": "user", "content": "Write Python code for Fibonacci"}]}' -H "Content-Type: application/json"`.
- 5In IDE integrieren: Copilot-Erweiterung auf `http://localhost:8000` verweisen.
- 6Batch-Anfragen: mehrere Prompts parallel senden, vLLM verarbeitet alle gleichzeitig.
Stufe 3: Produktivbetrieb für mehrere Nutzer (2 Stunden)
Skaliert auf 50+ gleichzeitige Entwickler (je 5 Tok/s) auf einem Dual-GPU-Rechner. Kosten: nur Stromverbrauch (ca. 100 €/Monat bei 24/7-Betrieb).
- 12 vLLM-Instanzen auf separaten GPUs bereitstellen (GPU 0, GPU 1).
- 2nginx konfigurieren, um Anfragen auf beide Instanzen zu verteilen.
- 3Prometheus für Metrikerfassung einrichten (Anfragelatenzen, Tokens/Sekunde, Fehler).
- 4Rate-Limiting pro Nutzer hinzufügen (Token-Bucket-Algorithmus).
- 5Auf Cloud-VM oder lokalem Server mit 10-Gbit/s-Netzwerk bereitstellen.
- 6Optional: Grafana-Dashboard für die Überwachung einrichten.
IDE-Integration (VS Code, Cursor)
Einrichtung für Echtzeit-Code-Vervollständigungen:
Alternative (nativer IDE-Support): Der Cursor Editor bietet integrierte Unterstützung für lokale LLMs (keine Erweiterung erforderlich).
- 1„Continue"-Erweiterung installieren (`continue.dev`).
- 2Erweiterungseinstellungen öffnen, benutzerdefinierte API konfigurieren: `http://localhost:8000/v1` (vLLM-Endpunkt).
- 3Modellnamen auf vLLM-Server abstimmen (`meta-llama/Llama-3.3-8B-Instruct`).
- 4Strg+Umschalt+Leertaste (oder cmd+shift+space) drücken, um Vervollständigung auszulösen.
- 5Vervollständigungen werden in Echtzeit gestreamt (10-20 Tok/s).
Fehlersuche & Monitoring
- vLLM-Logs: stdout auf Fehler prüfen (Modell-Laden, OOM, CUDA-Fehler).
- Prometheus-Metriken: vLLM exportiert den `/metrics`-Endpunkt (Anfragezahl, Latenz-Histogramm, generierte Tokens).
- Token-Zählung: Bibliothek `tiktoken` verwenden, um Tokens vor dem Senden zu zählen (OOM-Überraschungen vermeiden).
- Latenz-Profiling: Zeitstempel-Logging vor/nach dem vLLM-Aufruf hinzufügen, um Engpässe zu identifizieren.
Regionale Rahmenbedingungen & Compliance
- EU / DSGVO (Europa): Lokale Inferenz erfüllt DSGVO-Artikel 28 - keine Daten verlassen die eigene Infrastruktur. Kein Auftragsverarbeitungsvertrag erforderlich. Empfohlen für Gesundheitswesen, Rechts- und Finanzdienstleistungen. BSI-Grundschutz-Kataloge konform für deutsche Unternehmensdeployments. DACH-Unternehmen (Deutschland, Österreich, Schweiz) erreichen vollständige Datensouveränität ohne US-Cloud-Abhängigkeit.
- Japan / METI: Die METI AI Governance Guidelines 2024 empfehlen On-Premise-Inferenz für sensible Unternehmensdaten. Das vLLM + Stufe-3-Setup erfüllt die METI-Anforderungen an Audit-Trails.
- China / PIPL: Das Gesetz zum Schutz personenbezogener Daten Chinas (2021) schreibt Datenresidenz vor. Der lokale Stufe-2/3-Stack hält alle Inferenzen im Land. Kompatibel mit GPU-Instanzen von Alibaba Cloud und Tencent Cloud.
- Vereinigte Staaten: Kein bundesweites KI-Datensouveränitätsmandat (Stand 2026). HIPAA-pflichtige Einrichtungen müssen sicherstellen, dass PHI die kontrollierte Infrastruktur nicht verlässt - Stufe 2/3 erfüllt dies standardmäßig.
Häufige Einrichtungsfehler
- vLLM auf derselben GPU betreiben wie einen anderen Prozess (Discord, Gaming). Verursacht GPU-Out-of-Memory-Fehler.
- Anfragen ohne Timeout senden. Wenn vLLM hängt, wartet der Client endlos. Immer `timeout=60` in Anfragen setzen.
- Davon ausgehen, dass vLLM automatisch über mehrere GPUs skaliert. Erfordert explizites Flag `--tensor-parallel-size`.
- CUDA_VISIBLE_DEVICES bei Multi-GPU vergessen. vLLM verwendet standardmäßig alle GPUs.
- Llama-2-Modelle im Jahr 2026 verwenden. Meta hat Llama 2 für kommerzielle Nutzung im Januar 2026 eingestellt. Verwenden Sie Llama 3.1 8B Instruct (Apache-2.0-Lizenz, keine Einschränkungen).
FAQ
Welche Stufe soll ich verwenden?
Stufe 1 für Einzelnutzer (gelegentlicher Gebrauch). Stufe 2 für einzelne Entwickler mit IDE-Integration. Stufe 3 für Teams mit 24/7-Betrieb.
Kann ich vLLM statt Ollama verwenden?
Ja, aber mit mehr Aufwand. vLLM ist schneller (Batching) und flexibler (Python-API).
Wie betreibe ich Modelle über mehrere GPUs?
vLLM: `--tensor-parallel-size 2`. Teilt das Modell auf 2 GPUs auf und verdoppelt den Durchsatz.
Kann ich auf vLLM-Inferenz fine-tunen?
Nein. Fine-Tuning separat durchführen (HuggingFace Transformers), dann das fine-getunete Modell in vLLM laden.
Was tun, wenn vLLM OOM auslöst?
Kleinere Quantisierung verwenden (Q4 statt Q8), Batch-Größe reduzieren oder weniger VRAM pro Modell zuweisen. `nvidia-smi` prüfen.
Ist Stufe 3 produktionsreif?
Ja, mit Monitoring. Prometheus, Grafana und Alerting (Alertmanager) hinzufügen. Standardmäßige Infrastrukturmuster.
Muss ich bei der Verwendung des lokalen LLM-Stacks die DSGVO beachten?
Lokale Inferenz erfüllt DSGVO-Artikel 28 ohne zusätzlichen Aufwand: Alle Daten verbleiben in Ihrer eigenen Infrastruktur, kein Auftragsverarbeiter wird benötigt und keine Drittlandübermittlung findet statt. Das BSI-Grundschutz-Kompendium empfiehlt lokale Verarbeitung für besonders schützenswerte Daten. Für Gesundheits-, Rechts- und Finanzdienstleistungen in Deutschland ist Stufe 2/3 die datenschutzrechtlich bevorzugte Lösung.
Ist der lokale LLM-Stack für den deutschen Mittelstand geeignet?
Ja. Mittelständische Unternehmen profitieren von vollständiger Datensouveränität gemäß BSI-Grundschutz und IT-Sicherheitsgesetz 2.0, keinen laufenden API-Kosten und einer OpenAI-kompatiblen API für ERP- und CRM-Integration. Stufe 2 (vLLM + FastAPI) ist für die meisten Mittelstandsanwendungen ausreichend und in unter 30 Minuten einsatzbereit.
Weiterführende Lektüre
- Beste KI-Coding-Assistenten für lokale LLM -- Wählen Sie Ihre IDE: Cursor, Continue.dev, Cody, Tabnine mit Unterstützung für lokale LLMs.
- OpenAI-kompatible API mit lokalen LLMs
- Ollama-Installations- und Einrichtungsanleitung
- Lokale LLMs mit VS Code & Cursor
- Fine-Tuning lokaler LLMs mit LoRA
Quellen
- vLLM OpenAI-Compatible Server Documentation -- Offizielle vLLM-API-Server-Einrichtungsanleitung
- Continue.dev Configuration Documentation -- IDE-Erweiterungskonfiguration für benutzerdefinierte OpenAI-Endpunkte
- Meta Llama 3.1 Model Card -- Offizielle Llama-3.1-Lizenz und Spezifikationen