Wichtigste Erkenntnisse
- Schreiben/Content-Erstellung: Ollama + OpenWebUI. Keine Konfiguration, übersichtliche Chat-Oberfläche, Kontextfenster einstellbar.
- Coding/Code-Review: vLLM + FastAPI + VS-Code-Erweiterung. Batch-Verarbeitung, parallele Inferenz, Streaming.
- Lokales RAG: LlamaIndex + Ollama/vLLM + Qdrant Vector DB. Dokument-Chunking, Embedding und Retrieval integriert.
- KI-Agenten: LangGraph + vLLM-Backend. Tool-Nutzung, Speicher, Planungsloop. Steilere Lernkurve.
- Multi-Benutzer-API: vLLM hinter Load Balancer (nginx). Verarbeitet 10+ gleichzeitige Anfragen. Am skalierbarsten.
- Fine-Tuning: HuggingFace Transformers + LoRA + Ollama für Inferenz. Training und Serving getrennt.
- Echtzeit-Streaming: Ollama (natives Streaming) oder vLLM + Token-Streaming-Endpunkt. Beste UX für Chatbots.
📍 In einem Satz
Beste lokale LLM-Stacks nach Anwendungsfall: Schreiben → Ollama + Open WebUI; Coding → vLLM + FastAPI + VS Code; lokales RAG → LlamaIndex + Qdrant; KI-Agenten → LangGraph + vLLM; Multi-User-API → vLLM + nginx; Fine-Tuning → HuggingFace Transformers + LoRA.
💬 In einfachen Worten
Ein "Stack" ist die Kombination von Tools, die zusammen für eine bestimmte Aufgabe arbeiten. Ollama ist der lokale KI-Server; Open WebUI ist die Browser-Oberfläche. vLLM ist ein schnellerer Server für den Produktionseinsatz. Qdrant speichert Dokumente als Vektoren, damit die KI relevante Inhalte finden kann. LoRA ist eine Methode, ein Modell mit eigenen Daten anzupassen, ohne von Grund auf neu zu trainieren.
Schnellentscheidung: Stack nach Hardware-Stufe (June 2026)
Passen Sie Ihre GPU/VRAM der optimalen Stack-Konfiguration an. Jede Kombination wurde anhand realer Benchmarks getestet. Coding- und Agenten-Workflows profitieren mehr von größeren Modellen als das Schreiben; RAG profitiert mehr von Embedding-Qualität als von LLM-Größe.
| Ihre Hardware | Schreiben | Coding | RAG | Agenten |
|---|---|---|---|---|
| 4–8 GB VRAM (GTX 1660, RTX 3050) | Ollama + Phi-4 Mini | Ollama + Qwen3-Coder-1.5B | LlamaIndex + Phi-4 Mini | Nicht empfohlen |
| 12 GB VRAM (RTX 3060, RTX 4070) | Ollama + Llama 3.2 8B | vLLM + Qwen3-Coder-7B | LlamaIndex + Llama 3.2 8B | LangGraph + Ollama (langsamer) |
| 16 GB VRAM (RTX 4070 Ti, RTX 4080) | Ollama + Mistral Small 3.1 | vLLM + Qwen3-Coder-14B | LlamaIndex + Mistral 3.1 | LangGraph + vLLM |
| 24 GB VRAM (RTX 3090, RTX 4090) | Ollama + Llama 3.3 70B Q4 | vLLM + Qwen3-Coder-32B | LlamaIndex + Llama 3.3 70B | LangGraph + vLLM (schnellstes) |
**Bester Stack: Ollama + OpenWebUI + Markdown-Editor**
Warum dieser Stack: OpenWebUI bietet die beste Chat-UX. Kein Coding erforderlich. Flexible Kontextfenster (4K–32K) übertreffen LM Studio für langes Schreiben. Günstiger als Cloud-APIs für Autoren.
- 1Für 24 GB VRAM: `ollama pull llama3.3:70b` — höchste Qualität, entspricht GPT-4 (2023) in Writing-Benchmarks.
- 2Für 16 GB VRAM: `ollama pull mistral-small3.1` — 128K Kontext, beste Qualität unter 24 GB.
- 3Für 8 GB VRAM: `ollama pull llama3.2:8b` — gute Schreibqualität, schnell auf Consumer-Hardware.
- 4OpenWebUI per Docker installieren: `docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui:latest`.
- 5Kontextfenster (8K–32K Tokens) in den OpenWebUI-Einstellungen entsprechend der Dokumentlänge konfigurieren.
Bester Stack: [vLLM + Qwen3-Coder + IDE-Erweiterung
Warum dieser Stack: Qwen3-Coder erzielt 82% auf HumanEval (bestes Open-Source-Coding-Modell, June 2026). vLLM ist 3–5-fach schneller als Ollama für Batch-Inferenz. Native OpenAI-API-Kompatibilität passt zu bestehenden IDE-Tools. Streaming für Echtzeit-Vorschläge aktiviert.
KI-gestützter Code-Review für mehrere Dateien
Für automatisierten Code-Review über mehrere Dateien nutzen Sie die Batch-Verarbeitung von vLLM:
- 1vLLM installieren: `pip install vllm`.
- 2vLLM-Server mit Qwen3-Coder-7B starten: `python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen3-Coder-7B-Instruct --port 8000`.
- 3Für 16+ GB VRAM, 14B verwenden: `--model Qwen/Qwen3-Coder-14B-Instruct`.
- 4IDE-Erweiterung (VS Code Continue.dev, Cursor etc.) mit `http://localhost:8000/v1` verbinden.
- 5Batch-Verarbeitung für Code-Review aktivieren: 10 Dateien parallel über einen API-Aufruf verarbeiten (`vllm` unterstützt standardmäßig batch=10).
# Review 10 files in parallel using vLLM batch processing
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
code_files = [
("utils.py", open("utils.py").read()),
("models.py", open("models.py").read()),
# ... up to 10 files
]
# vLLM processes all 10 in parallel (1 batch request)
reviews = []
for filename, code in code_files:
prompt = f"Review this code for bugs, style, and performance:
{code}"
response = client.chat.completions.create(
model="Qwen3-Coder-7B-Instruct",
messages=[{"role": "user", "content": prompt}],
temperature=0.2, # Deterministic for review tasks
)
reviews.append((filename, response.choices[0].message.content))
for filename, review in reviews:
print(f"=== {filename} ===
{review}
")Bester Stack: LlamaIndex + Ollama/vLLM + Qdrant + FastAPI UI
Warum dieser Stack: LlamaIndex übernimmt Chunking + Retrieval. Qdrant ist schnell, lokal und privat. Ollama liefert Embeddings (kostenlos) oder vLLM für LLM-Inferenz nutzen.
- 1LlamaIndex installieren (`pip install llama-index`).
- 2Dokumente (PDF, TXT, Markdown) in LlamaIndex laden.
- 3Dokumente in Chunks aufteilen (Standard: 1024 Tokens), mit lokalem Modell oder OpenAI (Backup) einbetten.
- 4Embeddings in Qdrant Vector DB speichern (läuft lokal via Docker).
- 5Per LlamaIndex abfragen: Top-K ähnliche Dokumente abrufen, LLM mit Kontext prompten.
- 6In FastAPI-Endpunkt für Web-UI oder IDE-Integration einbetten.
Bester Stack: LangGraph + vLLM + Tool-Definitionen
Warum dieser Stack: LangGraph bietet strukturierten Agenten-Flow. vLLM ist schnell genug für 10+ sequentielle LLM-Aufrufe. Tool-Nutzung ist explizit und debuggbar.
- 1LangGraph installieren (`pip install langchain langgraph`).
- 2Tools (Web-Suche, Rechner, Datei-I/O) als Funktionssignaturen definieren.
- 3Agenten-Graph erstellen: LLM als Entscheidungsknoten, Tools als Aktionsknoten.
- 4vLLM-Backend für latenzarme LLM-Aufrufe in engen Schleifen verwenden.
- 5Agenten-Loop ausführen: LLM → Tool-Auswahl → Tool-Ausführung → wiederholen bis abgeschlossen.
Bester Stack: vLLM + nginx Load Balancer + Monitoring
Warum dieser Stack: vLLM unterstützt verteiltes Serving. Nginx multiplext Anfragen. Skaliert auf 10+ gleichzeitige Benutzer auf einem Dual-GPU-System. Token-Durchsatz pro Benutzer überwachen.
Für den Einsatz in deutschen Unternehmen empfiehlt der BSI-IT-Grundschutz die Verarbeitung sensibler Daten auf lokal kontrollierten Systemen. Ein selbst betriebener vLLM-Server mit nginx erfüllt die Anforderungen von DSGVO Art. 28 (Auftragsverarbeitung) und ermöglicht Datensouveränität im DACH-Raum.
- 1vLLM mit `--served-model-name model-name` auf festem Port deployen.
- 2Nginx konfigurieren, um 2+ vLLM-Instanzen lastverteilt anzusprechen (eine pro GPU bei Multi-GPU).
- 3OpenAI-kompatiblen `/v1/chat/completions`-Endpunkt für Client-Kompatibilität verwenden.
- 4Über Prometheus-Scrape-Endpunkt überwachen (vLLM exportiert Anfragelatenz und Durchsatz-Metriken).
- 5Rate-Limiting pro Benutzer mit Token-Bucket-Algorithmus einrichten.
Bester Stack: HuggingFace Transformers + LoRA + Ollama (Inferenz)
Warum dieser Stack: LoRA reduziert den VRAM-Bedarf beim Fine-Tuning um den Faktor 10. Ollama lädt fine-getunete Modelle problemlos. Modular: auf einer Maschine trainieren, auf einer anderen serving betreiben.
Hinweis (June 2026): Meta hat Llama 3.3 für kommerzielles Fine-Tuning eingestellt. Fine-Tuning auf Llama 3.2 (`meta-llama/Llama-3.2-1B` oder größer) oder Qwen3 (`Qwen/Qwen3-7B`) für Apache 2.0 / Open-Source-Lizenzbedingungen durchführen. Beide unterstützen LoRA und werden in Ollama problemlos geladen.
- 1Mit der `peft`-Bibliothek (LoRA) fine-tunen, um den VRAM-Bedarf zu reduzieren.
- 2Training: 4-facher Modell-VRAM erforderlich (Optimizer-Zustand, Gradienten). Separat von Inferenz ausführen.
- 3LoRA-Adapter auf HuggingFace Hub oder im lokalen Dateisystem exportieren.
- 4Fine-getunetes Modell in Ollama laden: `ollama create mymodel -f Modelfile`.
- 5Oder HuggingFace TRL (Transformers Reinforcement Learning) für RLHF verwenden.
Bester Stack: Ollama (natives Streaming) oder vLLM + Server-Sent Events (SSE)
Warum dieser Stack: Streaming verbessert die wahrgenommene Performance (Benutzer sieht Token erscheinen). Ollama ist am einfachsten einzurichten. vLLM hat den höchsten Token-Durchsatz.
- 1Ollama: `/api/generate` mit `stream: true` aufrufen. Tokens kommen als newline-delimited JSON an.
- 2vLLM: `/v1/chat/completions` mit `stream: true` verwenden. Gibt OpenAI-kompatiblen SSE-Stream zurück.
- 3Frontend: EventSource API (JavaScript) verwenden, um Stream zu konsumieren und UI pro Token zu aktualisieren.
- 4Batch-Verarbeitung deaktivieren (batch=1) für niedrigste Latenz.
Soll ich Ollama oder vLLM verwenden?
Ollama für Chat-UI + Einfachheit. vLLM für API-Server + Batch-Verarbeitung + Performance. Nicht gegenseitig ausschließend; beide können gleichzeitig betrieben werden.
Kann ich Ollama als Produktions-API verwenden?
Ja, aber vLLM ist schneller (3–5-fach höherer Durchsatz). Ollama eignet sich für <10 Anfragen/Sek. vLLM für 10+ Anfragen/Sek.
Was ist der beste lokale LLM für Code-Review?
vLLM + Qwen3-Coder-7B-Instruct. Qwen3-Coder erzielt 82% auf HumanEval (bestes Open-Source-Coding-Modell). vLLM verarbeitet 10 Dateien parallel. Ca. 30–50 Tok/Sek auf RTX 3060 12 GB.
Brauche ich eine Vektordatenbank für einfaches RAG?
Für <100 Dokumente: In-Memory-Embeddings (np.ndarray) ausreichend. Für >100: Qdrant oder Weaviate verwenden, um Speicher-Bloat zu vermeiden.
Ist LangGraph zu aufwändig für einfache Chatbots?
Ja. Ollama oder vLLM allein verwenden. LangGraph ist für mehrstufige Workflows (Agenten-Loops, Planung).
Kann ich Ollama- und vLLM-Backends mischen?
Ja. Z. B. Ollama für Chat-UI, vLLM für Batch-API. Beide können auf derselben Maschine auf verschiedenen Ports betrieben werden.
Muss ich bei der Verwendung eines lokalen LLM-Stacks die DSGVO beachten?
Ja, wenn personenbezogene Daten verarbeitet werden. Lokale Inferenz mit Ollama oder vLLM hält alle Daten auf Ihrem eigenen Server – kein Datentransfer an externe Anbieter. Dies erfüllt die Anforderungen von DSGVO Art. 28 (Auftragsverarbeitung) und den BSI-IT-Grundschutz-Katalogen. Für den deutschen Mittelstand und DACH-Unternehmenseinsatz ist lokales LLM-Serving eine starke Wahl für datenschutzbewusste Teams: Inferenzdaten verlassen die eigene Infrastruktur nicht, was das Art.-44-DSGVO-Transferrisiko für die KI-Schicht eliminiert.
Ist ein lokaler LLM-Stack für den deutschen Mittelstand geeignet?
Ja. Der Einsatz von vLLM oder Ollama auf eigener Hardware entspricht den BSI-Grundschutz-Empfehlungen für IT-Sicherheit im Mittelstand. Für interne Prozesse (Dokumentenanalyse, Code-Review, RAG über Firmenwissen) bietet lokales LLM-Serving volle Datensouveränität ohne monatliche API-Kosten. Empfohlener Einstieg: Ollama auf einem dedizierten Server mit 24 GB VRAM (RTX 3090) – stabil, DSGVO-konform und skalierbar.
Weiterführende Artikel
- Beste KI-Coding-Assistenten für lokale LLM — IDE-Wahl für Ihren Coding-Stack (Cursor, Continue.dev, Cody).
- Beste lokale LLMs für Coding 2026 — Qwen3-Coder vs. DeepSeek-Coder HumanEval-Rankings.
- Lokales RAG einrichten 2026 — Vollständige Implementierungsanleitung: LlamaIndex + Qdrant + Ollama.
- Lokale LLM-Agenten mit LangGraph — Agenten-Workflow-Framework mit Schritt-für-Schritt-Beispielen.
- Ollama vs. LM Studio — Backend-Vergleich: CLI vs. GUI, Geschwindigkeit, Batch-Verarbeitung.
- Open WebUI vs. SillyTavern — Chat-UI-Vergleich: professionell vs. Rollenspiel.
- Wie viel VRAM brauchen lokale LLMs? — Hardware-Anforderungen nach Modellgröße und Anwendungsfall.
Häufige Fehler bei der Stack-Wahl
- Ollama für Produktions-API ohne vLLM verwenden: Ollama erreicht maximal <10 Anfragen/Sek. Für Produktionsumgebungen mit 10+ gleichzeitigen Benutzern ist vLLM obligatorisch. Throughput unter Last testen, bevor deployt wird.
- LangGraph ohne vLLM-Backend ausführen: LangGraph-Agenten führen 10+ sequentielle LLM-Aufrufe durch. Ollama verursacht Latenz-Engpässe. LangGraph immer mit vLLM für Sub-Sekunden-Round-Trip-Zeiten kombinieren.
- Ollama + vLLM ohne Speicherverwaltung auf derselben GPU ausführen: Beide Tools laden Gewichte in den VRAM. Zwei Instanzen eines 70B-Modells belegen 32 GB. Separate GPUs verwenden oder stark quantisieren (Q2), damit beide passen.
- Falsches Kontextfenster für das Schreiben wählen: Standard-4K-Kontext begrenzt Brainstorming-Sessions. Für langes Schreiben 16K–32K Kontext in OpenWebUI einstellen. Trade-off: langsamere Inferenz (2–3-fach langsamer pro Token).
- Davon ausgehen, dass alle Backends gleich schnell sind: vLLM und Ollama verwenden unterschiedliche Kernel. Auf gleicher Hardware ist vLLM 2–3-fach schneller für Inferenz. Der Geschwindigkeitsunterschied liegt am Backend, nicht am Frontend (OpenWebUI, LM Studio sind nur UIs).
Quellen
- Ollama GitHub — Offizielle Dokumentation, Streaming-API-Spezifikation und Modellbibliothek.
- vLLM GitHub — OpenAI-API-Kompatibilität, Batch-Verarbeitung und Continuous-Batching-Dokumentation.
- Qwen3-Coder Technical Report — Alibaba Qwen. 82% HumanEval-Score, spezialisiert für Coding-Aufgaben. Apache 2.0 lizenziert.
- LlamaIndex-Dokumentation — Dokument-Indexierung, Chunking und RAG-Retrieval-Framework.
- LangGraph-Dokumentation — Agenten-Workflow-Framework, Zustandsmaschinen, Tool-Use-Muster.
- Qdrant-Dokumentation — Vektordatenbank für lokale Embedding-Speicherung, Docker-ready, Apache 2.0.
- Continue.dev-Dokumentation — IDE-Erweiterung für VS Code und JetBrains mit lokalen LLM-Backends.