Wichtigste Erkenntnisse
- Schreiben/Content-Erstellung: Ollama + OpenWebUI. Keine Konfiguration, übersichtliche Chat-Oberfläche, Kontextfenster einstellbar.
- Coding/Code-Review: vLLM + FastAPI + VS-Code-Erweiterung. Batch-Verarbeitung, parallele Inferenz, Streaming.
- Lokales RAG: LlamaIndex + Ollama/vLLM + Qdrant Vector DB. Dokument-Chunking, Embedding und Retrieval integriert.
- KI-Agenten: LangGraph + vLLM-Backend. Tool-Nutzung, Speicher, Planungsloop. Steilere Lernkurve.
- Multi-Benutzer-API: vLLM hinter Load Balancer (nginx). Verarbeitet 10+ gleichzeitige Anfragen. Am skalierbarsten.
- Fine-Tuning: HuggingFace Transformers + LoRA + Ollama für Inferenz. Training und Serving getrennt.
- Echtzeit-Streaming: Ollama (natives Streaming) oder vLLM + Token-Streaming-Endpunkt. Beste UX für Chatbots.
Schnellentscheidung: Stack nach Hardware-Stufe (April 2026)
Passen Sie Ihre GPU/VRAM der optimalen Stack-Konfiguration an. Jede Kombination wurde anhand realer Benchmarks getestet. Coding- und Agenten-Workflows profitieren mehr von größeren Modellen als das Schreiben; RAG profitiert mehr von Embedding-Qualität als von LLM-Größe.
| Ihre Hardware | Schreiben | Coding | RAG | Agenten |
|---|---|---|---|---|
| 4–8 GB VRAM (GTX 1660, RTX 3050) | Ollama + Phi-4 Mini | Ollama + Qwen2.5-Coder-1.5B | LlamaIndex + Phi-4 Mini | Nicht empfohlen |
| 12 GB VRAM (RTX 3060, RTX 4070) | Ollama + Llama 3.2 8B | vLLM + Qwen2.5-Coder-7B | LlamaIndex + Llama 3.2 8B | LangGraph + Ollama (langsamer) |
| 16 GB VRAM (RTX 4070 Ti, RTX 4080) | Ollama + Mistral Small 3.1 | vLLM + Qwen2.5-Coder-14B | LlamaIndex + Mistral 3.1 | LangGraph + vLLM |
| 24 GB VRAM (RTX 3090, RTX 4090) | Ollama + Llama 3.3 70B Q4 | vLLM + Qwen2.5-Coder-32B | LlamaIndex + Llama 3.3 70B | LangGraph + vLLM (schnellstes) |
**Bester Stack: Ollama + OpenWebUI + Markdown-Editor**
Warum dieser Stack: OpenWebUI bietet die beste Chat-UX. Kein Coding erforderlich. Flexible Kontextfenster (4K–32K) übertreffen LM Studio für langes Schreiben. Günstiger als Cloud-APIs für Autoren.
- 1Für 24 GB VRAM: `ollama pull llama3.3:70b` — höchste Qualität, entspricht GPT-4 (2023) in Writing-Benchmarks.
- 2Für 16 GB VRAM: `ollama pull mistral-small3.1` — 128K Kontext, beste Qualität unter 24 GB.
- 3Für 8 GB VRAM: `ollama pull llama3.2:8b` — gute Schreibqualität, schnell auf Consumer-Hardware.
- 4OpenWebUI per Docker installieren: `docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui:latest`.
- 5Kontextfenster (8K–32K Tokens) in den OpenWebUI-Einstellungen entsprechend der Dokumentlänge konfigurieren.
**Bester Stack: vLLM + Qwen2.5-Coder + IDE-Erweiterung**
Warum dieser Stack: Qwen2.5-Coder erzielt 82% auf HumanEval (bestes Open-Source-Coding-Modell, April 2026). vLLM ist 3–5-fach schneller als Ollama für Batch-Inferenz. Native OpenAI-API-Kompatibilität passt zu bestehenden IDE-Tools. Streaming für Echtzeit-Vorschläge aktiviert.
KI-gestützter Code-Review für mehrere Dateien
Für automatisierten Code-Review über mehrere Dateien nutzen Sie die Batch-Verarbeitung von vLLM:
- 1vLLM installieren: `pip install vllm`.
- 2vLLM-Server mit Qwen2.5-Coder-7B starten: `python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-Coder-7B-Instruct --port 8000`.
- 3Für 16+ GB VRAM, 14B verwenden: `--model Qwen/Qwen2.5-Coder-14B-Instruct`.
- 4IDE-Erweiterung (VS Code Continue.dev, Cursor etc.) mit `http://localhost:8000/v1` verbinden.
- 5Batch-Verarbeitung für Code-Review aktivieren: 10 Dateien parallel über einen API-Aufruf verarbeiten (`vllm` unterstützt standardmäßig batch=10).
# Review 10 files in parallel using vLLM batch processing
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
code_files = [
("utils.py", open("utils.py").read()),
("models.py", open("models.py").read()),
# ... up to 10 files
]
# vLLM processes all 10 in parallel (1 batch request)
reviews = []
for filename, code in code_files:
prompt = f"Review this code for bugs, style, and performance:
{code}"
response = client.chat.completions.create(
model="Qwen2.5-Coder-7B-Instruct",
messages=[{"role": "user", "content": prompt}],
temperature=0.2, # Deterministic for review tasks
)
reviews.append((filename, response.choices[0].message.content))
for filename, review in reviews:
print(f"=== {filename} ===
{review}
")Bester Stack: LlamaIndex + Ollama/vLLM + Qdrant + FastAPI UI
Warum dieser Stack: LlamaIndex übernimmt Chunking + Retrieval. Qdrant ist schnell, lokal und privat. Ollama liefert Embeddings (kostenlos) oder vLLM für LLM-Inferenz nutzen.
- 1LlamaIndex installieren (`pip install llama-index`).
- 2Dokumente (PDF, TXT, Markdown) in LlamaIndex laden.
- 3Dokumente in Chunks aufteilen (Standard: 1024 Tokens), mit lokalem Modell oder OpenAI (Backup) einbetten.
- 4Embeddings in Qdrant Vector DB speichern (läuft lokal via Docker).
- 5Per LlamaIndex abfragen: Top-K ähnliche Dokumente abrufen, LLM mit Kontext prompten.
- 6In FastAPI-Endpunkt für Web-UI oder IDE-Integration einbetten.
Bester Stack: LangGraph + vLLM + Tool-Definitionen
Warum dieser Stack: LangGraph bietet strukturierten Agenten-Flow. vLLM ist schnell genug für 10+ sequentielle LLM-Aufrufe. Tool-Nutzung ist explizit und debuggbar.
- 1LangGraph installieren (`pip install langchain langgraph`).
- 2Tools (Web-Suche, Rechner, Datei-I/O) als Funktionssignaturen definieren.
- 3Agenten-Graph erstellen: LLM als Entscheidungsknoten, Tools als Aktionsknoten.
- 4vLLM-Backend für latenzarme LLM-Aufrufe in engen Schleifen verwenden.
- 5Agenten-Loop ausführen: LLM → Tool-Auswahl → Tool-Ausführung → wiederholen bis abgeschlossen.
Bester Stack: vLLM + nginx Load Balancer + Monitoring
Warum dieser Stack: vLLM unterstützt verteiltes Serving. Nginx multiplext Anfragen. Skaliert auf 10+ gleichzeitige Benutzer auf einem Dual-GPU-System. Token-Durchsatz pro Benutzer überwachen.
Für den Einsatz in deutschen Unternehmen empfiehlt der BSI-IT-Grundschutz die Verarbeitung sensibler Daten auf lokal kontrollierten Systemen. Ein selbst betriebener vLLM-Server mit nginx erfüllt die Anforderungen von DSGVO Art. 28 (Auftragsverarbeitung) und ermöglicht Datensouveränität im DACH-Raum.
- 1vLLM mit `--served-model-name model-name` auf festem Port deployen.
- 2Nginx konfigurieren, um 2+ vLLM-Instanzen lastverteilt anzusprechen (eine pro GPU bei Multi-GPU).
- 3OpenAI-kompatiblen `/v1/chat/completions`-Endpunkt für Client-Kompatibilität verwenden.
- 4Über Prometheus-Scrape-Endpunkt überwachen (vLLM exportiert Anfragelatenz und Durchsatz-Metriken).
- 5Rate-Limiting pro Benutzer mit Token-Bucket-Algorithmus einrichten.
Bester Stack: HuggingFace Transformers + LoRA + Ollama (Inferenz)
Warum dieser Stack: LoRA reduziert den VRAM-Bedarf beim Fine-Tuning um den Faktor 10. Ollama lädt fine-getunete Modelle problemlos. Modular: auf einer Maschine trainieren, auf einer anderen serving betreiben.
Hinweis (April 2026): Meta hat Llama 2 für kommerzielles Fine-Tuning eingestellt. Fine-Tuning auf Llama 3.2 (`meta-llama/Llama-3.2-1B` oder größer) oder Qwen2.5 (`Qwen/Qwen2.5-7B`) für Apache 2.0 / Open-Source-Lizenzbedingungen durchführen. Beide unterstützen LoRA und werden in Ollama problemlos geladen.
- 1Mit der `peft`-Bibliothek (LoRA) fine-tunen, um den VRAM-Bedarf zu reduzieren.
- 2Training: 4-facher Modell-VRAM erforderlich (Optimizer-Zustand, Gradienten). Separat von Inferenz ausführen.
- 3LoRA-Adapter auf HuggingFace Hub oder im lokalen Dateisystem exportieren.
- 4Fine-getunetes Modell in Ollama laden: `ollama create mymodel -f Modelfile`.
- 5Oder HuggingFace TRL (Transformers Reinforcement Learning) für RLHF verwenden.
Bester Stack: Ollama (natives Streaming) oder vLLM + Server-Sent Events (SSE)
Warum dieser Stack: Streaming verbessert die wahrgenommene Performance (Benutzer sieht Token erscheinen). Ollama ist am einfachsten einzurichten. vLLM hat den höchsten Token-Durchsatz.
- 1Ollama: `/api/generate` mit `stream: true` aufrufen. Tokens kommen als newline-delimited JSON an.
- 2vLLM: `/v1/chat/completions` mit `stream: true` verwenden. Gibt OpenAI-kompatiblen SSE-Stream zurück.
- 3Frontend: EventSource API (JavaScript) verwenden, um Stream zu konsumieren und UI pro Token zu aktualisieren.
- 4Batch-Verarbeitung deaktivieren (batch=1) für niedrigste Latenz.
Soll ich Ollama oder vLLM verwenden?
Ollama für Chat-UI + Einfachheit. vLLM für API-Server + Batch-Verarbeitung + Performance. Nicht gegenseitig ausschließend; beide können gleichzeitig betrieben werden.
Kann ich Ollama als Produktions-API verwenden?
Ja, aber vLLM ist schneller (3–5-fach höherer Durchsatz). Ollama eignet sich für <10 Anfragen/Sek. vLLM für 10+ Anfragen/Sek.
Was ist der beste lokale LLM für Code-Review?
vLLM + Qwen2.5-Coder-7B-Instruct. Qwen2.5-Coder erzielt 82% auf HumanEval (bestes Open-Source-Coding-Modell). vLLM verarbeitet 10 Dateien parallel. Ca. 30–50 Tok/Sek auf RTX 3060 12 GB.
Brauche ich eine Vektordatenbank für einfaches RAG?
Für <100 Dokumente: In-Memory-Embeddings (np.ndarray) ausreichend. Für >100: Qdrant oder Weaviate verwenden, um Speicher-Bloat zu vermeiden.
Ist LangGraph zu aufwändig für einfache Chatbots?
Ja. Ollama oder vLLM allein verwenden. LangGraph ist für mehrstufige Workflows (Agenten-Loops, Planung).
Kann ich Ollama- und vLLM-Backends mischen?
Ja. Z. B. Ollama für Chat-UI, vLLM für Batch-API. Beide können auf derselben Maschine auf verschiedenen Ports betrieben werden.
Muss ich bei der Verwendung eines lokalen LLM-Stacks die DSGVO beachten?
Ja, wenn personenbezogene Daten verarbeitet werden. Lokale Inferenz mit Ollama oder vLLM hält alle Daten auf Ihrem eigenen Server – kein Datentransfer an externe Anbieter. Dies erfüllt die Anforderungen von DSGVO Art. 28 (Auftragsverarbeitung) und den BSI-IT-Grundschutz-Katalogen. Für den deutschen Mittelstand und DACH-Unternehmenseinsatz ist lokales LLM-Serving die datenschutzrechtlich sicherste Option.
Ist ein lokaler LLM-Stack für den deutschen Mittelstand geeignet?
Ja. Der Einsatz von vLLM oder Ollama auf eigener Hardware entspricht den BSI-Grundschutz-Empfehlungen für IT-Sicherheit im Mittelstand. Für interne Prozesse (Dokumentenanalyse, Code-Review, RAG über Firmenwissen) bietet lokales LLM-Serving volle Datensouveränität ohne monatliche API-Kosten. Empfohlener Einstieg: Ollama auf einem dedizierten Server mit 24 GB VRAM (RTX 3090) – stabil, DSGVO-konform und skalierbar.
Weiterführende Artikel
- Beste KI-Coding-Assistenten für lokale LLM — IDE-Wahl für Ihren Coding-Stack (Cursor, Continue.dev, Cody).
- Beste lokale LLMs für Coding 2026 — Qwen2.5-Coder vs. DeepSeek-Coder HumanEval-Rankings.
- Lokales RAG einrichten 2026 — Vollständige Implementierungsanleitung: LlamaIndex + Qdrant + Ollama.
- Lokale LLM-Agenten mit LangGraph — Agenten-Workflow-Framework mit Schritt-für-Schritt-Beispielen.
- Ollama vs. LM Studio — Backend-Vergleich: CLI vs. GUI, Geschwindigkeit, Batch-Verarbeitung.
- Open WebUI vs. SillyTavern — Chat-UI-Vergleich: professionell vs. Rollenspiel.
- Wie viel VRAM brauchen lokale LLMs? — Hardware-Anforderungen nach Modellgröße und Anwendungsfall.
Häufige Fehler bei der Stack-Wahl
- Ollama für Produktions-API ohne vLLM verwenden: Ollama erreicht maximal <10 Anfragen/Sek. Für Produktionsumgebungen mit 10+ gleichzeitigen Benutzern ist vLLM obligatorisch. Throughput unter Last testen, bevor deployt wird.
- LangGraph ohne vLLM-Backend ausführen: LangGraph-Agenten führen 10+ sequentielle LLM-Aufrufe durch. Ollama verursacht Latenz-Engpässe. LangGraph immer mit vLLM für Sub-Sekunden-Round-Trip-Zeiten kombinieren.
- Ollama + vLLM ohne Speicherverwaltung auf derselben GPU ausführen: Beide Tools laden Gewichte in den VRAM. Zwei Instanzen eines 70B-Modells belegen 32 GB. Separate GPUs verwenden oder stark quantisieren (Q2), damit beide passen.
- Falsches Kontextfenster für das Schreiben wählen: Standard-4K-Kontext begrenzt Brainstorming-Sessions. Für langes Schreiben 16K–32K Kontext in OpenWebUI einstellen. Trade-off: langsamere Inferenz (2–3-fach langsamer pro Token).
- Davon ausgehen, dass alle Backends gleich schnell sind: vLLM und Ollama verwenden unterschiedliche Kernel. Auf gleicher Hardware ist vLLM 2–3-fach schneller für Inferenz. Der Geschwindigkeitsunterschied liegt am Backend, nicht am Frontend (OpenWebUI, LM Studio sind nur UIs).
Quellen
- Ollama GitHub — Offizielle Dokumentation, Streaming-API-Spezifikation und Modellbibliothek.
- vLLM GitHub — OpenAI-API-Kompatibilität, Batch-Verarbeitung und Continuous-Batching-Dokumentation.
- Qwen2.5-Coder Technical Report — Alibaba Qwen. 82% HumanEval-Score, spezialisiert für Coding-Aufgaben. Apache 2.0 lizenziert.
- LlamaIndex-Dokumentation — Dokument-Indexierung, Chunking und RAG-Retrieval-Framework.
- LangGraph-Dokumentation — Agenten-Workflow-Framework, Zustandsmaschinen, Tool-Use-Muster.
- Qdrant-Dokumentation — Vektordatenbank für lokale Embedding-Speicherung, Docker-ready, Apache 2.0.
- Continue.dev-Dokumentation — IDE-Erweiterung für VS Code und JetBrains mit lokalen LLM-Backends.