Wichtigste Erkenntnisse
- llama.cpp: Schnellste Einzel-Token-Latenz (niedrigstes ms/Token). Ideal für interaktiven Chat. Minimale Abhängigkeiten.
- Ollama: Einfachste Nutzung. Ein Befehl, automatische Modell-Downloads. Trade-off: 5–10 % geringerer Durchsatz als llama.cpp.
- vLLM: Höchster Durchsatz (Token/Sek.) bei Batch-Anfragen. Ideal für produktive API-Server. Steilere Lernkurve.
- Einzelnutzer-Chat: llama.cpp oder Ollama (nahezu gleiche Geschwindigkeit).
- Multi-User-API: vLLM (3–5× höherer Durchsatz).
- Gelegentliche Nutzung: Ollama (Einfachheit gewinnt).
- Alle drei erzeugen identische Modellausgaben – Geschwindigkeit und Durchsatz unterscheiden sich.
- Alle drei können gleichzeitig auf derselben Maschine laufen (verschiedene Ports). Sie konfliktieren nicht.
Geschwindigkeits-Benchmarks — RTX 4090 24 GB
llama.cpp führt mit 38 Tok/s bei Einzelanfragen; vLLM dominiert mit 250+ Tok/s im Batch-Betrieb. Gemessen auf RTX 4090 24 GB, Llama 3.3 70B Q4_K_M, Einzelanfrage, April 2026:
| Backend | Token/Sek. | ms/Token | VRAM-Nutzung | Batch-Durchsatz |
|---|---|---|---|---|
| llama.cpp | 38 | 26 | 39 GB | N/A (kein Batch) |
| Ollama | 36 | 28 | 39 GB | N/A (Einzel-Batch) |
| vLLM | 34 | 29 | 41 GB | 250+ Tok/s (kontinuierlich) |
Geschwindigkeits-Benchmarks — RTX 3060 12 GB
Gemessen auf RTX 3060 12 GB, Llama 3.2 8B Q4_K_M, Einzelanfrage, April 2026:
| Backend | Token/Sek. | ms/Token | VRAM-Nutzung | Batch-Durchsatz |
|---|---|---|---|---|
| llama.cpp | 52 | 19 | 5,2 GB | N/A |
| Ollama | 48 | 21 | 5,4 GB | N/A |
| vLLM | 45 | 22 | 6,1 GB | 180 Tok/s (Batch=8) |
Feature-Vergleichstabelle
llama.cpp: beste Quantisierung & rohе Geschwindigkeit. Ollama: einfachste Installation. vLLM: bestes Batching für Production.
| Merkmal | llama.cpp | Ollama | vLLM |
|---|---|---|---|
| Installationszeit | 30 Min. (Kompilieren) | 5 Min. (ein Befehl) | 15 Min. (pip install) |
| OpenAI-kompatibler API | ✅ (llama-server) | ✅ (nativ) | ✅ (nativ) |
| Modellformat | GGUF | GGUF | SafeTensors / HF |
| GPU-Unterstützung | CUDA, ROCm, Metal | CUDA, ROCm, Metal | Nur CUDA |
| Batch-Verarbeitung | ❌ | ❌ | ✅ kontinuierlich |
| Multi-GPU | ❌ | ❌ | ✅ Tensor-parallel |
| Apple Silicon | ✅ Metal | ✅ Metal | ❌ |
| Chat-Oberfläche | ❌ (nur Server) | ❌ (Open WebUI nötig) | ❌ (nur API) |
| Lizenz | MIT | MIT | Apache 2.0 |
Batching & Durchsatz
vLLM verarbeitet 32+ Anfragen parallel; llama.cpp und Ollama verarbeiten jeweils eine gleichzeitig. Hier dominiert vLLM:
- llama.cpp: Kein natives Batching. Eine Anfrage gleichzeitig. Latenz: 27 ms/Token. Durchsatz: 36 Tok/s.
- Ollama: Nur Single-Batch. Kann nicht 2+ Anfragen parallel verarbeiten. Gleicher Durchsatz wie llama.cpp.
- vLLM: Natives Continuous-Batching (verarbeitet gleichzeitige Anfragen dynamisch). Verarbeitet 32 Anfragen gleichzeitig. Durchsatz: 250+ Tok/s auf derselben RTX 4090.
- vLLMs Vorteil multipliziert sich mit gleichzeitigen Nutzern. Für API-Server mit 10+ Nutzern: vLLM ist Pflicht.
Setup-Aufwand
Ollama ist am einfachsten (5 Min.); vLLM erfordert Python (15 Min.); llama.cpp erfordert Kompilierung (30 Min.). Hier der Überblick:
llama.cpp: Quellcode kompilieren oder Binary herunterladen. Manuelle Modell-Dateiverwaltung. Setup: 30 Min.
Ollama: `brew install ollama` oder Installer herunterladen. `ollama run llama3.2`. Setup: 5 Min.
vLLM: `pip install vllm`, dann `python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3.3-8B-Instruct`. Setup: 15 Min. (Python + Abhängigkeiten).
Sieger bei Einfachheit: Ollama.
API-Kompatibilität
Alle drei unterstützen jetzt OpenAI-kompatible APIs; Ollama und vLLM sind am einfachsten.
llama.cpp: OpenAI-kompatible API (via `llama-server`, seit Ende 2024). Funktioniert mit IDE-Erweiterungen.
Ollama: OpenAI-kompatible API (via `ollama serve` + Client-Bibliothek). Funktioniert mit den meisten IDE-Erweiterungen.
vLLM: OpenAI-kompatible API (natives `/v1/chat/completions`). Beste Kompatibilität.
Für IDE-Integration (VS Code, Cursor): Ollama oder vLLM. llama.cpp überspringen.
Wann welches Backend verwenden?
llama.cpp: Minimale Abhängigkeiten, reine Geschwindigkeit. Verwenden Sie es beim Entwickeln einer eigenen Inferenz-Engine. Ideal für Mac (Metal-Beschleunigung).
Ollama: Alles-inklusive-Einfachheit. Verwenden Sie es für Chat-UI und private Nutzung. Funktioniert auf Mac, Linux und Windows.
vLLM: Produktiver API-Server. Verwenden Sie es für Multi-User-Deployments und hohe Durchsatzanforderungen. Erfordert NVIDIA CUDA – läuft nicht auf Apple Silicon (M1/M2/M3/M4).
Häufige Fehler bei der Wahl des Inference-Backends
- Fehler: Annahme, dass llama.cpp immer am schnellsten ist. Dies gilt nur für die Einzel-Token-Latenz. vLLM gewinnt beim Durchsatz für Batch-Anfragen (7× schneller mit 10+ gleichzeitigen Nutzern).
- Fehler: Ollama als langsam abzustempeln. Ollama ist nur 5–10 % langsamer als reines llama.cpp – ein vernachlässigbarer Unterschied für interaktiven Chat, bei dem 34 Tok/s sich sofort anfühlt.
- Fehler: Zu glauben, man müsse sich für ein Backend entscheiden. Sie können alle drei gleichzeitig auf verschiedenen Ports betreiben. Nutzen Sie Ollama für den persönlichen Chat, vLLM für Ihren API-Server.
- Fehler: vLLM für Einzelnutzer-Chat einsetzen. vLLMs Vorteil liegt im Batching. Für interaktiven Einzelnutzer-Chat gewinnt Ollamas einfacheres Setup.
Regionaler Kontext & Datenspeicherung
EU/DSGVO: Alle drei Backends laufen vollständig On-Premises. Da keine Daten Ihre Infrastruktur verlassen, entfällt nach DSGVO Art. 28 die Pflicht zum Abschluss eines Auftragsverarbeitungsvertrags. Die BSI-Grundschutz-Kataloge empfehlen On-Premises-Inferenz für kritische Verarbeitungstätigkeiten in den Bereichen Finanzen, Gesundheit und Recht. Für DACH-Unternehmen (Deutschland, Österreich, Schweiz) entspricht lokale Inferenz den IT-Sicherheitsstandards für den Umgang mit personenbezogenen und unternehmenskritischen Daten.
Japan/APPI: On-Premises-Inferenz erfüllt die APPI-Anforderungen für sensible personenbezogene Daten. vLLM wird in japanischen Unternehmensdeployments für die Batch-Dokumentenverarbeitung eingesetzt.
China/Datensicherheitsgesetz (2021): Lokale Inferenz vermeidet Beschränkungen bei grenzüberschreitenden Datenübertragungen. llama.cpp und Ollama werden in China häufig mit Qwen2.5-Modellen eingesetzt.
FAQ
Welches Backend sollte ich als Einsteiger verwenden?
Ollama. Ein Befehl, automatische Modell-Downloads, übersichtliche Oberfläche.
Welches ist am schnellsten?
Bei einer Einzelanfrage: llama.cpp (~3 % schneller als Ollama). Bei 10 gleichzeitigen Anfragen: vLLM (~7× schneller).
Kann ich llama.cpp statt Ollama verwenden?
Ja, aber mehr Aufwand beim Setup. Der Geschwindigkeitsvorteil ist für die meisten Nutzer vernachlässigbar (3–5 %).
Ist vLLM produktionsreif?
Ja. In echten Deployments im Einsatz. Steilere Lernkurve, aber lohnenswert für hohen Durchsatz.
Kann ich Backends wechseln ohne Neutraining?
llama.cpp und Ollama verwenden das GGUF-Format (direkt austauschbar). vLLM verwendet SafeTensors und erfordert eine Modellkonvertierung.
Welches Backend ist am stabilsten?
Ollama (einfach, weniger Fehler). llama.cpp ist ebenfalls stabil. vLLM wird häufig aktualisiert (mehr Features, gelegentliche Breaking Changes).
Funktioniert vLLM auf dem Mac?
Nein. vLLM erfordert NVIDIA CUDA. Für Mac: llama.cpp oder Ollama mit Metal-Beschleunigung verwenden.
Muss ich die DSGVO bei der Nutzung dieser Backends beachten?
Alle drei laufen vollständig On-Premises. Keine Daten verlassen Ihre Infrastruktur, daher ist kein Auftragsverarbeitungsvertrag nach DSGVO Art. 28 erforderlich. Die lokale Inferenz ist gemäß BSI-Grundschutz-Katalogen für sensible Daten geeignet.
Sind diese Backends für den deutschen Mittelstand geeignet?
Ja. Ollama eignet sich besonders für KMUs im DACH-Raum: einfacher Einstieg, keine Drittanbieter-Abhängigkeiten, Betrieb im eigenen Rechenzentrum. vLLM bei höherem Anfragevolumen. BSI-Grundschutz empfiehlt On-Premises für kritische Daten.
Weiterführende Artikel
- Ollama vs. LM Studio: Was sollten Sie wählen? — Direkter Vergleich der zwei beliebtesten lokalen LLM-Oberflächen
- Bester lokaler LLM-Stack nach Anwendungsfall (2026) — Empfohlene Kombinationen für Chat, Coding und API-Serving
- Text Generation WebUI vs. vLLM vs. llama.cpp — Tieferer Vergleich einschließlich AUTOMATIC1111-ähnlicher Frontends
- Beste lokale LLM-Frontends (2026) — OpenWebUI, Chatbot UI und 8 weitere Optionen im Ranking
- Ollama installieren — 2-Minuten-Setup-Anleitung für macOS, Windows & Linux
- Lokale LLM OpenAI-kompatible API — Drop-in-Ersatz für die OpenAI API mit lokalen Modellen