llama.cpp ist am schnellsten pro Token bei kleinen Modellen; Ollama ist am einfachsten; vLLM ist am besten für Durchsatz und Batching. Stand April 2026: Wählen Sie nach Anwendungsfall – gelegentlicher Chat → Ollama; Einzelnutzer-Geschwindigkeit → llama.cpp; Multi-User/Batching → vLLM. Alle drei führen dieselben Modelle aus und erzeugen identische Ausgaben – Geschwindigkeit und Durchsatz unterscheiden sich.

Wichtigste Erkenntnisse

llama.cpp: Schnellste Einzel-Token-Latenz (niedrigstes ms/Token). Ideal für interaktiven Chat. Minimale Abhängigkeiten.
Ollama: Einfachste Nutzung. Ein Befehl, automatische Modell-Downloads. Trade-off: 5–10 % geringerer Durchsatz als llama.cpp.
vLLM: Höchster Durchsatz (Token/Sek.) bei Batch-Anfragen. Ideal für produktive API-Server. Steilere Lernkurve.
Einzelnutzer-Chat: llama.cpp oder Ollama (nahezu gleiche Geschwindigkeit).
Multi-User-API: vLLM (3–5× höherer Durchsatz).
Gelegentliche Nutzung: Ollama (Einfachheit gewinnt).
Alle drei erzeugen identische Modellausgaben – Geschwindigkeit und Durchsatz unterscheiden sich.
Alle drei können gleichzeitig auf derselben Maschine laufen (verschiedene Ports). Sie konfliktieren nicht.

Geschwindigkeits-Benchmarks — RTX 4090 24 GB

llama.cpp führt mit 38 Tok/s bei Einzelanfragen; vLLM dominiert mit 250+ Tok/s im Batch-Betrieb. Gemessen auf RTX 4090 24 GB, Llama 3.3 70B Q4_K_M, Einzelanfrage, April 2026:

Backend	Token/Sek.	ms/Token	VRAM-Nutzung	Batch-Durchsatz
llama.cpp	38	26	39 GB	N/A (kein Batch)
Ollama	36	28	39 GB	N/A (Einzel-Batch)
vLLM	34	29	41 GB	250+ Tok/s (kontinuierlich)

Geschwindigkeit & Durchsatz im Vergleich: llama.cpp 38 Tok/s Einzel-Token (26 ms), Ollama 36 Tok/s, vLLM 34 Tok/s bei Einzelanfrage, aber vLLM 250+ Tok/s im Batch-Betrieb (10 gleichzeitige Anfragen).

Geschwindigkeits-Benchmarks — RTX 3060 12 GB

Gemessen auf RTX 3060 12 GB, Llama 3.2 8B Q4_K_M, Einzelanfrage, April 2026:

Backend	Token/Sek.	ms/Token	VRAM-Nutzung	Batch-Durchsatz
llama.cpp	52	19	5,2 GB	N/A
Ollama	48	21	5,4 GB	N/A
vLLM	45	22	6,1 GB	180 Tok/s (Batch=8)

Feature-Vergleichstabelle

llama.cpp: beste Quantisierung & rohе Geschwindigkeit. Ollama: einfachste Installation. vLLM: bestes Batching für Production.

Merkmal	llama.cpp	Ollama	vLLM
Installationszeit	30 Min. (Kompilieren)	5 Min. (ein Befehl)	15 Min. (pip install)
OpenAI-kompatibler API	✅ (llama-server)	✅ (nativ)	✅ (nativ)
Modellformat	GGUF	GGUF	SafeTensors / HF
GPU-Unterstützung	CUDA, ROCm, Metal	CUDA, ROCm, Metal	Nur CUDA
Batch-Verarbeitung	❌	❌	✅ kontinuierlich
Multi-GPU	❌	❌	✅ Tensor-parallel
Apple Silicon	✅ Metal	✅ Metal	❌
Chat-Oberfläche	❌ (nur Server)	❌ (Open WebUI nötig)	❌ (nur API)
Lizenz	MIT	MIT	Apache 2.0

Batching & Durchsatz

vLLM verarbeitet 32+ Anfragen parallel; llama.cpp und Ollama verarbeiten jeweils eine gleichzeitig. Hier dominiert vLLM:

llama.cpp: Kein natives Batching. Eine Anfrage gleichzeitig. Latenz: 27 ms/Token. Durchsatz: 36 Tok/s.
Ollama: Nur Single-Batch. Kann nicht 2+ Anfragen parallel verarbeiten. Gleicher Durchsatz wie llama.cpp.
vLLM: Natives Continuous-Batching (verarbeitet gleichzeitige Anfragen dynamisch). Verarbeitet 32 Anfragen gleichzeitig. Durchsatz: 250+ Tok/s auf derselben RTX 4090.
vLLMs Vorteil multipliziert sich mit gleichzeitigen Nutzern. Für API-Server mit 10+ Nutzern: vLLM ist Pflicht.

Setup-Aufwand

Ollama ist am einfachsten (5 Min.); vLLM erfordert Python (15 Min.); llama.cpp erfordert Kompilierung (30 Min.). Hier der Überblick:

llama.cpp: Quellcode kompilieren oder Binary herunterladen. Manuelle Modell-Dateiverwaltung. Setup: 30 Min.

Ollama: `brew install ollama` oder Installer herunterladen. `ollama run llama3.2`. Setup: 5 Min.

vLLM: `pip install vllm`, dann `python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3.3-8B-Instruct`. Setup: 15 Min. (Python + Abhängigkeiten).

Sieger bei Einfachheit: Ollama.

API-Kompatibilität

Alle drei unterstützen jetzt OpenAI-kompatible APIs; Ollama und vLLM sind am einfachsten.

llama.cpp: OpenAI-kompatible API (via `llama-server`, seit Ende 2024). Funktioniert mit IDE-Erweiterungen.

Ollama: OpenAI-kompatible API (via `ollama serve` + Client-Bibliothek). Funktioniert mit den meisten IDE-Erweiterungen.

vLLM: OpenAI-kompatible API (natives `/v1/chat/completions`). Beste Kompatibilität.

Für IDE-Integration (VS Code, Cursor): Ollama oder vLLM. llama.cpp überspringen.

Wann welches Backend verwenden?

llama.cpp: Minimale Abhängigkeiten, reine Geschwindigkeit. Verwenden Sie es beim Entwickeln einer eigenen Inferenz-Engine. Ideal für Mac (Metal-Beschleunigung).

Ollama: Alles-inklusive-Einfachheit. Verwenden Sie es für Chat-UI und private Nutzung. Funktioniert auf Mac, Linux und Windows.

vLLM: Produktiver API-Server. Verwenden Sie es für Multi-User-Deployments und hohe Durchsatzanforderungen. Erfordert NVIDIA CUDA – läuft nicht auf Apple Silicon (M1/M2/M3/M4).

Backend-Auswahlmatrix: Ollama ideal für persönlichen Chat (1 Nutzer). llama.cpp für benutzerdefinierte Inferenz. vLLM einzige Wahl für produktive APIs mit 10+ gleichzeitigen Nutzern. Alle drei erzeugen identische Modellausgaben.

Häufige Fehler bei der Wahl des Inference-Backends

Fehler: Annahme, dass llama.cpp immer am schnellsten ist. Dies gilt nur für die Einzel-Token-Latenz. vLLM gewinnt beim Durchsatz für Batch-Anfragen (7× schneller mit 10+ gleichzeitigen Nutzern).
Fehler: Ollama als langsam abzustempeln. Ollama ist nur 5–10 % langsamer als reines llama.cpp – ein vernachlässigbarer Unterschied für interaktiven Chat, bei dem 34 Tok/s sich sofort anfühlt.
Fehler: Zu glauben, man müsse sich für ein Backend entscheiden. Sie können alle drei gleichzeitig auf verschiedenen Ports betreiben. Nutzen Sie Ollama für den persönlichen Chat, vLLM für Ihren API-Server.
Fehler: vLLM für Einzelnutzer-Chat einsetzen. vLLMs Vorteil liegt im Batching. Für interaktiven Einzelnutzer-Chat gewinnt Ollamas einfacheres Setup.

Regionaler Kontext & Datenspeicherung

EU/DSGVO: Alle drei Backends laufen vollständig On-Premises. Da keine Daten Ihre Infrastruktur verlassen, entfällt nach DSGVO Art. 28 die Pflicht zum Abschluss eines Auftragsverarbeitungsvertrags. Die BSI-Grundschutz-Kataloge empfehlen On-Premises-Inferenz für kritische Verarbeitungstätigkeiten in den Bereichen Finanzen, Gesundheit und Recht. Für DACH-Unternehmen (Deutschland, Österreich, Schweiz) entspricht lokale Inferenz den IT-Sicherheitsstandards für den Umgang mit personenbezogenen und unternehmenskritischen Daten.

Japan/APPI: On-Premises-Inferenz erfüllt die APPI-Anforderungen für sensible personenbezogene Daten. vLLM wird in japanischen Unternehmensdeployments für die Batch-Dokumentenverarbeitung eingesetzt.

China/Datensicherheitsgesetz (2021): Lokale Inferenz vermeidet Beschränkungen bei grenzüberschreitenden Datenübertragungen. llama.cpp und Ollama werden in China häufig mit Qwen2.5-Modellen eingesetzt.

FAQ

Welches Backend sollte ich als Einsteiger verwenden?

Ollama. Ein Befehl, automatische Modell-Downloads, übersichtliche Oberfläche.

Welches ist am schnellsten?

Bei einer Einzelanfrage: llama.cpp (~3 % schneller als Ollama). Bei 10 gleichzeitigen Anfragen: vLLM (~7× schneller).

Kann ich llama.cpp statt Ollama verwenden?

Ja, aber mehr Aufwand beim Setup. Der Geschwindigkeitsvorteil ist für die meisten Nutzer vernachlässigbar (3–5 %).

Ist vLLM produktionsreif?

Ja. In echten Deployments im Einsatz. Steilere Lernkurve, aber lohnenswert für hohen Durchsatz.

Kann ich Backends wechseln ohne Neutraining?

llama.cpp und Ollama verwenden das GGUF-Format (direkt austauschbar). vLLM verwendet SafeTensors und erfordert eine Modellkonvertierung.

Welches Backend ist am stabilsten?

Ollama (einfach, weniger Fehler). llama.cpp ist ebenfalls stabil. vLLM wird häufig aktualisiert (mehr Features, gelegentliche Breaking Changes).

Funktioniert vLLM auf dem Mac?

Nein. vLLM erfordert NVIDIA CUDA. Für Mac: llama.cpp oder Ollama mit Metal-Beschleunigung verwenden.

Muss ich die DSGVO bei der Nutzung dieser Backends beachten?

Alle drei laufen vollständig On-Premises. Keine Daten verlassen Ihre Infrastruktur, daher ist kein Auftragsverarbeitungsvertrag nach DSGVO Art. 28 erforderlich. Die lokale Inferenz ist gemäß BSI-Grundschutz-Katalogen für sensible Daten geeignet.

Sind diese Backends für den deutschen Mittelstand geeignet?

Ja. Ollama eignet sich besonders für KMUs im DACH-Raum: einfacher Einstieg, keine Drittanbieter-Abhängigkeiten, Betrieb im eigenen Rechenzentrum. vLLM bei höherem Anfragevolumen. BSI-Grundschutz empfiehlt On-Premises für kritische Daten.

Weiterführende Artikel

Ollama vs. LM Studio: Was sollten Sie wählen? — Direkter Vergleich der zwei beliebtesten lokalen LLM-Oberflächen
Bester lokaler LLM-Stack nach Anwendungsfall (2026) — Empfohlene Kombinationen für Chat, Coding und API-Serving
Text Generation WebUI vs. vLLM vs. llama.cpp — Tieferer Vergleich einschließlich AUTOMATIC1111-ähnlicher Frontends
Beste lokale LLM-Frontends (2026) — OpenWebUI, Chatbot UI und 8 weitere Optionen im Ranking
Ollama installieren — 2-Minuten-Setup-Anleitung für macOS, Windows & Linux
Lokale LLM OpenAI-kompatible API — Drop-in-Ersatz für die OpenAI API mit lokalen Modellen

llama.cpp vs Ollama vs vLLM 2026: Geschwindigkeit & GPU-Benchmarks

Präsentation: llama.cpp vs Ollama vs vLLM 2026: Geschwindigkeit & GPU-Benchmarks