PromptQuorumPromptQuorum
Startseite/Lokale LLMs/llama.cpp vs Ollama vs vLLM 2026: Geschwindigkeit & GPU-Benchmarks
Tools & Schnittstellen

llama.cpp vs Ollama vs vLLM 2026: Geschwindigkeit & GPU-Benchmarks

·9 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

llama.cpp ist am schnellsten pro Token bei kleinen Modellen; Ollama ist am einfachsten; vLLM ist am besten für Durchsatz und Batching. Stand April 2026: Wählen Sie nach Anwendungsfall – gelegentlicher Chat → Ollama; Einzelnutzer-Geschwindigkeit → llama.cpp; Multi-User/Batching → vLLM.

llama.cpp ist am schnellsten pro Token bei kleinen Modellen; Ollama ist am einfachsten; vLLM ist am besten für Durchsatz und Batching. Stand April 2026: Wählen Sie nach Anwendungsfall – gelegentlicher Chat → Ollama; Einzelnutzer-Geschwindigkeit → llama.cpp; Multi-User/Batching → vLLM. Alle drei führen dieselben Modelle aus und erzeugen identische Ausgaben – Geschwindigkeit und Durchsatz unterscheiden sich.

Präsentation: llama.cpp vs Ollama vs vLLM 2026: Geschwindigkeit & GPU-Benchmarks

Der nachfolgende Foliensatz behandelt: Geschwindigkeitsvergleich llama.cpp vs. Ollama vs. vLLM (RTX 4090, Llama 3 70B Q4 — 36 vs. 34 vs. 32 Tok/s), Feature-Vergleichstabelle (11 Merkmale inkl. OpenAI-API-Kompatibilität und Batch-Verarbeitung), Batch-Durchsatz-Vergleich (Einzelanfrage vs. 10 gleichzeitige Anfragen: 36 Tok/s vs. 250+ Tok/s), Setup-Aufwand, API-Kompatibilität und 4 häufige Fehler bei der Backend-Wahl. Laden Sie das PDF als Referenzkarte für lokale LLM-Backends herunter.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • llama.cpp: Schnellste Einzel-Token-Latenz (niedrigstes ms/Token). Ideal für interaktiven Chat. Minimale Abhängigkeiten.
  • Ollama: Einfachste Nutzung. Ein Befehl, automatische Modell-Downloads. Trade-off: 5–10 % geringerer Durchsatz als llama.cpp.
  • vLLM: Höchster Durchsatz (Token/Sek.) bei Batch-Anfragen. Ideal für produktive API-Server. Steilere Lernkurve.
  • Einzelnutzer-Chat: llama.cpp oder Ollama (nahezu gleiche Geschwindigkeit).
  • Multi-User-API: vLLM (3–5× höherer Durchsatz).
  • Gelegentliche Nutzung: Ollama (Einfachheit gewinnt).
  • Alle drei erzeugen identische Modellausgaben – Geschwindigkeit und Durchsatz unterscheiden sich.
  • Alle drei können gleichzeitig auf derselben Maschine laufen (verschiedene Ports). Sie konfliktieren nicht.

Geschwindigkeits-Benchmarks — RTX 4090 24 GB

llama.cpp führt mit 38 Tok/s bei Einzelanfragen; vLLM dominiert mit 250+ Tok/s im Batch-Betrieb. Gemessen auf RTX 4090 24 GB, Llama 3.3 70B Q4_K_M, Einzelanfrage, April 2026:

BackendToken/Sek.ms/TokenVRAM-NutzungBatch-Durchsatz
llama.cpp382639 GBN/A (kein Batch)
Ollama362839 GBN/A (Einzel-Batch)
vLLM342941 GB250+ Tok/s (kontinuierlich)
Geschwindigkeit & Durchsatz im Vergleich: llama.cpp 38 Tok/s Einzel-Token (26 ms), Ollama 36 Tok/s, vLLM 34 Tok/s bei Einzelanfrage, aber vLLM 250+ Tok/s im Batch-Betrieb (10 gleichzeitige Anfragen).
Geschwindigkeit & Durchsatz im Vergleich: llama.cpp 38 Tok/s Einzel-Token (26 ms), Ollama 36 Tok/s, vLLM 34 Tok/s bei Einzelanfrage, aber vLLM 250+ Tok/s im Batch-Betrieb (10 gleichzeitige Anfragen).

Geschwindigkeits-Benchmarks — RTX 3060 12 GB

Gemessen auf RTX 3060 12 GB, Llama 3.2 8B Q4_K_M, Einzelanfrage, April 2026:

BackendToken/Sek.ms/TokenVRAM-NutzungBatch-Durchsatz
llama.cpp52195,2 GBN/A
Ollama48215,4 GBN/A
vLLM45226,1 GB180 Tok/s (Batch=8)

Feature-Vergleichstabelle

llama.cpp: beste Quantisierung & rohе Geschwindigkeit. Ollama: einfachste Installation. vLLM: bestes Batching für Production.

Merkmalllama.cppOllamavLLM
Installationszeit30 Min. (Kompilieren)5 Min. (ein Befehl)15 Min. (pip install)
OpenAI-kompatibler API✅ (llama-server)✅ (nativ)✅ (nativ)
ModellformatGGUFGGUFSafeTensors / HF
GPU-UnterstützungCUDA, ROCm, MetalCUDA, ROCm, MetalNur CUDA
Batch-Verarbeitung✅ kontinuierlich
Multi-GPU✅ Tensor-parallel
Apple Silicon✅ Metal✅ Metal
Chat-Oberfläche❌ (nur Server)❌ (Open WebUI nötig)❌ (nur API)
LizenzMITMITApache 2.0

Batching & Durchsatz

vLLM verarbeitet 32+ Anfragen parallel; llama.cpp und Ollama verarbeiten jeweils eine gleichzeitig. Hier dominiert vLLM:

  • llama.cpp: Kein natives Batching. Eine Anfrage gleichzeitig. Latenz: 27 ms/Token. Durchsatz: 36 Tok/s.
  • Ollama: Nur Single-Batch. Kann nicht 2+ Anfragen parallel verarbeiten. Gleicher Durchsatz wie llama.cpp.
  • vLLM: Natives Continuous-Batching (verarbeitet gleichzeitige Anfragen dynamisch). Verarbeitet 32 Anfragen gleichzeitig. Durchsatz: 250+ Tok/s auf derselben RTX 4090.
  • vLLMs Vorteil multipliziert sich mit gleichzeitigen Nutzern. Für API-Server mit 10+ Nutzern: vLLM ist Pflicht.

Setup-Aufwand

Ollama ist am einfachsten (5 Min.); vLLM erfordert Python (15 Min.); llama.cpp erfordert Kompilierung (30 Min.). Hier der Überblick:

llama.cpp: Quellcode kompilieren oder Binary herunterladen. Manuelle Modell-Dateiverwaltung. Setup: 30 Min.

Ollama: `brew install ollama` oder Installer herunterladen. `ollama run llama3.2`. Setup: 5 Min.

vLLM: `pip install vllm`, dann `python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3.3-8B-Instruct`. Setup: 15 Min. (Python + Abhängigkeiten).

Sieger bei Einfachheit: Ollama.

API-Kompatibilität

Alle drei unterstützen jetzt OpenAI-kompatible APIs; Ollama und vLLM sind am einfachsten.

llama.cpp: OpenAI-kompatible API (via `llama-server`, seit Ende 2024). Funktioniert mit IDE-Erweiterungen.

Ollama: OpenAI-kompatible API (via `ollama serve` + Client-Bibliothek). Funktioniert mit den meisten IDE-Erweiterungen.

vLLM: OpenAI-kompatible API (natives `/v1/chat/completions`). Beste Kompatibilität.

Für IDE-Integration (VS Code, Cursor): Ollama oder vLLM. llama.cpp überspringen.

Wann welches Backend verwenden?

llama.cpp: Minimale Abhängigkeiten, reine Geschwindigkeit. Verwenden Sie es beim Entwickeln einer eigenen Inferenz-Engine. Ideal für Mac (Metal-Beschleunigung).

Ollama: Alles-inklusive-Einfachheit. Verwenden Sie es für Chat-UI und private Nutzung. Funktioniert auf Mac, Linux und Windows.

vLLM: Produktiver API-Server. Verwenden Sie es für Multi-User-Deployments und hohe Durchsatzanforderungen. Erfordert NVIDIA CUDA – läuft nicht auf Apple Silicon (M1/M2/M3/M4).

Backend-Auswahlmatrix: Ollama ideal für persönlichen Chat (1 Nutzer). llama.cpp für benutzerdefinierte Inferenz. vLLM einzige Wahl für produktive APIs mit 10+ gleichzeitigen Nutzern. Alle drei erzeugen identische Modellausgaben.
Backend-Auswahlmatrix: Ollama ideal für persönlichen Chat (1 Nutzer). llama.cpp für benutzerdefinierte Inferenz. vLLM einzige Wahl für produktive APIs mit 10+ gleichzeitigen Nutzern. Alle drei erzeugen identische Modellausgaben.

Häufige Fehler bei der Wahl des Inference-Backends

  • Fehler: Annahme, dass llama.cpp immer am schnellsten ist. Dies gilt nur für die Einzel-Token-Latenz. vLLM gewinnt beim Durchsatz für Batch-Anfragen (7× schneller mit 10+ gleichzeitigen Nutzern).
  • Fehler: Ollama als langsam abzustempeln. Ollama ist nur 5–10 % langsamer als reines llama.cpp – ein vernachlässigbarer Unterschied für interaktiven Chat, bei dem 34 Tok/s sich sofort anfühlt.
  • Fehler: Zu glauben, man müsse sich für ein Backend entscheiden. Sie können alle drei gleichzeitig auf verschiedenen Ports betreiben. Nutzen Sie Ollama für den persönlichen Chat, vLLM für Ihren API-Server.
  • Fehler: vLLM für Einzelnutzer-Chat einsetzen. vLLMs Vorteil liegt im Batching. Für interaktiven Einzelnutzer-Chat gewinnt Ollamas einfacheres Setup.

Regionaler Kontext & Datenspeicherung

EU/DSGVO: Alle drei Backends laufen vollständig On-Premises. Da keine Daten Ihre Infrastruktur verlassen, entfällt nach DSGVO Art. 28 die Pflicht zum Abschluss eines Auftragsverarbeitungsvertrags. Die BSI-Grundschutz-Kataloge empfehlen On-Premises-Inferenz für kritische Verarbeitungstätigkeiten in den Bereichen Finanzen, Gesundheit und Recht. Für DACH-Unternehmen (Deutschland, Österreich, Schweiz) entspricht lokale Inferenz den IT-Sicherheitsstandards für den Umgang mit personenbezogenen und unternehmenskritischen Daten.

Japan/APPI: On-Premises-Inferenz erfüllt die APPI-Anforderungen für sensible personenbezogene Daten. vLLM wird in japanischen Unternehmensdeployments für die Batch-Dokumentenverarbeitung eingesetzt.

China/Datensicherheitsgesetz (2021): Lokale Inferenz vermeidet Beschränkungen bei grenzüberschreitenden Datenübertragungen. llama.cpp und Ollama werden in China häufig mit Qwen2.5-Modellen eingesetzt.

FAQ

Welches Backend sollte ich als Einsteiger verwenden?

Ollama. Ein Befehl, automatische Modell-Downloads, übersichtliche Oberfläche.

Welches ist am schnellsten?

Bei einer Einzelanfrage: llama.cpp (~3 % schneller als Ollama). Bei 10 gleichzeitigen Anfragen: vLLM (~7× schneller).

Kann ich llama.cpp statt Ollama verwenden?

Ja, aber mehr Aufwand beim Setup. Der Geschwindigkeitsvorteil ist für die meisten Nutzer vernachlässigbar (3–5 %).

Ist vLLM produktionsreif?

Ja. In echten Deployments im Einsatz. Steilere Lernkurve, aber lohnenswert für hohen Durchsatz.

Kann ich Backends wechseln ohne Neutraining?

llama.cpp und Ollama verwenden das GGUF-Format (direkt austauschbar). vLLM verwendet SafeTensors und erfordert eine Modellkonvertierung.

Welches Backend ist am stabilsten?

Ollama (einfach, weniger Fehler). llama.cpp ist ebenfalls stabil. vLLM wird häufig aktualisiert (mehr Features, gelegentliche Breaking Changes).

Funktioniert vLLM auf dem Mac?

Nein. vLLM erfordert NVIDIA CUDA. Für Mac: llama.cpp oder Ollama mit Metal-Beschleunigung verwenden.

Muss ich die DSGVO bei der Nutzung dieser Backends beachten?

Alle drei laufen vollständig On-Premises. Keine Daten verlassen Ihre Infrastruktur, daher ist kein Auftragsverarbeitungsvertrag nach DSGVO Art. 28 erforderlich. Die lokale Inferenz ist gemäß BSI-Grundschutz-Katalogen für sensible Daten geeignet.

Sind diese Backends für den deutschen Mittelstand geeignet?

Ja. Ollama eignet sich besonders für KMUs im DACH-Raum: einfacher Einstieg, keine Drittanbieter-Abhängigkeiten, Betrieb im eigenen Rechenzentrum. vLLM bei höherem Anfragevolumen. BSI-Grundschutz empfiehlt On-Premises für kritische Daten.

Weiterführende Artikel

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

llama.cpp vs Ollama vs vLLM 2026: Geschwindigkeit & GPU-Benchmarks