Wichtigste Erkenntnisse
- Eine Inference-Engine ist die C/C++/Python-Software, die eine Modelldatei lädt und Tokens generiert. Sie ist vom UI oder API-Layer getrennt.
- llama.cpp = leichtgewichtig, CPU-effizient, unterstützt Ollama. Beste für: Consumer-Laptops, einzelne Benutzer, keine Abhängigkeiten.
- vLLM = Production-Grade, maximaler GPU-Durchsatz, unterstützt Batching und verteilte Inferenz. Beste für: API-Server, Multi-User, hoher Durchsatz.
- Text-Generation-WebUI = funktionsreiches Experimentier-Tool mit integrierter Web-UI. Beste für: Fine-Tuning, LoRA-Tests, erweiterte Einstellungsanpassungen.
- Im April 2026 führt vLLM Production-Nutzung an, llama.cpp führt Consumer-Nutzung an, und Text-Generation-WebUI führt Forschungs-/Fine-Tuning-Workflows an.
Was ist eine Inference-Engine?
Eine Inference-Engine ist die Softwarekomponente, die eine vortrainierte Modelldatei lädt und die mathematischen Operationen ausführt, die zur Generierung von Text erforderlich sind. Sie unterscheidet sich von einer Chat-Schnittstelle (wie Open WebUI oder Enchanted UI) oder einem API-Layer (wie Ollamas REST-API).
Eine typische lokale LLM-Bereitstellung hat drei Schichten:
1. Modelldatei (z. B. llama-3.1-8b.gguf) -- die neuronalen Netzwerk-Gewichte.
2. Inference-Engine (z. B. llama.cpp, vLLM) -- lädt das Modell und generiert Tokens.
3. Schnittstelle oder API (z. B. REST-API, Web-Chat, VS Code-Erweiterung) -- ermöglicht die Interaktion mit der Engine.
Ollama selbst ist hauptsächlich ein Wrapper um llama.cpp mit einer OpenAI-kompatiblen API. vLLM ist eine Inference-Engine ohne integrierte UI. Text-Generation-WebUI ist eine Inference-Engine mit integrierter Web-UI.
Feature-Vergleich: llama.cpp vs vLLM vs Text-Generation-WebUI
| Feature | llama.cpp | vLLM | Text-Gen-WebUI |
|---|---|---|---|
| Typ | C++-Bibliothek (leichtgewichtig) | Python-Framework (Production) | Python-App (Experimente) |
| GPU-Unterstützung | NVIDIA, AMD, Apple Metal | Nur NVIDIA (beste Unterstützung) | NVIDIA, AMD, CPU |
| CPU-Inferenz | Ausgezeichnet | Schlecht | Gut |
| Durchsatz (Tokens/Sek.) | Mittel (1-100) | Sehr hoch (100-1000+) | Mittel (1-100) |
| Batch-Unterstützung | Begrenzt | Vollständig (Batches von 100+) | Begrenzt |
| Integrierte Web-UI | Nein | Nein | Ja |
| LoRA Fine-Tuning | Nicht direkt | Begrenzt | Integriert |
| Quantisierungsformate | GGUF, GGML | Vollständige Präzision, 8-Bit, 4-Bit | GGUF, safetensors, fp16 |
| Setup-Schwierigkeit | Über Ollama (einfach) | pip install (mittel) | GitHub clone (mittel) |
| Preis | Kostenlos | Kostenlos | Kostenlos |
llama.cpp verstehen: Die Grundlage
llama.cpp ist eine C++-Implementierung der LLM-Inferenz, ursprünglich geschrieben, um Metas Llama-Modell auf Consumer-Hardware ohne GPU-Beschleunigung auszuführen. Im April 2026 bleibt es die leichteste und tragbarste Inference-Engine.
Warum llama.cpp die Consumer-Nutzung dominiert:
- Minimaler Speicher-Overhead -- kann auf 8 GB RAM nur mit CPU ausgeführt werden.
- Unterstützt mehrere GPU-Backends (NVIDIA, AMD, Apple Metal, Intel).
- GGUF-Format: ein quantisiertes Modellformat, das 70B-Modelle auf 20-40 GB komprimiert.
- Unterstützt Ollama intern -- Sie verwenden llama.cpp, wenn Sie Ollama ausführen.
llama.cpp ist keine vollständige Anwendung; es ist eine Bibliothek. Sie interagieren damit über Ollama (der häufigste Weg) oder über andere Tools, die es integrieren. Wenn Sie llama.cpp direkt für erweiterte Abstimmung verwenden möchten, müssen Sie es kompilieren und über Kommandozeilen-Tools oder Python-Bindings damit interagieren.
vLLM verstehen: Der Production-Standard
vLLM ist ein Python-Framework für High-Throughput-Inferenz auf GPU-Clustern. Es optimiert für das Bereitstellen von Modellen über API mit Unterstützung für Batching, verteilte Inferenz und erweiterte Planung.
Warum vLLM die Production dominiert:
- Paged Attention: vLLM nutzt ein neuartiges Speicherlayout, das die GPU-Auslastung von ~20 % auf ~70 % verbessert und den Durchsatz dramatisch erhöht.
- Batch-Verarbeitung: Kann 50-100 Prompts gleichzeitig verarbeiten, mehr Benutzer pro GPU bedienen.
- Verteilte Inferenz: Teilt automatisch ein 70B-Modell auf mehrere GPUs auf.
- Breite Modell-Unterstützung: Funktioniert mit jedem HuggingFace-Modell (Llama, Qwen, Mistral, Phi, usw.).
Im April 2026 verwenden die meisten Production-LLM-Deployments in Unternehmen vLLM. Der Kompromiss ist, dass vLLM NVIDIA-GPUs benötigt; es hat schlechte CPU-Performance.
# vLLM installieren
pip install vllm
# Modell über API ausführen
vllm serve meta-llama/Llama-3.3-8B-Instruct \
--host 0.0.0.0 --port 8000 \
--gpu-memory-utilization 0.9
# Jetzt erreichbar unter http://localhost:8000/v1/completionsText-Generation-WebUI verstehen: Das Forschungs-Tool
Text-Generation-WebUI (auch oobabooga genannt) ist eine vollständig ausgestattete Python-Anwendung mit einer Web-Schnittstelle zum Experimentieren mit Modellen. Sie kombiniert Inferenz mit integrierten Tools für Fine-Tuning, LoRA-Training, Embedding-Generierung und erweiterte Prompt-Tests.
Warum Forscher Text-Generation-WebUI verwenden:
- LoRA Fine-Tuning integriert: Trainieren Sie benutzerdefinierte LoRA-Adapter auf Basis-Modellen ohne externe Trainings-Skripte.
- Mehrere Inference-Engines: Können zwischen llama.cpp, GPTQ, exllama und anderen Backends wechseln.
- Character Roleplay: Integriertes System zum Erstellen und Testen von Character-Personas.
- API-Exposure: Stellt eine FastAPI-Schnittstelle für programmatische Nutzung bereit.
- Extension-Ökosystem: Community-gebaute Erweiterungen für benutzerdefinierte Workflows.
Text-Generation-WebUI ist eher ein Forschungs- und Experimentier-Tool als ein Production-Server. Das Setup ist komplexer (erfordert GitHub-Clone und Python-Abhängigkeitsverwaltung), aber wenn es läuft, ist es äußerst leistungsstark für die Entwicklung.
Wie schnell ist jede Engine? Durchsatz-Vergleich
Der Durchsatz (Tokens pro Sekunde) hängt von der Modellgröße, Hardware und Engine-Optimierung ab. Im April 2026 finden Sie hier Real-World-Benchmarks auf Consumer-Hardware:
| Szenario | llama.cpp | vLLM | Text-Gen-WebUI |
|---|---|---|---|
| Llama 3.1 8B auf RTX 4090 (GPU) | 150 Tokens/Sek. | 300 Tokens/Sek. (mit Batching) | 150 Tokens/Sek. |
| Llama 3.1 8B auf 8-Core CPU | 5 Tokens/Sek. | 0,5 Tokens/Sek. (unbenutzbar) | 4 Tokens/Sek. |
| Llama 3.1 70B auf 2× RTX 4090 | 20 Tokens/Sek. (einzelne GPU) | 100 Tokens/Sek. (verteilt) | 20 Tokens/Sek. |
| Phi-3 3.8B auf M4 MacBook Pro | 30 Tokens/Sek. | N/A (keine Metal-Unterstützung) | 25 Tokens/Sek. |
Welche Engine für Production-Deployments?
vLLM ist der Production-Standard im April 2026. Die meisten Unternehmen, die lokale LLM-APIs in Production betreiben, verwenden vLLM aufgrund seiner Durchsatz-Optimierung und Batching-Unterstützung. Eine einzelne vLLM-Instanz kann 50+ gleichzeitige Benutzer auf einer GPU bedienen, gegenüber 1-2 für llama.cpp.
Die Production-Wahl hängt jedoch von Ihrer Einschränkung ab:
- 100+ Anfragen/Tag mit begrenztem GPU: Verwenden Sie vLLM (bester Durchsatz).
- Nur mit CPU oder Apple Silicon: Verwenden Sie llama.cpp über Ollama (beste CPU-Unterstützung).
- Speziell Llama-Modelle: Beide llama.cpp und vLLM funktionieren; vLLM ist schneller.
- Diverse Modellformate (GPTQ, GGUF, safetensors): Text-Generation-WebUI unterstützt alle; vLLM erfordert vollständige Präzision oder spezifische Quantisierungsformate.
Wann sollte man welche Engine wählen?
Verwenden Sie dieses Entscheidungs-Framework:
- llama.cpp (über Ollama): Sie sind ein Consumer, kein Entwickler, oder Sie stellen auf CPU/Apple Silicon bereit. Beste Gesamtbenutzerfreundlichkeit.
- vLLM: Sie bedienen eine API mit 50+ gleichzeitigen Benutzern, haben NVIDIA-GPUs und benötigen maximalen Durchsatz. Production-Standard.
- Text-Generation-WebUI: Sie tunen Modelle ab, testen LoRA-Adapter oder experimentieren mit erweiterten Inferenz-Einstellungen. Beste für Forschung.
Inference-Engine Auswahl nach Region
Die Wahl der Inference-Engine hat direkte Auswirkungen auf regionale Compliance und Enterprise-Deployments in verschiedenen regulatorischen Gerichtsbarkeiten. Für deutsche und europäische Deployments gelten besondere Anforderungen.
- Deutschland / EU / DSGVO: Für deutsche Unternehmens-Deployments muss vLLM auf lokalen deutschen Servern laufen, um DSGVO-Compliance zu gewährleisten -- keine Tokens, Prompts oder Outputs verlassen Ihre Infrastruktur. Für BSI IT-Grundschutz-Kataloge Compliance ist vLLM die empfohlene Production-Engine, da sie strukturiertes Audit-Logging über Prometheus-Metriken (/metrics Endpunkt) bietet, und alle Modellversionen über HuggingFace-Modell-IDs für Compliance-Dokumentation fixierbar sind. Mistral-Modelle (Mistral AI, Frankreich, Apache 2.0) sind die EU-bevorzugte Wahl für vLLM Production-Deployments -- EU-Ursprung, saubere Lizenz, starke Performance. vLLM-Befehl: `vllm serve mistralai/Mistral-7B-Instruct-v0.3`. Für DACH-Mittelstand-Unternehmen bietet vLLM die notwendige Skalierbarkeit für 50-500 Concurrent-User-Szenarien.
- Japan (METI): METI AI Governance erfordert die Dokumentation der Inferenz-Infrastruktur. vLLMs strukturierte Prometheus-Metriken erfüllen Audit-Trail-Anforderungen besser als llama.cpps stdout-Logging. Für japanische Unternehmens-Deployments ist Qwen2.5 7B über vLLM der empfohlene Stack -- native japanische Tokenisierung plus Production-Durchsatz. vLLM-Befehl: `vllm serve Qwen/Qwen2.5-7B-Instruct`
- China: Unter Chinas Datensicherheitsgesetz (数据安全法) muss alle Inferenz für sensible Daten on-premises bleiben. vLLM ist kompatibel mit Alibaba Cloud A10 und A100 GPU-Instanzen. Qwen2.5 (Alibaba) Modelle sind nativ für vLLM optimiert und bieten den besten chinesischen Sprachdurchsatz. Für chinesische Enterprise-Production: vLLM + Qwen2.5 14B auf Alibaba Cloud ist der Standard-Stack im April 2026.
Häufige Fehler mit Inference-Engines
- Zu denken, Sie müssen zwischen Ollama und diesen Engines wählen. Ollama verwendet llama.cpp intern. Sie wählen nicht zwischen Ollama und vLLM; vLLM ist ein alternatives *Backend* zu Ollama, keine Chat-App. Beide haben ihren Zweck.
- Annahme, dass vLLM auf CPU schneller ist. vLLM hat schlechte CPU-Performance; llama.cpp ist auf CPU 10× schneller. Überprüfen Sie Ihre GPU-Verfügbarkeit, bevor Sie vLLM wählen.
- vLLM auf einer Laptop-GPU ausführen. vLLM ist für Datacenter-GPUs optimiert (RTX 4090, A100). Auf Consumer-GPUs kann der Overhead von vLLMs Batching-Scheduler die Single-Request-Performance tatsächlich verlangsamen. Bleiben Sie bei llama.cpp für Laptops.
- Vergessen, dass Inferenz-Durchsatz nicht dasselbe wie Benutzer-Erlebnis-Latenz ist. vLLM kann 100 Anfragen batchen, aber jede Anfrage braucht immer noch Zeit, um ihre Tokens zu generieren. Hoher Durchsatz bedeutet nicht niedrige Latenz.
- Abhängigkeiten für Text-Generation-WebUI falsch installieren. Die GitHub-Anleitung geht davon aus, dass Sie Git, Python 3.10+ und pip installiert haben. Unter Windows schlägt dies oft stillschweigend fehl. Überprüfen Sie immer die Python-Version vor dem Klonen.
Häufig gestellte Fragen zu Inference-Engines
Kann ich Inference-Engines wechseln, ohne mein Modell zu ändern?
Größtenteils ja. Modelldateien im GGUF-Format funktionieren mit llama.cpp (Ollama) und Text-Generation-WebUI. vLLM erfordert vollständige Präzision oder spezifische Quantisierungsformate. HuggingFace safetensors-Modelle funktionieren mit allen drei.
Welche Engine ist beste für Mac?
llama.cpp über Ollama. Es hat ausgezeichnete Apple Silicon (M-Serie) Optimierung. vLLM unterstützt Metal (Apple GPU) nicht, daher ist CPU-Performance schlecht. Text-Generation-WebUI funktioniert auf Mac, ist aber langsamer als Ollama.
Ist vLLM Teil von Ollama?
Nein. Ollama verwendet llama.cpp intern. vLLM ist eine separate Inference-Engine der UC Berkeley. Sie dienen unterschiedlichen Zwecken: Ollama ist für Einfachheit; vLLM ist für Production-Durchsatz.
Kann ich vLLM ohne GPU verwenden?
Technisch ja, aber es ist unbrauchbar langsam. vLLM ist für GPU konzipiert. Für CPU-only-Deployments verwenden Sie llama.cpp (Ollama).
Skaliert Text-Generation-WebUI zu Production?
Nicht empfohlen. Text-Generation-WebUI ist ein Forschungs-Tool, kein Production-Server. Es fehlen Features wie Load-Balancing, Monitoring und verteilte Inferenz, die Production-Services benötigen. Verwenden Sie vLLM für Production.
Was ist Paged Attention und warum ist es wichtig?
Paged Attention ist vLLMs Speicherverwaltungssystem, das Konzepte des virtuellen Speichers von Betriebssystemen borgt. Anstatt einen festen zusammenhängenden Block von GPU-Speicher pro Anfrage zuzuweisen, weist es Speicher in Seiten zu, die über mehrere Anfragen hinweg geteilt und wiederverwendet werden können. Dies verbessert die GPU-Speicherauslastung von ~20 % auf ~70 %, wodurch vLLM 3-4× mehr gleichzeitige Benutzer pro GPU bedienen kann, verglichen mit naiven Attention-Implementierungen.
Welche Engine sollte ich verwenden, wenn ich nur 8 GB RAM habe?
llama.cpp über Ollama. Bei 8 GB Gesamt-RAM verbraucht ein 7B-Modell bei Q4_K_M ~4,7 GB. llama.cpp funktioniert gut damit bei ~5 Tokens/Sek. auf CPU oder ~80 Tokens/Sek. auf einer dedizierten GPU. vLLM benötigt deutlich mehr Overhead und funktioniert schlecht auf Consumer-RAM.
Kann ich vLLM und Ollama auf demselben Computer ausführen?
Ja, wenn genug VRAM vorhanden ist. Führen Sie sie auf verschiedenen Ports aus (vLLM Standard: 8000, Ollama Standard: 11434). Eine typische Konfiguration: Ollama bearbeitet schnelle Single-User-Chat-Anfragen, vLLM bearbeitet Batch-API-Anfragen. Beide können jedoch nicht das gleiche Modell gleichzeitig laden, ohne VRAM zu verdoppeln.
Muss ich bei vLLM/llama.cpp die DSGVO beachten?
Ja, definitiv. Artikel 28 der DSGVO (Auftragsverarbeitung) verlangt Datenschutzverträge. llama.cpp und vLLM auf lokalen deutschen Servern erfüllen dies durch Datenresidenz. vLLM bietet bessere Audit-Protokollierung (Prometheus /metrics) für BSI IT-Grundschutz-Kataloge Compliance-Nachweise. Empfehlung: vLLM + Prometheus + lokale deutsche Infrastruktur für DSGVO-konformes Enterprise-Deployment.
Ist vLLM/llama.cpp für Mittelstand-Deployment geeignet?
Ja, beide sind. llama.cpp via Ollama ist für kleinere Mittelstand-Unternehmen (bis 100 Mitarbeiter) mit begrenztem IT-Budget geeignet -- es läuft auf günstiger Hardware. vLLM ist für größere Mittelstand (100-500 Mitarbeiter) mit Production-Anforderungen besser -- es skaliert zu 50+ gleichzeitigen Benutzern. Deutsche Mittelstand-Unternehmen sollten sich auf vLLM konzentrieren, wenn Sie regulatorische Anforderungen (BSI, DSGVO) erfüllen müssen.
Quellen
- Gerganov, G. (2024). "llama.cpp GitHub." https://github.com/ggerganov/llama.cpp -- C++-Inference-Engine-Quellcode und Quantisierungs-Dokumentation.
- vLLM Team. (2024). "vLLM GitHub." https://github.com/vllm-project/vllm -- Production-Inference-Engine-Quellcode und API-Server-Dokumentation.
- Kwon et al. (2023). "Efficient Memory Management for Large Language Model Serving with PagedAttention." https://arxiv.org/abs/2309.06180 -- Original-Paged-Attention-Paper, das vLLMs Speicherverwaltungs-Ansatz erklärt.
- oobabooga. (2024). "Text-Generation-WebUI GitHub." https://github.com/oobabooga/text-generation-webui -- Quellcode und Installationsanleitung für Text-Generation-WebUI.