PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Headless Local LLMs: Modelle ohne Benutzeroberfläche ausführen (2026)
Tools & Interfaces

Headless Local LLMs: Modelle ohne Benutzeroberfläche ausführen (2026)

·12 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Ein Headless Local LLM ist ein Modell, das als Dienst (API) ohne Chat-Oberfläche oder UI läuft. Sie interagieren über REST API aus Python, Node.js oder curl.

Ein Headless Local LLM ist ein Modell, das als Dienst (API) ohne Chat-Oberfläche oder UI läuft. Sie interagieren über REST API aus Python, Node.js oder curl. Headless-Deployments eignen sich ideal für Produktionsserver, Batch-Verarbeitung und Automatisierung. Ab April 2026 ist dies der Standard für Produktionsdeployments.

Wichtigste Erkenntnisse

  • Headless = keine Chat-UI, nur API. Ollama, vLLM und LM Studio können alle Headless-Betrieb unterstützen.
  • Ollama Headless: `ollama serve` startet die API auf localhost:11434. Keine UI.
  • vLLM Headless: `vllm serve` startet die API auf Port 8000. Besserer Durchsatz als Ollama.
  • Produktion: Nutzen Sie vLLM für hohen Durchsatz, Ollama für Einfachheit, nginx für Lastverteilung und Sicherheit.
  • Ab April 2026 ist vLLM der Produktionsstandard für hochdurchsätzige Services.

Was bedeutet Headless?

Headless bedeutet, dass die Software als Dienst ohne grafische Benutzeroberfläche läuft. Sie interagieren über API-Aufrufe (REST, gRPC) statt durch Klicks auf Buttons.

Vorteile: geringerer Ressourcenverbrauch (keine UI-Overhead), einfachere Automatisierung, für Server geeignet, leichter skalierbar.

Nachteile: kein visuelles Feedback, erfordert API-Kenntnisse, schwieriger zu debuggen ohne Logs.

Wie führe ich Ollama Headless aus?

Ollama kann als reiner API-Dienst laufen:

bash
# Run Ollama headless
ollama serve

# This starts the API at http://localhost:11434/v1
# No chat UI, just a background service

# Use the API from Python
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
  model="llama3.2:3b",
  messages=[{"role": "user", "content": "Hello"}]
)
print(response.choices[0].message.content)

# Or from curl
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{{"model": "llama3.2:3b", "messages": [{{"role": "user", "content": "Hello"}}]}}'

Wie führe ich vLLM Headless aus?

vLLM ist optimiert für Headless-, hochdurchsätzige Deployments:

bash
# Install vLLM
pip install vllm

# Run headless with API
vllm serve llama-3.1-8b-instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --gpu-memory-utilization 0.9

# Access at http://localhost:8000/v1
# Supports 50+ concurrent requests

# Use from Python (same as Ollama)
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="anything")
response = client.chat.completions.create(
  model="meta-llama/Llama-2-7b-chat-hf",
  messages=[{"role": "user", "content": "Hello"}]
)
print(response.choices[0].message.content)

Wie stelle ich für Produktion bereit?

1. Nutzen Sie vLLM für hohen Durchsatz (50+ gleichzeitige Nutzer).

2. Nutzen Sie Ollama für Einfachheit (Einzelnutzer oder kleine Teams).

3. Fügen Sie nginx Reverse Proxy hinzu für Lastverteilung und Authentifizierung.

4. Überwachen Sie GPU-Speicher -- Modelle sollten nicht mehr als 80 % VRAM verbrauchen.

5. Richten Sie Logging ein -- verfolgen Sie Fehler und Leistung.

6. Nutzen Sie systemd oder Docker für Service-Management (Auto-Neustart bei Absturz).

7. Beachten Sie DSGVO und BSI-Grundschutz-Kataloge -- bei datenschutzsensitiven Anwendungen ist On-Premise-Deployment entscheidend.

bash
# Example: Deploy vLLM on a server via Docker
docker run --gpus all -p 8000:8000 \
  --env VLLM_API_KEY="your-secret-key" \
  vllm/vllm-openai:latest \
  --model meta-llama/Llama-2-13b-chat-hf \
  --tensor-parallel-size 2  # Use 2 GPUs

# Nginx reverse proxy config (optional)
# server {
#   listen 80;
#   location / {
#     proxy_pass http://localhost:8000;
#     proxy_set_header Authorization "Bearer $http_authorization";
#   }
# }

Wie überwache ich Headless-Deployments?

Überwachen Sie GPU-Speicher, Request-Latenz und Fehlerquoten:

python
# Monitor GPU usage (nvidia-smi)
watch nvidia-smi  # Updates every 2 seconds

# Monitor request latency
# Add logging to your client code
import time
start = time.time()
response = client.chat.completions.create(...)
latency = time.time() - start
print(f"Request took {latency:.2f} seconds")

# Monitor vLLM logs
docker logs -f <container_id>

# Check error rates
# Parse logs for errors or use a monitoring tool (Prometheus + Grafana)

Häufige Fehler bei Headless-Deployments

  • VRAM nicht überwachen. Modelle können stillschweigend keinen Speicher mehr haben. Überwachen Sie die GPU vor dem Produktionsdeployment.
  • API ohne Authentifizierung freigeben. Headless-Services werden häufig in Netzwerken freigegeben. Immer Authentifizierung hinzufügen (API-Schlüssel, Firewall).
  • Ressourcenlimits nicht setzen. Ein Modell kann 100 % GPU verbrauchen und andere Aufgaben blockieren. Nutzen Sie `--gpu-memory-utilization` in vLLM.
  • Erwarten Sie nicht, dass Ollama zu 100+ Nutzern skaliert. Nutzen Sie vLLM für hohe Parallelität. Ollama kann einstellige gleichzeitige Nutzer verwalten.
  • Failover nicht testen. Wenn Ihr Modell-Server ausfällt, bleiben Requests hängen. Nutzen Sie einen Lastverteiler und Health Checks.

Häufig gestellte Fragen zu Headless-Deployments

Können Ollama und vLLM auf der gleichen GPU laufen?

Nicht gleichzeitig. Sie konkurrieren um VRAM. Betreiben Sie eins oder das andere, oder nutzen Sie mehrere GPUs.

Ist es sicher, die API ins Internet freizugeben?

Nein, nicht ohne Authentifizierung. Immer einen API-Schlüssel, eine Firewall oder einen Reverse Proxy davor setzen. Geben Sie localhost:11434 niemals direkt frei.

Wie viele gleichzeitige Nutzer kann Ollama verwalten?

Typischerweise 1-3 ohne Warteschlange. Für mehr nutzen Sie vLLM oder fügen Sie Request-Queueing hinzu.

Was ist der Unterschied in der Leistung zwischen Ollama und vLLM?

Einzelne Request: ähnliche Geschwindigkeit. Mehrere gleichzeitige Requests: vLLM ist 5-10× besser, weil es Requests batched.

Muss ich bei der Verwendung von Ollama und vLLM die DSGVO beachten?

Ja, wenn Sie personenbezogene Daten verarbeiten. Headless Local LLMs bieten einen großen Vorteil: Die Daten bleiben auf Ihrer Hardware. Sie müssen nicht mit externen APIs wie OpenAI kommunizieren. Dies erfüllt DSGVO Artikel 28 (Datenverarbeitung vor Ort). Nutzen Sie BSI-Grundschutz-Kataloge für zusätzliche Sicherheit und Compliance-Anforderungen.

Sind Ollama und vLLM für deutsche Mittelständler geeignet?

Absolut. Viele deutsche Mittelständler setzen auf lokale KI-Deployment wegen Datenschutz und Kosteneffizienz. Ollama ist einfach zu installieren und zu verwalten, vLLM ist ideal für Unternehmensanwendungen mit höherem Durchsatz. Beide unterstützen die BSI-Grundschutz-Standards und ermöglichen IT-Sicherheit ohne Abhängigkeit von Cloud-Anbietern.

Quellen

  • Ollama GitHub -- github.com/ollama/ollama
  • vLLM GitHub -- github.com/vllm-project/vllm
  • vLLM Deployment Guide -- docs.vllm.ai/en/serving/deploying_with_docker.html
  • Ollama API Docs -- github.com/ollama/ollama/blob/main/docs/api.md

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Headless-LLM-Deployment: Ollama und vLLM ohne UI