Wichtigste Erkenntnisse
- Logging/Debugging deaktivieren (einfach): ~10% Geschwindigkeitsgewinn.
- Q4-Quantisierung verwenden (einfach): Gleiche Geschwindigkeit, weniger VRAM.
- Batch-Größe optimieren (mittel): 2–3× Geschwindigkeit bei Batch-Verarbeitung.
- vLLM statt Ollama (aufwendig): 2–5× Geschwindigkeit bei gleichzeitigen Anfragen.
- GPU-Speicher-Auslastung 90%+ (mittel): 15–20% Geschwindigkeitsgewinn.
- Kombination aller Techniken: ~2–3× Gesamtbeschleunigung.
Wie beeinflusst die GPU-Speicher-Auslastung die Geschwindigkeit?
Standardmäßig verwenden die meisten Tools 70–80% des GPU-VRAMs — der Rest bleibt ungenutzt. Eine Erhöhung auf 90–95% verbessert die Geschwindigkeit um 15–20%, da die Engine mehr KV-Cache vorab belegen kann:
# vLLM: increase GPU memory utilization
vllm serve meta-llama/Llama-2-7b-hf \
--gpu-memory-utilization 0.95
# Ollama: environment variable
export OLLAMA_GPU_THRESHOLD=0.95 # Use 95% of GPU
ollama run llama3.2:3b
# LM Studio: Settings → GPU acceleration slider (move to 100%)Welche Batch-Größe maximiert den Durchsatz?
Bei der Batch-Verarbeitung (mehrere Prompts gleichzeitig) ergibt eine Erhöhung der Batch-Größe von 1 auf 32 eine 2–4× Durchsatzverbesserung.
Einzelanfrage = begrenzte Pipeline-Auslastung. Batch mit 32 Anfragen = 2–4× Durchsatz.
Kompromiss: Höhere Latenz pro Einzelanfrage (Anfragen warten auf Batch-Abschluss).
| Batch-Größe | Durchsatz | Latenz/Anfrage | Anwendungsfall |
|---|---|---|---|
| 1 (Einzel) | 50 Tokens/Sek | Minimal | Echtzeit-Chat |
| 8 | 120 Tokens/Sek | Akzeptabel | Leichte Parallelität |
| 32 | 200 Tokens/Sek | Hoch | Batch-API |
| 64+ | 250+ Tokens/Sek | Sehr hoch | Offline-Batch |
Welche Inference-Engine ist am schnellsten: vLLM vs Ollama vs llama.cpp?
vLLM: 5–10× schneller als Ollama bei gleichzeitigen Anfragen — für Produktions-APIs mit mehreren Nutzern.
llama.cpp: Am schnellsten für Einzelanfragen auf Consumer-Hardware — für lokale Setups für Einzelnutzer.
Ollama: Beste Entwicklererfahrung für Einzelnutzer; vergleichbar mit llama.cpp bei Einzelanfragen.
Text-Generation-WebUI: Am langsamsten, aber meiste Funktionen — nur für Experimente, nicht Produktion.
Beschleunigt Quantisierung wirklich die Inferenz?
Auf modernen GPUs (RTX 40-Serie) laufen Q4 und Q5 mit derselben Geschwindigkeit wie FP16 — quantisieren Sie für VRAM-Reduzierung, nicht für Geschwindigkeit.
Indirekte Geschwindigkeitsvorteile der Quantisierung:
- Kleinere Modelldatei = schnelleres Cold-Start-Laden von der Festplatte
- Reduzierte Speicherbandbreite = etwas schneller (10–15%) auf älterer oder speicherbeschränkter Hardware
Quantisierung dient primär der VRAM-Reduzierung, nicht dem rohen Token-Durchsatz.
Wie viel Geschwindigkeit ist realistisch erreichbar?
Beispiel: Optimierung eines 7B-Modells auf RTX 4090 — Schritt für Schritt:
| Änderung | Geschwindigkeit | Kumulativer Gewinn |
|---|---|---|
| Standard Ollama (Ausgangspunkt) | 120 Tok/Sek | — |
| Debug-Logging deaktivieren | 132 Tok/Sek | +10% |
| GPU-Speicher → 95% | 150 Tok/Sek | +25% gesamt |
| Wechsel zu vLLM (Batch) | 300 Tok/Sek (Batch) | +2,5× (Batch) |
| Alle Optimierungen kombiniert | 300 Tok/Sek | +2,5× Durchsatz |
Häufige Fehler bei der Geschwindigkeitsoptimierung
- GPU-Speicher auf 100% setzen. Riskiert Out-of-Memory-Abstürze. Sicheres Maximum: 90–95%.
- Batch-Größe für Geschwindigkeit reduzieren. Die Batch-Größe beeinflusst nicht die Latenz bei Einzelanfragen. Hilft nur beim Durchsatz.
- Zu starke Quantisierung für Geschwindigkeit. Q4 ist auf RTX 40-GPUs ungefähr so schnell wie FP16. Für VRAM quantisieren, nicht für Geschwindigkeit.
- Inference-Engine mitten im Deployment wechseln. Wechsel zwischen Ollama, vLLM und llama.cpp führt zu Bugs. Eine Engine wählen und optimieren.
Häufig gestellte Fragen
Was ist der wirksamste einzelne Weg, lokale LLM-Inferenz zu beschleunigen?
Der Wechsel von Ollama zu vLLM für gleichzeitige Anfragen bietet die größte Einzelbeschleunigung — 5–10× Durchsatzverbesserung bei Batch-Verarbeitung. Bei Einzelanfragen erzielt die Erhöhung der GPU-Speicher-Auslastung von 70% auf 90–95% einen 15–20% Geschwindigkeitsgewinn. Das Deaktivieren von Debug-Logging bringt zusätzliche 10%.
Verbessert Batch-Verarbeitung die Latenz bei Einzelanfragen?
Nein — die Batch-Größe beeinflusst den Durchsatz (Tokens pro Sekunde über alle Anfragen), nicht die Latenz bei Einzelanfragen. Um die Latenz zu reduzieren, optimieren Sie die GPU-Speicher-Auslastung und verwenden Sie eine schnellere Engine (vLLM oder llama.cpp).
Wie viel schneller ist vLLM als Ollama?
Bei Einzelanfragen ähnliche Leistung (beide ~120–150 Tok/Sek auf RTX 4090 mit 7B-Modell). Bei gleichzeitigen Anfragen ist vLLM 5–10× schneller dank Continuous Batching und PagedAttention.
Beschleunigt Quantisierung die Inferenz?
Der primäre Vorteil der Quantisierung ist VRAM-Reduzierung, nicht Geschwindigkeit. Auf modernen NVIDIA-GPUs (RTX 40-Serie) laufen Q4 und Q5 mit derselben Geschwindigkeit wie FP16.
Welche GPU-Speicher-Auslastung sollte ich einstellen?
Stellen Sie die GPU-Speicher-Auslastung in vLLM auf 90–95% ein (--gpu-memory-utilization 0.92). Vermeiden Sie 100% — es verursacht OOM-Abstürze.
Warum ist mein lokales LLM nach dem ersten Prompt langsamer?
Der erste Prompt lädt das Modell in den VRAM (Cold Start), was 10–30 Sekunden dauern kann. Halten Sie den Server aktiv. Mit Ollama: OLLAMA_KEEP_ALIVE=24h setzen.
Kann die Inferenz mit reiner CPU-Nutzung sinnvoll beschleunigt werden?
Begrenzte Verbesserungen: llama.cpp mit Thread-Anzahl gleich physischen Kernen, AVX2/AVX-512 aktivieren, Q4_K_M-Quantisierung. Realistisches Maximum: 8–12 Tok/Sek auf i9. Für interaktiven Chat ist GPU der einzige Weg.
Wie beeinflusst die Kontextlänge die Inferenzgeschwindigkeit?
Längere Kontextfenster verlangsamen die Inferenz quadratisch. Ein 4K-Kontext-Prompt ist ~4× langsamer als 1K. System-Prompts unter 500 Tokens halten.
Was ist PagedAttention und warum beschleunigt es vLLM?
PagedAttention paginiert den KV-Cache dynamisch — wie virtueller Speicher in einem OS. Dies eliminiert VRAM-Fragmentierung und verbessert die GPU-Auslastung von ~55% auf 90%+.
Gibt es einen Geschwindigkeitsunterschied zwischen GGUF und Safetensors?
Ja. GGUF ist für CPU/Consumer-GPU optimiert. Safetensors ist schneller für Vollpräzisions-GPU-Inferenz. Für RTX 40-Serie mit FP16 übertrifft Safetensors + vLLM GGUF + Ollama um 10–20%.
Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?
Lokale LLM-Inferenz verarbeitet alle Daten ausschließlich auf Ihrer eigenen Hardware ohne Transfer zu externen Diensten — vollständig DSGVO-konform (Artikel 28). Die BSI-Grundschutz-Kataloge empfehlen lokale Inferenz für sensible Unternehmensdaten in der DACH-Region (Deutschland, Österreich, Schweiz).
Ist lokale LLM-Optimierung für den deutschen Mittelstand geeignet?
Ja. Ein RTX 4090-Server (~2.000 €) kann mit vLLM 10–20 gleichzeitige interne Nutzer bedienen — wirtschaftlicher als Cloud-APIs ab ca. 1.000 Anfragen/Tag. Vollständige Datensouveränität und BSI-Grundschutz-Konformität sind inklusive.
Quellen
- vLLM Optimierungsleitfaden -- docs.vllm.ai/en/dev_guide/performance_tuning.html
- Ollama Performance-Tipps -- github.com/ollama/ollama/blob/main/docs/troubleshooting.md