PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Lokale LLM-Fehler 2026 beheben: 10 häufige Probleme in Ollama, LM Studio und vLLM
Getting Started

Lokale LLM-Fehler 2026 beheben: 10 häufige Probleme in Ollama, LM Studio und vLLM

·9 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Die häufigsten Fehler bei lokalen LLMs sind Out-of-Memory-Abstürze, GPU wird nicht erkannt, extrem langsame CPU-Inferenz, Connection Refused vom API und fehlerhafte Ausgabe.

Die häufigsten Fehler bei lokalen LLMs sind Out-of-Memory-Abstürze, GPU wird nicht erkannt, extrem langsame CPU-Inferenz, Connection Refused vom API und fehlerhafte Ausgabe. Stand April 2026 gibt es Lösungen für alle 10 Fehler — die meisten erfordern nur ein bis zwei Terminal-Befehle. Dieser Leitfaden behandelt Ollama (Port 11434), LM Studio (Port 1234) und vLLM mit exakten Befehlen für jeden Fehler.

Präsentation: Lokale LLM-Fehler 2026 beheben: 10 häufige Probleme in Ollama, LM Studio und vLLM

Die folgende Präsentation behandelt: die 10 häufigsten Fehler beim Einrichten lokaler LLMs (Out-of-Memory, GPU nicht erkannt, langsame Inferenz, Connection Refused, fehlerhafte Ausgabe), RAM-Anforderungen für 3B–14B-Modelle bei Q4_K_M- und Q8_0-Quantisierung, einen 5-Schritte-Debugprozess und Ollama-Befehle für jeden Fix. Als PDF herunterladen als Referenzkarte für die Fehlerbehebung bei lokalen LLMs.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • Speicher voll: Wechsel zu kleinerer Quantisierung (Q4_K_M → Q3_K_S) oder kleinerem Modell.
  • GPU nicht erkannt auf NVIDIA: Treiber auf 525+ unter Linux, 452+ unter Windows aktualisieren. `nvidia-smi` ausführen zur Bestätigung.
  • Extrem langsame Inferenz: Sie laufen nur auf CPU. GPU-Offloading in Ollama mit `OLLAMA_GPU_LAYERS`-Umgebungsvariable aktivieren.
  • Verbindung verweigert: Ollama läuft nicht. Mit `ollama serve` starten oder den Service neu starten.
  • Fehlerhafte Ausgabe: falsche Prompt-Vorlage. Verwenden Sie die Instruct-Variante des Modells, nicht die Basis-Variante.
10 häufigste lokale LLM-Fehler mit Symptomen und Lösungen — Schnellreferenz für Ollama, LM Studio und vLLM-Setups (April 2026).
10 häufigste lokale LLM-Fehler mit Symptomen und Lösungen — Schnellreferenz für Ollama, LM Studio und vLLM-Setups (April 2026).

Fehler 1: "Nicht genug Speicher" / Out-of-Memory-Absturz

Out-of-Memory-Fehler bedeuten, dass das Modell mehr RAM benötigt als verfügbar ist — kein Hardware-Fehler. Dies ist der häufigste Fehler für Erstbenutzer. Siehe LLM-Quantisierung erklärt für Hintergrund, wie Quantisierung RAM-Anforderungen reduziert.

  • Verfügbaren Speicher überprüfen: auf macOS/Linux `free -h` ausführen, auf Windows Task Manager → Performance → Memory öffnen.
  • Zu kleinerer Quantisierung wechseln: Ersetzen Sie `Q8_0` oder `Q5_K_M` mit `Q4_K_M`. Für Ollama: `ollama run llama3.2-instruct-q4_K_M`.
  • Hintergrundanwendungen schließen vor dem Modellladen — Browser und andere Apps verbrauchen RAM, das dem Modell fehlt.
  • Zu kleinerem Modell wechseln: wenn 8B bei 8 GB RAM fehlschlägt, versuchen Sie `llama3.2:3b` (benötigt nur ~2,5 GB).
Lokale LLM-RAM-Anforderungen nach Modellgröße: llama3.2 1B–3B passt in 8 GB, 7B–8B-Modelle brauchen 16 GB, 70B-Modelle benötigen 64 GB bei Q4_K_M-Quantisierung.
Lokale LLM-RAM-Anforderungen nach Modellgröße: llama3.2 1B–3B passt in 8 GB, 7B–8B-Modelle brauchen 16 GB, 70B-Modelle benötigen 64 GB bei Q4_K_M-Quantisierung.

Verfügbaren RAM unter Linux / macOS überprüfen

bash
# Linux
free -h

# macOS
vm_stat | grep "Pages free"

# Lesbarer unter macOS
top -l 1 | grep "PhysMem"

Fehler 2: GPU wird nicht verwendet (läuft nur auf CPU)

GPU wird nicht verwendet bedeutet, das LLM läuft 5–10× langsamer als erwartet — Treiberinstallation vor allem anderen überprüfen. Überprüfen Sie, dass Ihre GPU für das System sichtbar ist:

bash
# NVIDIA — sollte GPU-Name und Treiberversion anzeigen
nvidia-smi

# AMD unter Linux
rocm-smi

# macOS — überprüfen Sie, ob Metal verfügbar ist
system_profiler SPDisplaysDataType | grep "Metal"
Nur-CPU gegen GPU-aktiv: Ollama auf CPU liefert 2–8 tok/s; GPU-Modus liefert 30–120 tok/s. Mit ollama ps oder nvidia-smi überprüfen.
Nur-CPU gegen GPU-aktiv: Ollama auf CPU liefert 2–8 tok/s; GPU-Modus liefert 30–120 tok/s. Mit ollama ps oder nvidia-smi überprüfen.

Wie aktivieren Sie GPU in Ollama?

  • NVIDIA unter Linux: installieren Sie NVIDIA-Treiber 525+ und CUDA Toolkit 11.3+. Ollama erkennt CUDA beim Neustart automatisch.
  • NVIDIA unter Windows: stellen Sie sicher, dass Treiberversion 452.39 oder höher ist. Ollama installiert CUDA-Unterstützung automatisch über den Windows-Installer.
  • AMD unter Linux: installieren Sie ROCm 5.7+. Setzen Sie `HSA_OVERRIDE_GFX_VERSION=11.0.0` für RX 6000-Serie-Karten, falls Erkennung fehlschlägt.
  • Apple Silicon: Ollama verwendet standardmäßig Metal — keine Konfiguration erforderlich. Bestätigen Sie mit `ollama ps` nach dem Laden eines Modells; GPU-Layer erscheinen in der Ausgabe.

Fehler 3: Inferenz ist extrem langsam (unter 5 Token/Sekunde)

Unter 5 Token/Sekunde bedeutet, dass das Modell nur auf CPU läuft oder das Modell zu groß für verfügbare VRAM ist. Ein 7B-Modell auf GPU generiert 30–80 tok/s; dasselbe Modell auf CPU generiert 3–10 tok/s.

  • Bestätigen Sie, ob GPU aktiv ist: führen Sie `ollama ps` aus, während ein Modell geladen ist. Die Ausgabe zeigt, wie viele Layer auf GPU gegen CPU sind.
  • Modellgröße reduzieren: ein 13B-Modell auf CPU generiert 3–6 tok/s. Wechsel zu 7B verdoppelt die Geschwindigkeit; Wechsel zu 3B vervierfacht sie.
  • GPU-Layer in Ollama erhöhen: setzen Sie `OLLAMA_GPU_LAYERS=999`, um alle Layer auf GPU zu verschieben (Ollama wird auf das begrenzen, was in VRAM passt).
  • Schnellere Quantisierung verwenden: Q4_K_M ist die schnellste Quantisierung, die akzeptable Qualität behält. Q8_0 ist höhere Qualität, aber ~30% langsamer.

GPU-Layer in Ollama setzen

bash
# Umgebungsvariable vor dem Starten von Ollama setzen
export OLLAMA_GPU_LAYERS=999
ollama serve

# Oder in einer Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999

Fehler 4: "Connection Refused" beim API-Aufruf

Connection Refused bedeutet, Ollama läuft nicht — der API bei `localhost:11434` antwortet nur wenn der Service aktiv ist. Starten Sie es vor API-Aufrufen.

bash
# Ollama manuell starten
ollama serve

# Unter Linux — systemd-Service neu starten
systemctl restart ollama

# Überprüfen Sie, dass es läuft
curl http://localhost:11434
# Erwartet: "Ollama is running"

Fehler 5: "Model Not Found"-Fehler

"Modell nicht gefunden" bedeutet, der Modellname in Ihrem Befehl passt zu keinem heruntergeladenen Modell. Modellnamen in Ollama beachten Groß-/Kleinschreibung und umfassen Versions-Tags.

bash
# Alle heruntergeladenen Modelle auflisten
ollama list

# Modell laden, wenn es fehlt
ollama pull llama3.2

# Exakten Modellnamen überprüfen — Tags sind wichtig
# "llama3.2" und "llama3.2:3b" sind unterschiedliche Einträge

Fehler 6: Beschädigte Modelldatei

Eine beschädigte Modelldatei entsteht durch unterbrochene Downloads — löschen und neu laden zum Beheben. Ollama erkennt teilweise Downloads nicht immer selbst.

bash
# Beschädigtes Modell entfernen
ollama rm llama3.2

# Erneut laden
ollama pull llama3.2

# Für LM Studio: Modelldatei manuell löschen
# Standardort: ~/.cache/lm-studio/models/

Fehler 6b: "Failed to Resolve Model" in LM Studio

"Failed to resolve model lmstudio-community/..." bedeutet, LM Studio kann das Modell nicht in seiner Registry finden. Dies tritt typischerweise auf, wenn das Modell von `lmstudio-community` auf Hugging Face heruntergeladen wurde, aber die Registry-Referenz sich geändert hat. LM Studio verwendet einen zwischengespeicherten Registry-Eintrag, der nicht mehr den verfügbaren Modelldateien entspricht.

  • Öffnen Sie LM Studio → My Models-Reiter → klicken Sie auf das Drei-Punkte-Menü bei dem fehlerhaften Modell → wählen Sie "Delete model" (behält die Datei, entfernt Registry)
  • Suchen Sie im Model-Browser nach demselben Modell und laden Sie es erneut herunter — LM Studio wird es erneut registrieren
  • Alternative: Beenden Sie LM Studio, navigieren Sie zu `~/.cache/lm-studio/models/` und löschen Sie den spezifischen Modellordner, laden Sie dann erneut herunter
bash
# LM Studio-Modell-Cache manuell löschen (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>

Fehler 7: CUDA oder ROCm-Fehler

CUDA-Fehler zeigen, dass die GPU erkannt wird, aber die Treiber oder Bibliotheken inkompatibel sind. Dies ist häufiger auf Linux als Windows/macOS.

  • NVIDIA-Treiber-Version überprüfen: `nvidia-smi` sollte Treiberversion ≥ 450.80 anzeigen. Outdated Treiber können CUDA nicht starten.
  • CUDA-Toolkit überprüfen: Ollama benötigt CUDA 11.3+. Installieren Sie auf Linux: `ubuntu-drivers devices` und `sudo ubuntu-drivers autoinstall`.
  • ROCm für AMD konfigurieren: Setzen Sie Umgebungsvariablen vor dem Start. Für RX 6000-Serie: `HSA_OVERRIDE_GFX_VERSION=10.3.0`, für RX 7000: `11.0.0`.

Fehler 8: Fehlerhafte oder repetitive Ausgabe

Fehlerhafte oder wiederholte Ausgabe bedeutet fast immer, dass Sie die falsche Modell-Variante verwenden. Base-Modelle ohne Instruct-Format erzeugen Müll; Instruct-Modelle sind für Gespräche trainiert.

  • Verwenden Sie die Instruct-Variante: bei Ollama, ersetzen Sie `llama3.1:8b` mit `llama3.1:8b-instruct`. Die "-instruct"-Variante versteht Befehle und antwortet richtig.
  • LM Studio Chat-Vorlage überprüfen: Model-Einstellungen → Chat Format. Wählen Sie das richtige Format für das Modell (z.B. "Llama 2 Chat" für Llama-Modelle).
  • System-Prompt überprüfen: manchmal hat ein fehlerhafter System-Prompt (z.B. zu lange, zirkulär) Auswirkung auf die Ausgabe. Versuchen Sie einen generischen Prompt: "You are a helpful assistant."

Fehler 9: "Port Already in Use"

"Port bereits in Verwendung" bedeutet, ein anderer Prozess bindet bereits Port 11434 (Ollama) oder Port 1234 (LM Studio). Dies ist häufig ein zweiter Ollama-Prozess oder ein anderer Dienst.

  • Alternativer Port für Ollama: setzen Sie `OLLAMA_HOST=0.0.0.0:11435` vor dem Start, um einen anderen Port zu verwenden.
bash
# Port-Nutzer finden (macOS/Linux)
lsof -i :11434

# Windows
netstat -ano | findstr 11434

# Prozess beenden (Note PID)
kill -9 <PID>  # macOS/Linux
taskkill /PID <PID> /F  # Windows

Fehler 10: Modell stoppt mitten im Response

Das Modell produziert keine vorhersehbare Ausgabe mehr, nachdem wenige Sätze generiert wurden. Dies ist normalerweise begrenzte Ausgabe-Token oder ein Speicherproblem.

  • Erhöhen Sie max_tokens Limit: die Standard num_predict ist oft 128 Token. In Ollama, setzen Sie `OLLAMA_NUM_PREDICT=2048`. In LM Studio, erhöhen Sie "Max Tokens" im Schieberegler.
  • Stop-Sequenzen überprüfen: einige Chat-Vorlagen erzeugen Stop-Sequenzen (z.B. "[INST]") die die Ausgabe vorzeitig beenden. Überprüfen Sie im System-Prompt oder den Chat-Format-Einstellungen.
  • RAM-Druck überprüfen: wenn Sie Swap nutzen (Festplatte statt RAM), stoppt die Inferenz. Überprüfen Sie mit `free -h` während das Modell lädt.

Weiterführende Lektüre

Wo finde ich mehr Hilfe

Für Hardware-spezifische Probleme auf Laptops (thermische Drosselung, Batterieabfluss), siehe Wie führen Sie lokale LLMs auf einem Laptop aus. Für Sicherheits- und Datenschutz-Konfigurationsfragen, siehe die Lokale LLM-Sicherheits- und Datenschutz-Checkliste. Die Ollama GitHub-Issues-Seite (github.com/ollama/ollama/issues) und das r/LocalLLaMA-Subreddit sind die aktivsten Community-Ressourcen für modellspezifische Bugs.

Häufige Fehler bei der Fehlersuche lokaler LLMs

  • OOM-Fehler mit Hardware-Fehler verwechseln — der Fehler bedeutet, RAM ist zu klein für das Modell, nicht dass Hardware kaputt ist. Behebung: Q4_K_M-Quantisierung oder kleineres Modell verwenden.
  • Systemlast nicht überprüfen — Inferenz-Geschwindigkeit verschlechtert sich erheblich, wenn andere Anwendungen CPU/GPU verbrauchen. Browser, Videoplayer und Hintergrundprozesse vor dem Benchmarking schließen.
  • Treiberversions-Inkompatibilität ignorieren — NVIDIA CUDA erfordert spezifische Treiberversionen pro CUDA-Version. Überprüfen Sie `nvidia-smi`-Ausgabe; Treiberversion muss ≥450.80 für CUDA 11.x sein.
  • Falschen Modellnamen in Ollama verwenden — `llama3.2` und `llama3.2:3b` sind unterschiedliche Ollama-Tags. Führen Sie `ollama list` aus, um exakte Namen heruntergeladener Modelle zu sehen.
  • Ollama nach Treiberupdate nicht neu starten — Ollama erkennt GPU beim Start. Nach Update von NVIDIA oder ROCm-Treibern, starten Sie Ollama komplett neu (`ollama serve`), um die GPU erneut zu erkennen.
5-Schritte-Fehlersuche-Prozess für lokale LLMs: RAM überprüfen → GPU überprüfen → Server überprüfen → Modell überprüfen → Ausgabequalität überprüfen. Stopp beim ersten Fehlschlag.
5-Schritte-Fehlersuche-Prozess für lokale LLMs: RAM überprüfen → GPU überprüfen → Server überprüfen → Modell überprüfen → Ausgabequalität überprüfen. Stopp beim ersten Fehlschlag.

Quellen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Lokale LLM-Fehler beheben: OOM, GPU, Port 11434 2026