Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Lokale LLM-Fehler 2026 beheben: 10 häufige Probleme in Ollama, LM Studio und vLLM
Getting Started

Lokale LLM-Fehler 2026 beheben: 10 häufige Probleme in Ollama, LM Studio und vLLM

·9 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Die häufigsten Fehler bei lokalen LLMs sind Out-of-Memory-Abstürze, GPU wird nicht erkannt, extrem langsame CPU-Inferenz, Connection Refused vom API und fehlerhafte Ausgabe.

Die häufigsten Fehler bei lokalen LLMs sind Out-of-Memory-Abstürze, GPU wird nicht erkannt, extrem langsame CPU-Inferenz, Connection Refused vom API und fehlerhafte Ausgabe. Stand April 2026 gibt es Lösungen für alle 10 Fehler — die meisten erfordern nur ein bis zwei Terminal-Befehle. Dieser Leitfaden behandelt Ollama (Port 11434), LM Studio (Port 1234) und vLLM mit exakten Befehlen für jeden Fehler.

Präsentation: Lokale LLM-Fehler 2026 beheben: 10 häufige Probleme in Ollama, LM Studio und vLLM

Die folgende Präsentation behandelt: die 10 häufigsten Fehler beim Einrichten lokaler LLMs (Out-of-Memory, GPU nicht erkannt, langsame Inferenz, Connection Refused, fehlerhafte Ausgabe), RAM-Anforderungen für 3B–14B-Modelle bei Q4_K_M- und Q8_0-Quantisierung, einen 5-Schritte-Debugprozess und Ollama-Befehle für jeden Fix. Als PDF herunterladen als Referenzkarte für die Fehlerbehebung bei lokalen LLMs.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • Speicher voll: Wechsel zu kleinerer Quantisierung (Q4_K_M → Q3_K_S) oder kleinerem Modell.
  • GPU nicht erkannt auf NVIDIA: Treiber auf 525+ unter Linux, 452+ unter Windows aktualisieren. `nvidia-smi` ausführen zur Bestätigung.
  • Extrem langsame Inferenz: Sie laufen nur auf CPU. GPU-Offloading in Ollama mit `OLLAMA_GPU_LAYERS`-Umgebungsvariable aktivieren.
  • Verbindung verweigert: Ollama läuft nicht. Mit `ollama serve` starten oder den Service neu starten.
  • Fehlerhafte Ausgabe: falsche Prompt-Vorlage. Verwenden Sie die Instruct-Variante des Modells, nicht die Basis-Variante.
10 häufigste lokale LLM-Fehler mit Symptomen und Lösungen — Schnellreferenz für Ollama, LM Studio und vLLM-Setups (April 2026).
10 häufigste lokale LLM-Fehler mit Symptomen und Lösungen — Schnellreferenz für Ollama, LM Studio und vLLM-Setups (April 2026).

Fehler 1: "Nicht genug Speicher" / Out-of-Memory-Absturz

Out-of-Memory-Fehler bedeuten, dass das Modell mehr RAM benötigt als verfügbar ist — kein Hardware-Fehler. Dies ist der häufigste Fehler für Erstbenutzer. Siehe LLM-Quantisierung erklärt für Hintergrund, wie Quantisierung RAM-Anforderungen reduziert.

  • Verfügbaren Speicher überprüfen: auf macOS/Linux `free -h` ausführen, auf Windows Task Manager → Performance → Memory öffnen.
  • Zu kleinerer Quantisierung wechseln: Ersetzen Sie `Q8_0` oder `Q5_K_M` mit `Q4_K_M`. Für Ollama: `ollama run llama3.2-instruct-q4_K_M`.
  • Hintergrundanwendungen schließen vor dem Modellladen — Browser und andere Apps verbrauchen RAM, das dem Modell fehlt.
  • Zu kleinerem Modell wechseln: wenn 8B bei 8 GB RAM fehlschlägt, versuchen Sie `llama3.2:3b` (benötigt nur ~2,5 GB).
Lokale LLM-RAM-Anforderungen nach Modellgröße: llama3.2 1B–3B passt in 8 GB, 7B–8B-Modelle brauchen 16 GB, 70B-Modelle benötigen 64 GB bei Q4_K_M-Quantisierung.
Lokale LLM-RAM-Anforderungen nach Modellgröße: llama3.2 1B–3B passt in 8 GB, 7B–8B-Modelle brauchen 16 GB, 70B-Modelle benötigen 64 GB bei Q4_K_M-Quantisierung.

Verfügbaren RAM unter Linux / macOS überprüfen

bash
# Linux
free -h

# macOS
vm_stat | grep "Pages free"

# Lesbarer unter macOS
top -l 1 | grep "PhysMem"

Fehler 2: GPU wird nicht verwendet (läuft nur auf CPU)

GPU wird nicht verwendet bedeutet, das LLM läuft 5–10× langsamer als erwartet — Treiberinstallation vor allem anderen überprüfen. Überprüfen Sie, dass Ihre GPU für das System sichtbar ist:

bash
# NVIDIA — sollte GPU-Name und Treiberversion anzeigen
nvidia-smi

# AMD unter Linux
rocm-smi

# macOS — überprüfen Sie, ob Metal verfügbar ist
system_profiler SPDisplaysDataType | grep "Metal"
Nur-CPU gegen GPU-aktiv: Ollama auf CPU liefert 2–8 tok/s; GPU-Modus liefert 30–120 tok/s. Mit ollama ps oder nvidia-smi überprüfen.
Nur-CPU gegen GPU-aktiv: Ollama auf CPU liefert 2–8 tok/s; GPU-Modus liefert 30–120 tok/s. Mit ollama ps oder nvidia-smi überprüfen.

Wie aktivieren Sie GPU in Ollama?

  • NVIDIA unter Linux: installieren Sie NVIDIA-Treiber 525+ und CUDA Toolkit 11.3+. Ollama erkennt CUDA beim Neustart automatisch.
  • NVIDIA unter Windows: stellen Sie sicher, dass Treiberversion 452.39 oder höher ist. Ollama installiert CUDA-Unterstützung automatisch über den Windows-Installer.
  • AMD unter Linux: installieren Sie ROCm 5.7+. Setzen Sie `HSA_OVERRIDE_GFX_VERSION=11.0.0` für RX 6000-Serie-Karten, falls Erkennung fehlschlägt.
  • Apple Silicon: Ollama verwendet standardmäßig Metal — keine Konfiguration erforderlich. Bestätigen Sie mit `ollama ps` nach dem Laden eines Modells; GPU-Layer erscheinen in der Ausgabe.

Fehler 3: Inferenz ist extrem langsam (unter 5 Token/Sekunde)

Unter 5 Token/Sekunde bedeutet, dass das Modell nur auf CPU läuft oder das Modell zu groß für verfügbare VRAM ist. Ein 7B-Modell auf GPU generiert 30–80 tok/s; dasselbe Modell auf CPU generiert 3–10 tok/s.

  • Bestätigen Sie, ob GPU aktiv ist: führen Sie `ollama ps` aus, während ein Modell geladen ist. Die Ausgabe zeigt, wie viele Layer auf GPU gegen CPU sind.
  • Modellgröße reduzieren: ein 13B-Modell auf CPU generiert 3–6 tok/s. Wechsel zu 7B verdoppelt die Geschwindigkeit; Wechsel zu 3B vervierfacht sie.
  • GPU-Layer in Ollama erhöhen: setzen Sie `OLLAMA_GPU_LAYERS=999`, um alle Layer auf GPU zu verschieben (Ollama wird auf das begrenzen, was in VRAM passt).
  • Schnellere Quantisierung verwenden: Q4_K_M ist die schnellste Quantisierung, die akzeptable Qualität behält. Q8_0 ist höhere Qualität, aber ~30% langsamer.

GPU-Layer in Ollama setzen

bash
# Umgebungsvariable vor dem Starten von Ollama setzen
export OLLAMA_GPU_LAYERS=999
ollama serve

# Oder in einer Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999

Fehler 4: "Connection Refused" beim API-Aufruf

Connection Refused bedeutet, Ollama läuft nicht — der API bei `localhost:11434` antwortet nur wenn der Service aktiv ist. Starten Sie es vor API-Aufrufen.

bash
# Ollama manuell starten
ollama serve

# Unter Linux — systemd-Service neu starten
systemctl restart ollama

# Überprüfen Sie, dass es läuft
curl http://localhost:11434
# Erwartet: "Ollama is running"

Fehler 5: "Model Not Found"-Fehler

"Modell nicht gefunden" bedeutet, der Modellname in Ihrem Befehl passt zu keinem heruntergeladenen Modell. Modellnamen in Ollama beachten Groß-/Kleinschreibung und umfassen Versions-Tags.

bash
# Alle heruntergeladenen Modelle auflisten
ollama list

# Modell laden, wenn es fehlt
ollama pull llama3.2

# Exakten Modellnamen überprüfen — Tags sind wichtig
# "llama3.2" und "llama3.2:3b" sind unterschiedliche Einträge

Fehler 6: Beschädigte Modelldatei

Eine beschädigte Modelldatei entsteht durch unterbrochene Downloads — löschen und neu laden zum Beheben. Ollama erkennt teilweise Downloads nicht immer selbst.

bash
# Beschädigtes Modell entfernen
ollama rm llama3.2

# Erneut laden
ollama pull llama3.2

# Für LM Studio: Modelldatei manuell löschen
# Standardort: ~/.cache/lm-studio/models/

Fehler 6b: "Failed to Resolve Model" in LM Studio

"Failed to resolve model lmstudio-community/..." bedeutet, LM Studio kann das Modell nicht in seiner Registry finden. Dies tritt typischerweise auf, wenn das Modell von `lmstudio-community` auf Hugging Face heruntergeladen wurde, aber die Registry-Referenz sich geändert hat. LM Studio verwendet einen zwischengespeicherten Registry-Eintrag, der nicht mehr den verfügbaren Modelldateien entspricht.

  • Öffnen Sie LM Studio → My Models-Reiter → klicken Sie auf das Drei-Punkte-Menü bei dem fehlerhaften Modell → wählen Sie "Delete model" (behält die Datei, entfernt Registry)
  • Suchen Sie im Model-Browser nach demselben Modell und laden Sie es erneut herunter — LM Studio wird es erneut registrieren
  • Alternative: Beenden Sie LM Studio, navigieren Sie zu `~/.cache/lm-studio/models/` und löschen Sie den spezifischen Modellordner, laden Sie dann erneut herunter
bash
# LM Studio-Modell-Cache manuell löschen (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>

Fehler 7: CUDA oder ROCm-Fehler

CUDA-Fehler zeigen, dass die GPU erkannt wird, aber die Treiber oder Bibliotheken inkompatibel sind. Dies ist häufiger auf Linux als Windows/macOS.

  • NVIDIA-Treiber-Version überprüfen: `nvidia-smi` sollte Treiberversion ≥ 450.80 anzeigen. Outdated Treiber können CUDA nicht starten.
  • CUDA-Toolkit überprüfen: Ollama benötigt CUDA 11.3+. Installieren Sie auf Linux: `ubuntu-drivers devices` und `sudo ubuntu-drivers autoinstall`.
  • ROCm für AMD konfigurieren: Setzen Sie Umgebungsvariablen vor dem Start. Für RX 6000-Serie: `HSA_OVERRIDE_GFX_VERSION=10.3.0`, für RX 7000: `11.0.0`.

Fehler 8: Fehlerhafte oder repetitive Ausgabe

Fehlerhafte oder wiederholte Ausgabe bedeutet fast immer, dass Sie die falsche Modell-Variante verwenden. Base-Modelle ohne Instruct-Format erzeugen Müll; Instruct-Modelle sind für Gespräche trainiert.

  • Verwenden Sie die Instruct-Variante: bei Ollama, ersetzen Sie `llama3.1:8b` mit `llama3.1:8b-instruct`. Die "-instruct"-Variante versteht Befehle und antwortet richtig.
  • LM Studio Chat-Vorlage überprüfen: Model-Einstellungen → Chat Format. Wählen Sie das richtige Format für das Modell (z.B. "Llama 3.3 Chat" für Llama-Modelle).
  • System-Prompt überprüfen: manchmal hat ein fehlerhafter System-Prompt (z.B. zu lange, zirkulär) Auswirkung auf die Ausgabe. Versuchen Sie einen generischen Prompt: "You are a helpful assistant."

Fehler 9: "Port Already in Use"

"Port bereits in Verwendung" bedeutet, ein anderer Prozess bindet bereits Port 11434 (Ollama) oder Port 1234 (LM Studio). Dies ist häufig ein zweiter Ollama-Prozess oder ein anderer Dienst.

  • Alternativer Port für Ollama: setzen Sie `OLLAMA_HOST=0.0.0.0:11435` vor dem Start, um einen anderen Port zu verwenden.
bash
# Port-Nutzer finden (macOS/Linux)
lsof -i :11434

# Windows
netstat -ano | findstr 11434

# Prozess beenden (Note PID)
kill -9 <PID>  # macOS/Linux
taskkill /PID <PID> /F  # Windows

Fehler 10: Modell stoppt mitten im Response

Das Modell produziert keine vorhersehbare Ausgabe mehr, nachdem wenige Sätze generiert wurden. Dies ist normalerweise begrenzte Ausgabe-Token oder ein Speicherproblem.

  • Erhöhen Sie max_tokens Limit: die Standard num_predict ist oft 128 Token. In Ollama, setzen Sie `OLLAMA_NUM_PREDICT=2048`. In LM Studio, erhöhen Sie "Max Tokens" im Schieberegler.
  • Stop-Sequenzen überprüfen: einige Chat-Vorlagen erzeugen Stop-Sequenzen (z.B. "[INST]") die die Ausgabe vorzeitig beenden. Überprüfen Sie im System-Prompt oder den Chat-Format-Einstellungen.
  • RAM-Druck überprüfen: wenn Sie Swap nutzen (Festplatte statt RAM), stoppt die Inferenz. Überprüfen Sie mit `free -h` während das Modell lädt.

Weiterführende Lektüre

Wo finde ich mehr Hilfe

Für Hardware-spezifische Probleme auf Laptops (thermische Drosselung, Batterieabfluss), siehe Wie führen Sie lokale LLMs auf einem Laptop aus. Für Sicherheits- und Datenschutz-Konfigurationsfragen, siehe die Lokale LLM-Sicherheits- und Datenschutz-Checkliste. Die Ollama GitHub-Issues-Seite (github.com/ollama/ollama/issues) und das r/LocalLLaMA-Subreddit sind die aktivsten Community-Ressourcen für modellspezifische Bugs.

Häufige Fehler bei der Fehlersuche lokaler LLMs

  • OOM-Fehler mit Hardware-Fehler verwechseln — der Fehler bedeutet, RAM ist zu klein für das Modell, nicht dass Hardware kaputt ist. Behebung: Q4_K_M-Quantisierung oder kleineres Modell verwenden.
  • Systemlast nicht überprüfen — Inferenz-Geschwindigkeit verschlechtert sich erheblich, wenn andere Anwendungen CPU/GPU verbrauchen. Browser, Videoplayer und Hintergrundprozesse vor dem Benchmarking schließen.
  • Treiberversions-Inkompatibilität ignorieren — NVIDIA CUDA erfordert spezifische Treiberversionen pro CUDA-Version. Überprüfen Sie `nvidia-smi`-Ausgabe; Treiberversion muss ≥450.80 für CUDA 11.x sein.
  • Falschen Modellnamen in Ollama verwenden — `llama3.2` und `llama3.2:3b` sind unterschiedliche Ollama-Tags. Führen Sie `ollama list` aus, um exakte Namen heruntergeladener Modelle zu sehen.
  • Ollama nach Treiberupdate nicht neu starten — Ollama erkennt GPU beim Start. Nach Update von NVIDIA oder ROCm-Treibern, starten Sie Ollama komplett neu (`ollama serve`), um die GPU erneut zu erkennen.
5-Schritte-Fehlersuche-Prozess für lokale LLMs: RAM überprüfen → GPU überprüfen → Server überprüfen → Modell überprüfen → Ausgabequalität überprüfen. Stopp beim ersten Fehlschlag.
5-Schritte-Fehlersuche-Prozess für lokale LLMs: RAM überprüfen → GPU überprüfen → Server überprüfen → Modell überprüfen → Ausgabequalität überprüfen. Stopp beim ersten Fehlschlag.

Quellen

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs