Wichtigste Erkenntnisse
- Speicher voll: Wechsel zu kleinerer Quantisierung (Q4_K_M → Q3_K_S) oder kleinerem Modell.
- GPU nicht erkannt auf NVIDIA: Treiber auf 525+ unter Linux, 452+ unter Windows aktualisieren. `nvidia-smi` ausführen zur Bestätigung.
- Extrem langsame Inferenz: Sie laufen nur auf CPU. GPU-Offloading in Ollama mit `OLLAMA_GPU_LAYERS`-Umgebungsvariable aktivieren.
- Verbindung verweigert: Ollama läuft nicht. Mit `ollama serve` starten oder den Service neu starten.
- Fehlerhafte Ausgabe: falsche Prompt-Vorlage. Verwenden Sie die Instruct-Variante des Modells, nicht die Basis-Variante.
Fehler 1: "Nicht genug Speicher" / Out-of-Memory-Absturz
Out-of-Memory-Fehler bedeuten, dass das Modell mehr RAM benötigt als verfügbar ist — kein Hardware-Fehler. Dies ist der häufigste Fehler für Erstbenutzer. Siehe LLM-Quantisierung erklärt für Hintergrund, wie Quantisierung RAM-Anforderungen reduziert.
- Verfügbaren Speicher überprüfen: auf macOS/Linux `free -h` ausführen, auf Windows Task Manager → Performance → Memory öffnen.
- Zu kleinerer Quantisierung wechseln: Ersetzen Sie `Q8_0` oder `Q5_K_M` mit `Q4_K_M`. Für Ollama: `ollama run llama3.2-instruct-q4_K_M`.
- Hintergrundanwendungen schließen vor dem Modellladen — Browser und andere Apps verbrauchen RAM, das dem Modell fehlt.
- Zu kleinerem Modell wechseln: wenn 8B bei 8 GB RAM fehlschlägt, versuchen Sie `llama3.2:3b` (benötigt nur ~2,5 GB).
Verfügbaren RAM unter Linux / macOS überprüfen
# Linux
free -h
# macOS
vm_stat | grep "Pages free"
# Lesbarer unter macOS
top -l 1 | grep "PhysMem"Fehler 2: GPU wird nicht verwendet (läuft nur auf CPU)
GPU wird nicht verwendet bedeutet, das LLM läuft 5–10× langsamer als erwartet — Treiberinstallation vor allem anderen überprüfen. Überprüfen Sie, dass Ihre GPU für das System sichtbar ist:
# NVIDIA — sollte GPU-Name und Treiberversion anzeigen
nvidia-smi
# AMD unter Linux
rocm-smi
# macOS — überprüfen Sie, ob Metal verfügbar ist
system_profiler SPDisplaysDataType | grep "Metal"Wie aktivieren Sie GPU in Ollama?
- NVIDIA unter Linux: installieren Sie NVIDIA-Treiber 525+ und CUDA Toolkit 11.3+. Ollama erkennt CUDA beim Neustart automatisch.
- NVIDIA unter Windows: stellen Sie sicher, dass Treiberversion 452.39 oder höher ist. Ollama installiert CUDA-Unterstützung automatisch über den Windows-Installer.
- AMD unter Linux: installieren Sie ROCm 5.7+. Setzen Sie `HSA_OVERRIDE_GFX_VERSION=11.0.0` für RX 6000-Serie-Karten, falls Erkennung fehlschlägt.
- Apple Silicon: Ollama verwendet standardmäßig Metal — keine Konfiguration erforderlich. Bestätigen Sie mit `ollama ps` nach dem Laden eines Modells; GPU-Layer erscheinen in der Ausgabe.
Fehler 3: Inferenz ist extrem langsam (unter 5 Token/Sekunde)
Unter 5 Token/Sekunde bedeutet, dass das Modell nur auf CPU läuft oder das Modell zu groß für verfügbare VRAM ist. Ein 7B-Modell auf GPU generiert 30–80 tok/s; dasselbe Modell auf CPU generiert 3–10 tok/s.
- Bestätigen Sie, ob GPU aktiv ist: führen Sie `ollama ps` aus, während ein Modell geladen ist. Die Ausgabe zeigt, wie viele Layer auf GPU gegen CPU sind.
- Modellgröße reduzieren: ein 13B-Modell auf CPU generiert 3–6 tok/s. Wechsel zu 7B verdoppelt die Geschwindigkeit; Wechsel zu 3B vervierfacht sie.
- GPU-Layer in Ollama erhöhen: setzen Sie `OLLAMA_GPU_LAYERS=999`, um alle Layer auf GPU zu verschieben (Ollama wird auf das begrenzen, was in VRAM passt).
- Schnellere Quantisierung verwenden: Q4_K_M ist die schnellste Quantisierung, die akzeptable Qualität behält. Q8_0 ist höhere Qualität, aber ~30% langsamer.
GPU-Layer in Ollama setzen
# Umgebungsvariable vor dem Starten von Ollama setzen
export OLLAMA_GPU_LAYERS=999
ollama serve
# Oder in einer Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999Fehler 4: "Connection Refused" beim API-Aufruf
Connection Refused bedeutet, Ollama läuft nicht — der API bei `localhost:11434` antwortet nur wenn der Service aktiv ist. Starten Sie es vor API-Aufrufen.
# Ollama manuell starten
ollama serve
# Unter Linux — systemd-Service neu starten
systemctl restart ollama
# Überprüfen Sie, dass es läuft
curl http://localhost:11434
# Erwartet: "Ollama is running"Fehler 5: "Model Not Found"-Fehler
"Modell nicht gefunden" bedeutet, der Modellname in Ihrem Befehl passt zu keinem heruntergeladenen Modell. Modellnamen in Ollama beachten Groß-/Kleinschreibung und umfassen Versions-Tags.
# Alle heruntergeladenen Modelle auflisten
ollama list
# Modell laden, wenn es fehlt
ollama pull llama3.2
# Exakten Modellnamen überprüfen — Tags sind wichtig
# "llama3.2" und "llama3.2:3b" sind unterschiedliche EinträgeFehler 6: Beschädigte Modelldatei
Eine beschädigte Modelldatei entsteht durch unterbrochene Downloads — löschen und neu laden zum Beheben. Ollama erkennt teilweise Downloads nicht immer selbst.
# Beschädigtes Modell entfernen
ollama rm llama3.2
# Erneut laden
ollama pull llama3.2
# Für LM Studio: Modelldatei manuell löschen
# Standardort: ~/.cache/lm-studio/models/Fehler 6b: "Failed to Resolve Model" in LM Studio
"Failed to resolve model lmstudio-community/..." bedeutet, LM Studio kann das Modell nicht in seiner Registry finden. Dies tritt typischerweise auf, wenn das Modell von `lmstudio-community` auf Hugging Face heruntergeladen wurde, aber die Registry-Referenz sich geändert hat. LM Studio verwendet einen zwischengespeicherten Registry-Eintrag, der nicht mehr den verfügbaren Modelldateien entspricht.
- Öffnen Sie LM Studio → My Models-Reiter → klicken Sie auf das Drei-Punkte-Menü bei dem fehlerhaften Modell → wählen Sie "Delete model" (behält die Datei, entfernt Registry)
- Suchen Sie im Model-Browser nach demselben Modell und laden Sie es erneut herunter — LM Studio wird es erneut registrieren
- Alternative: Beenden Sie LM Studio, navigieren Sie zu `~/.cache/lm-studio/models/` und löschen Sie den spezifischen Modellordner, laden Sie dann erneut herunter
# LM Studio-Modell-Cache manuell löschen (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>Fehler 7: CUDA oder ROCm-Fehler
CUDA-Fehler zeigen, dass die GPU erkannt wird, aber die Treiber oder Bibliotheken inkompatibel sind. Dies ist häufiger auf Linux als Windows/macOS.
- NVIDIA-Treiber-Version überprüfen: `nvidia-smi` sollte Treiberversion ≥ 450.80 anzeigen. Outdated Treiber können CUDA nicht starten.
- CUDA-Toolkit überprüfen: Ollama benötigt CUDA 11.3+. Installieren Sie auf Linux: `ubuntu-drivers devices` und `sudo ubuntu-drivers autoinstall`.
- ROCm für AMD konfigurieren: Setzen Sie Umgebungsvariablen vor dem Start. Für RX 6000-Serie: `HSA_OVERRIDE_GFX_VERSION=10.3.0`, für RX 7000: `11.0.0`.
Fehler 8: Fehlerhafte oder repetitive Ausgabe
Fehlerhafte oder wiederholte Ausgabe bedeutet fast immer, dass Sie die falsche Modell-Variante verwenden. Base-Modelle ohne Instruct-Format erzeugen Müll; Instruct-Modelle sind für Gespräche trainiert.
- Verwenden Sie die Instruct-Variante: bei Ollama, ersetzen Sie `llama3.1:8b` mit `llama3.1:8b-instruct`. Die "-instruct"-Variante versteht Befehle und antwortet richtig.
- LM Studio Chat-Vorlage überprüfen: Model-Einstellungen → Chat Format. Wählen Sie das richtige Format für das Modell (z.B. "Llama 2 Chat" für Llama-Modelle).
- System-Prompt überprüfen: manchmal hat ein fehlerhafter System-Prompt (z.B. zu lange, zirkulär) Auswirkung auf die Ausgabe. Versuchen Sie einen generischen Prompt: "You are a helpful assistant."
Fehler 9: "Port Already in Use"
"Port bereits in Verwendung" bedeutet, ein anderer Prozess bindet bereits Port 11434 (Ollama) oder Port 1234 (LM Studio). Dies ist häufig ein zweiter Ollama-Prozess oder ein anderer Dienst.
- Alternativer Port für Ollama: setzen Sie `OLLAMA_HOST=0.0.0.0:11435` vor dem Start, um einen anderen Port zu verwenden.
# Port-Nutzer finden (macOS/Linux)
lsof -i :11434
# Windows
netstat -ano | findstr 11434
# Prozess beenden (Note PID)
kill -9 <PID> # macOS/Linux
taskkill /PID <PID> /F # WindowsFehler 10: Modell stoppt mitten im Response
Das Modell produziert keine vorhersehbare Ausgabe mehr, nachdem wenige Sätze generiert wurden. Dies ist normalerweise begrenzte Ausgabe-Token oder ein Speicherproblem.
- Erhöhen Sie max_tokens Limit: die Standard num_predict ist oft 128 Token. In Ollama, setzen Sie `OLLAMA_NUM_PREDICT=2048`. In LM Studio, erhöhen Sie "Max Tokens" im Schieberegler.
- Stop-Sequenzen überprüfen: einige Chat-Vorlagen erzeugen Stop-Sequenzen (z.B. "[INST]") die die Ausgabe vorzeitig beenden. Überprüfen Sie im System-Prompt oder den Chat-Format-Einstellungen.
- RAM-Druck überprüfen: wenn Sie Swap nutzen (Festplatte statt RAM), stoppt die Inferenz. Überprüfen Sie mit `free -h` während das Modell lädt.
Weiterführende Lektüre
- Wie führen Sie lokale LLMs auf einem Laptop aus — Wärmeverwaltung und Batterielebensdauer auf limitierter Hardware
- Lokale LLM-Sicherheits- und Datenschutz-Checkliste — Vollständige Audit-Anleitung
- Beste Anfänger-Lokale-LLM-Modelle — RAM-passende Modellempfehlungen
- LLM-Quantisierung erklärt — warum Q4_K_M Standard ist und Q3_K_M für extreme RAM-Einschränkungen
- Beste LLMs für Coding 2026 — Qwen2.5-Coder vs DeepSeek Benchmark-Vergleich
Wo finde ich mehr Hilfe
Für Hardware-spezifische Probleme auf Laptops (thermische Drosselung, Batterieabfluss), siehe Wie führen Sie lokale LLMs auf einem Laptop aus. Für Sicherheits- und Datenschutz-Konfigurationsfragen, siehe die Lokale LLM-Sicherheits- und Datenschutz-Checkliste. Die Ollama GitHub-Issues-Seite (github.com/ollama/ollama/issues) und das r/LocalLLaMA-Subreddit sind die aktivsten Community-Ressourcen für modellspezifische Bugs.
Häufige Fehler bei der Fehlersuche lokaler LLMs
- OOM-Fehler mit Hardware-Fehler verwechseln — der Fehler bedeutet, RAM ist zu klein für das Modell, nicht dass Hardware kaputt ist. Behebung: Q4_K_M-Quantisierung oder kleineres Modell verwenden.
- Systemlast nicht überprüfen — Inferenz-Geschwindigkeit verschlechtert sich erheblich, wenn andere Anwendungen CPU/GPU verbrauchen. Browser, Videoplayer und Hintergrundprozesse vor dem Benchmarking schließen.
- Treiberversions-Inkompatibilität ignorieren — NVIDIA CUDA erfordert spezifische Treiberversionen pro CUDA-Version. Überprüfen Sie `nvidia-smi`-Ausgabe; Treiberversion muss ≥450.80 für CUDA 11.x sein.
- Falschen Modellnamen in Ollama verwenden — `llama3.2` und `llama3.2:3b` sind unterschiedliche Ollama-Tags. Führen Sie `ollama list` aus, um exakte Namen heruntergeladener Modelle zu sehen.
- Ollama nach Treiberupdate nicht neu starten — Ollama erkennt GPU beim Start. Nach Update von NVIDIA oder ROCm-Treibern, starten Sie Ollama komplett neu (`ollama serve`), um die GPU erneut zu erkennen.
Quellen
- NVIDIA. (2024). "CUDA Toolkit Release Notes." https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/ — Offizielle CUDA-Treiberversionsanforderungen pro Version.
- Ollama. (2026). "Ollama Troubleshooting." https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md — Offizielle Ollama-Dokumentation für häufige Fehler.
- AMD. (2024). "ROCm Installation Guide." https://rocm.docs.amd.com/projects/install-on-linux/en/latest/ — Offizielle AMD ROCm-Installation und GPU-Unterstützung für Linux.