PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Ollama Befehls-Anleitung: Alle Befehle erklärt (2026)
Tools & Interfaces

Ollama Befehls-Anleitung: Alle Befehle erklärt (2026)

·13 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Ollama ist ein Kommandozeilen-Werkzeug, und das Verständnis seiner Befehle macht es viel leistungsfähiger. Diese Anleitung behandelt die wesentlichen Befehle: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` und erweiterte Optionen wie Modellquantisierung und benutzerdefinierte Modelfiles.

Ollama ist ein Kommandozeilen-Werkzeug, und das Verständnis seiner Befehle macht es viel leistungsfähiger. Diese Anleitung behandelt die wesentlichen Befehle: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` und erweiterte Optionen wie Modellquantisierung und benutzerdefinierte Modelfiles. Ab April 2026 decken diese Befehle 95% der realen Anwendungsfälle ab.

Wichtigste Erkenntnisse

  • `ollama pull <model>` -- Modell herunterladen (z. B. `ollama pull llama3.2:3b`).
  • `ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
  • `ollama list` -- Alle heruntergeladenen Modelle und ihre Größen anzeigen.
  • `ollama rm <model>` -- Ein heruntergeladenes Modell löschen.
  • `ollama serve` -- Ollama API-Server starten (läuft automatisch auf Mac/Windows).
  • `ollama create <name> -f <modelfile>` -- Benutzerdefiniertes Modell aus Modelfile erstellen.
  • Ab April 2026 sind diese Befehle stabil und decken alle häufigen Anwendungsfälle ab.

Welche sind die wesentlichen Ollama-Befehle?

  • `ollama list` -- Heruntergeladene Modelle, Speicherplatznutzung und Änderungsdatum anzeigen.
  • `ollama pull <model>` -- Modell nach Name herunterladen (z. B. `ollama pull mistral`).
  • `ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
  • `ollama rm <model>` -- Modell löschen und Speicherplatz freigeben.
  • `ollama serve` -- REST API-Server starten (läuft normalerweise automatisch).
  • `ollama help` -- Alle verfügbaren Befehle anzeigen.

Wie verwalten Sie Modelle in Ollama?

Die Modellverwaltung in Ollama erfolgt vollständig über Befehle:

bash
# Alle heruntergeladenen Modelle auflisten
ollama list

# Modell aus der Ollama-Bibliothek herunterladen
ollama pull llama3.2:3b       # 7-Bit-Version (~2,5 GB)
ollama pull llama3.2:3b-fp16  # Vollständige Präzision (~6,5 GB)

# Spezifische Quantisierung herunterladen
ollama pull qwen2.5:7b-q4   # 4-Bit-Quantisierung
ollama pull qwen2.5:7b-q8   # 8-Bit-Quantisierung

# Speicherplatznutzung anzeigen
du -sh ~/.ollama/models

# Modell löschen
ollama rm llama3.2:3b

# Aus benutzerdefinierter Registry ziehen (erweitert)
ollama pull localhost:5000/custom-model

Wie führen Sie Modelle aus und servieren sie?

Es gibt zwei Möglichkeiten, Ollama zu verwenden:

bash
# 1. Interaktiver Chat (CLI)
ollama run llama3.2:3b
# Geben Sie jetzt Ihre Anfragen ein und drücken Sie die Eingabetaste

# 2. API-Server starten (läuft im Hintergrund)
ollama serve
# API lauscht auf http://localhost:11434/v1

# 3. Modell über API von einem anderen Terminal aus verwenden
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hallo"}]
  }'

Wie erstellen Sie benutzerdefinierte Modelle mit Modelfiles?

Ein Modelfile ist eine Konfigurationsdatei (wie ein Dockerfile), die ein benutzerdefiniertes Modell definiert, indem sie von einem Basis-Modell ausgeht und System-Prompts, Parameter und Gewichte hinzufügt.

bash
# Erstellen Sie eine Datei mit dem Namen Modelfile
FROM llama3.2:3b

# Fügen Sie einen System-Prompt hinzu
SYSTEM """
Sie sind ein hilfreicher Experte im Bereich maschinelles Lernen.
Erklären Sie komplexe Konzepte immer in einfachen Worten.
"""

# Parameter anpassen
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# Benutzerdefiniertes Modell erstellen
ollama create ml-expert -f Modelfile

# Verwenden Sie es
ollama run ml-expert

Welche Quantisierungsoptionen unterstützt Ollama?

Quantisierung reduziert Modellgröße und VRAM durch Verwendung von Zahlen mit niedrigerer Präzision. Ollama unterstützt GGUF-Format mit mehreren Quantisierungen:

QuantisierungGröße (7B)VRAMQualitätGeschwindigkeit
FP16 (vollständige Präzision)14 GB16 GBBesteLangsamste
Q8_0 (8-Bit)7 GB8 GBAusgezeichnetSchnell
Q6_K (6-Bit)5,5 GB6 GBSehr gutSchnell
Q5_K_M (5-Bit)5 GB5,5 GBGutSehr schnell
Q4_K_M (4-Bit)4,7 GB5 GBGutSehr schnell
Q3_K_M (3-Bit)3,3 GB4 GBAnnehmbarSchnellste

Welche Embedding-Modelle sind mit Ollama verfügbar?

Embedding-Modelle konvertieren Text in numerische Vektoren für Semantic Search, RAG und andere Anwendungen. Ollama unterstützt mehrere Embedding-Modelle:

  • `nomic-embed-text` -- Kleines, schnelles Embedding-Modell (~260 MB). Gut für RAG und lokale Suche.
  • `mxbai-embed-large` -- Größeres Modell mit besserer Qualität (~335 MB). Bessere Semantik-Erkennung.
  • Verwendung: `ollama pull nomic-embed-text` und dann API-Anfrage mit `"model": "nomic-embed-text"`.

Welche Umgebungsvariablen können Sie setzen?

Umgebungsvariablen steuern Ollama-Verhalten ohne Neukompilierung:

  • `OLLAMA_HOST` -- Legen Sie die API-Adresse fest (Standard: `127.0.0.1:11434`).
  • `OLLAMA_MODELS` -- Geben Sie das Modellverzeichnis an (Standard: `~/.ollama/models`).
  • `OLLAMA_NUM_PARALLEL` -- Anzahl paralleler Anfragen (Standard: 1).
  • `OLLAMA_KEEP_ALIVE` -- Wie lange ein Modell im Speicher bleibt (Standard: 5 Minuten).
  • `OLLAMA_NOPRUNE` -- Verhindert automatisches Löschen ungenutzter Modelle.
  • Beispiel: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`

Welche häufigen Fehler sollten Sie vermeiden?

  • Falscher Modellname. `ollama pull llama` funktioniert nicht; verwenden Sie `ollama pull llama3.2:3b` oder `ollama pull llama2:7b`.
  • Zu viel VRAM erforderlich. Wählen Sie kleinere Modelle oder stärkere Quantisierung. Q4_K_M ist oft der beste Kompromiss.
  • Modelle nicht mit `serve` aktualisiert. Wenn Sie ein Modell mit `ollama pull` ändern, müssen Sie `ollama serve` neustarten.
  • Vergessen, `ollama serve` zu starten. Die API läuft nicht, wenn Sie es nicht explizit starten (auf Mac/Windows automatisch, auf Linux nicht).
  • Modelfile-Syntax-Fehler. Überprüfen Sie die Großschreibung: `FROM`, `SYSTEM`, `PARAMETER` müssen Großbuchstaben sein.

Häufige Fragen zu Ollama-Befehlen

Wie aktualisiere ich ein heruntergeladenes Modell?

Führen Sie `ollama pull <model>` erneut aus. Ollama aktualisiert das Modell, wenn eine neue Version verfügbar ist. Sie müssen das alte nicht manuell löschen.

Wie ändere ich den Standard-Chat-Prompt?

Verwenden Sie ein Modelfile mit SYSTEM-Befehl. Erstellen Sie ein Modelfile mit Ihrem benutzerdefinierten Prompt, dann `ollama create <name> -f Modelfile`.

Kann ich Ollama-Modelle teilen?

Ja, Sie können benutzerdefinierte Modelle in ein Registry pushen: `ollama push <registry>/<model>`. Andere können es mit `ollama pull` abrufen.

Welches Modell sollte ich für Anfänger wählen?

`ollama pull llama3.2:3b` ist eine gute Wahl: klein (~2 GB), schnell und vernünftig intelligent. Für bessere Qualität versuchen Sie `mistral:7b` (~4,5 GB).

Wie reduziere ich die Speicherplatznutzung?

Nutzen Sie Quantisierung: `ollama pull llama3.2:3b-q4` statt FP16. Q4_K_M oder Q5_K_M bieten beste Balance.

Kann ich mehrere Modelle gleichzeitig laufen lassen?

Nur wenn Sie mehrere Instanzen mit verschiedenen Ports starten. Standard-Setup lädt ein Modell im Speicher. Verwenden Sie `OLLAMA_NUM_PARALLEL` für Anfrage-Pipelining.

Muss ich bei der Verwendung von Ollama die DSGVO beachten?

Ja—Ollama speichert lokal, also müssen Sie sicherstellen, dass personenbezogene Daten gemäß DSGVO Artikel 28 verarbeitet werden. Local Inference erfüllt Datenschutz-Anforderungen, aber Sie benötigen immer noch Zugriffskontrolle und Logging.

Ist Ollama für deutschen Mittelstand geeignet?

Ja—Mittelständler können Ollama mit `ollama create` für branchenspezifische Modelle verwenden. Kombinieren Sie mit BSI-C5-Standards für regulatorische Compliance. Lokale Modelle reduzieren die Abhängigkeit von Cloud-Anbietern und Compliance-Kosten.

Quellen

  • Offizielle Ollama-Dokumentation -- ollama.com
  • Ollama GitHub Repository -- github.com/ollama/ollama
  • GGUF Modellformat -- github.com/ggerganov/ggml
  • Ollama Modelfile-Spezifikation -- ollama.com/docs/modelfile

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

Ollama Befehls-Referenz 2026: pull, run, serve