Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Ollama Befehls-Anleitung: Alle Befehle erklärt (2026)
Tools & Interfaces

Ollama Befehls-Anleitung: Alle Befehle erklärt (2026)

·13 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Ollama ist ein Kommandozeilen-Werkzeug, und das Verständnis seiner Befehle macht es viel leistungsfähiger. Diese Anleitung behandelt die wesentlichen Befehle: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` und erweiterte Optionen wie Modellquantisierung und benutzerdefinierte Modelfiles.

Ollama ist ein Kommandozeilen-Werkzeug, und das Verständnis seiner Befehle macht es viel leistungsfähiger. Diese Anleitung behandelt die wesentlichen Befehle: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` und erweiterte Optionen wie Modellquantisierung und benutzerdefinierte Modelfiles. Ab April 2026 decken diese Befehle 95% der realen Anwendungsfälle ab.

Wichtigste Erkenntnisse

  • `ollama pull <model>` -- Modell herunterladen (z. B. `ollama pull llama3.2:3b`).
  • `ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
  • `ollama list` -- Alle heruntergeladenen Modelle und ihre Größen anzeigen.
  • `ollama rm <model>` -- Ein heruntergeladenes Modell löschen.
  • `ollama serve` -- Ollama API-Server starten (läuft automatisch auf Mac/Windows).
  • `ollama create <name> -f <modelfile>` -- Benutzerdefiniertes Modell aus Modelfile erstellen.
  • Ab April 2026 sind diese Befehle stabil und decken alle häufigen Anwendungsfälle ab.

Welche sind die wesentlichen Ollama-Befehle?

  • `ollama list` -- Heruntergeladene Modelle, Speicherplatznutzung und Änderungsdatum anzeigen.
  • `ollama pull <model>` -- Modell nach Name herunterladen (z. B. `ollama pull mistral`).
  • `ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
  • `ollama rm <model>` -- Modell löschen und Speicherplatz freigeben.
  • `ollama serve` -- REST API-Server starten (läuft normalerweise automatisch).
  • `ollama help` -- Alle verfügbaren Befehle anzeigen.

Wie verwalten Sie Modelle in Ollama?

Die Modellverwaltung in Ollama erfolgt vollständig über Befehle:

bash
# Alle heruntergeladenen Modelle auflisten
ollama list

# Modell aus der Ollama-Bibliothek herunterladen
ollama pull llama3.2:3b       # 7-Bit-Version (~2,5 GB)
ollama pull llama3.2:3b-fp16  # Vollständige Präzision (~6,5 GB)

# Spezifische Quantisierung herunterladen
ollama pull qwen2.5:7b-q4   # 4-Bit-Quantisierung
ollama pull qwen2.5:7b-q8   # 8-Bit-Quantisierung

# Speicherplatznutzung anzeigen
du -sh ~/.ollama/models

# Modell löschen
ollama rm llama3.2:3b

# Aus benutzerdefinierter Registry ziehen (erweitert)
ollama pull localhost:5000/custom-model

Wie führen Sie Modelle aus und servieren sie?

Es gibt zwei Möglichkeiten, Ollama zu verwenden:

bash
# 1. Interaktiver Chat (CLI)
ollama run llama3.2:3b
# Geben Sie jetzt Ihre Anfragen ein und drücken Sie die Eingabetaste

# 2. API-Server starten (läuft im Hintergrund)
ollama serve
# API lauscht auf http://localhost:11434/v1

# 3. Modell über API von einem anderen Terminal aus verwenden
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hallo"}]
  }'

Wie erstellen Sie benutzerdefinierte Modelle mit Modelfiles?

Ein Modelfile ist eine Konfigurationsdatei (wie ein Dockerfile), die ein benutzerdefiniertes Modell definiert, indem sie von einem Basis-Modell ausgeht und System-Prompts, Parameter und Gewichte hinzufügt.

bash
# Erstellen Sie eine Datei mit dem Namen Modelfile
FROM llama3.2:3b

# Fügen Sie einen System-Prompt hinzu
SYSTEM """
Sie sind ein hilfreicher Experte im Bereich maschinelles Lernen.
Erklären Sie komplexe Konzepte immer in einfachen Worten.
"""

# Parameter anpassen
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# Benutzerdefiniertes Modell erstellen
ollama create ml-expert -f Modelfile

# Verwenden Sie es
ollama run ml-expert

Welche Quantisierungsoptionen unterstützt Ollama?

Quantisierung reduziert Modellgröße und VRAM durch Verwendung von Zahlen mit niedrigerer Präzision. Ollama unterstützt GGUF-Format mit mehreren Quantisierungen:

QuantisierungGröße (7B)VRAMQualitätGeschwindigkeit
FP16 (vollständige Präzision)14 GB16 GBBesteLangsamste
Q8_0 (8-Bit)7 GB8 GBAusgezeichnetSchnell
Q6_K (6-Bit)5,5 GB6 GBSehr gutSchnell
Q5_K_M (5-Bit)5 GB5,5 GBGutSehr schnell
Q4_K_M (4-Bit)4,7 GB5 GBGutSehr schnell
Q3_K_M (3-Bit)3,3 GB4 GBAnnehmbarSchnellste

Welche Embedding-Modelle sind mit Ollama verfügbar?

Embedding-Modelle konvertieren Text in numerische Vektoren für Semantic Search, RAG und andere Anwendungen. Ollama unterstützt mehrere Embedding-Modelle:

  • `nomic-embed-text` -- Kleines, schnelles Embedding-Modell (~260 MB). Gut für RAG und lokale Suche.
  • `mxbai-embed-large` -- Größeres Modell mit besserer Qualität (~335 MB). Bessere Semantik-Erkennung.
  • Verwendung: `ollama pull nomic-embed-text` und dann API-Anfrage mit `"model": "nomic-embed-text"`.

Welche Umgebungsvariablen können Sie setzen?

Umgebungsvariablen steuern Ollama-Verhalten ohne Neukompilierung:

  • `OLLAMA_HOST` -- Legen Sie die API-Adresse fest (Standard: `127.0.0.1:11434`).
  • `OLLAMA_MODELS` -- Geben Sie das Modellverzeichnis an (Standard: `~/.ollama/models`).
  • `OLLAMA_NUM_PARALLEL` -- Anzahl paralleler Anfragen (Standard: 1).
  • `OLLAMA_KEEP_ALIVE` -- Wie lange ein Modell im Speicher bleibt (Standard: 5 Minuten).
  • `OLLAMA_NOPRUNE` -- Verhindert automatisches Löschen ungenutzter Modelle.
  • Beispiel: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`

Welche häufigen Fehler sollten Sie vermeiden?

  • Falscher Modellname. `ollama pull llama` funktioniert nicht; verwenden Sie `ollama pull llama3.2:3b` oder `ollama pull llama2:7b`.
  • Zu viel VRAM erforderlich. Wählen Sie kleinere Modelle oder stärkere Quantisierung. Q4_K_M ist oft der beste Kompromiss.
  • Modelle nicht mit `serve` aktualisiert. Wenn Sie ein Modell mit `ollama pull` ändern, müssen Sie `ollama serve` neustarten.
  • Vergessen, `ollama serve` zu starten. Die API läuft nicht, wenn Sie es nicht explizit starten (auf Mac/Windows automatisch, auf Linux nicht).
  • Modelfile-Syntax-Fehler. Überprüfen Sie die Großschreibung: `FROM`, `SYSTEM`, `PARAMETER` müssen Großbuchstaben sein.

Häufige Fragen zu Ollama-Befehlen

Wie aktualisiere ich ein heruntergeladenes Modell?

Führen Sie `ollama pull <model>` erneut aus. Ollama aktualisiert das Modell, wenn eine neue Version verfügbar ist. Sie müssen das alte nicht manuell löschen.

Wie ändere ich den Standard-Chat-Prompt?

Verwenden Sie ein Modelfile mit SYSTEM-Befehl. Erstellen Sie ein Modelfile mit Ihrem benutzerdefinierten Prompt, dann `ollama create <name> -f Modelfile`.

Kann ich Ollama-Modelle teilen?

Ja, Sie können benutzerdefinierte Modelle in ein Registry pushen: `ollama push <registry>/<model>`. Andere können es mit `ollama pull` abrufen.

Welches Modell sollte ich für Anfänger wählen?

`ollama pull llama3.2:3b` ist eine gute Wahl: klein (~2 GB), schnell und vernünftig intelligent. Für bessere Qualität versuchen Sie `mistral:7b` (~4,5 GB).

Wie reduziere ich die Speicherplatznutzung?

Nutzen Sie Quantisierung: `ollama pull llama3.2:3b-q4` statt FP16. Q4_K_M oder Q5_K_M bieten beste Balance.

Kann ich mehrere Modelle gleichzeitig laufen lassen?

Nur wenn Sie mehrere Instanzen mit verschiedenen Ports starten. Standard-Setup lädt ein Modell im Speicher. Verwenden Sie `OLLAMA_NUM_PARALLEL` für Anfrage-Pipelining.

Muss ich bei der Verwendung von Ollama die DSGVO beachten?

Ja—Ollama speichert lokal, also müssen Sie sicherstellen, dass personenbezogene Daten gemäß DSGVO Artikel 28 verarbeitet werden. Local Inference erfüllt Datenschutz-Anforderungen, aber Sie benötigen immer noch Zugriffskontrolle und Logging.

Ist Ollama für deutschen Mittelstand geeignet?

Ja—Mittelständler können Ollama mit `ollama create` für branchenspezifische Modelle verwenden. Kombinieren Sie mit BSI-C5-Standards für regulatorische Compliance. Lokale Modelle reduzieren die Abhängigkeit von Cloud-Anbietern und Compliance-Kosten.

Quellen

  • Offizielle Ollama-Dokumentation -- ollama.com
  • Ollama GitHub Repository -- github.com/ollama/ollama
  • GGUF Modellformat -- github.com/ggerganov/ggml
  • Ollama Modelfile-Spezifikation -- ollama.com/docs/modelfile

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs