Ollama ist ein Kommandozeilen-Werkzeug, und das Verständnis seiner Befehle macht es viel leistungsfähiger. Diese Anleitung behandelt die wesentlichen Befehle: `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve` und erweiterte Optionen wie Modellquantisierung und benutzerdefinierte Modelfiles. Ab April 2026 decken diese Befehle 95% der realen Anwendungsfälle ab.

Wichtigste Erkenntnisse

`ollama pull <model>` -- Modell herunterladen (z. B. `ollama pull llama3.2:3b`).
`ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
`ollama list` -- Alle heruntergeladenen Modelle und ihre Größen anzeigen.
`ollama rm <model>` -- Ein heruntergeladenes Modell löschen.
`ollama serve` -- Ollama API-Server starten (läuft automatisch auf Mac/Windows).
`ollama create <name> -f <modelfile>` -- Benutzerdefiniertes Modell aus Modelfile erstellen.
Ab April 2026 sind diese Befehle stabil und decken alle häufigen Anwendungsfälle ab.

Welche sind die wesentlichen Ollama-Befehle?

`ollama list` -- Heruntergeladene Modelle, Speicherplatznutzung und Änderungsdatum anzeigen.
`ollama pull <model>` -- Modell nach Name herunterladen (z. B. `ollama pull mistral`).
`ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
`ollama rm <model>` -- Modell löschen und Speicherplatz freigeben.
`ollama serve` -- REST API-Server starten (läuft normalerweise automatisch).
`ollama help` -- Alle verfügbaren Befehle anzeigen.

Wie verwalten Sie Modelle in Ollama?

Die Modellverwaltung in Ollama erfolgt vollständig über Befehle:

bash

# Alle heruntergeladenen Modelle auflisten
ollama list

# Modell aus der Ollama-Bibliothek herunterladen
ollama pull llama3.2:3b       # 7-Bit-Version (~2,5 GB)
ollama pull llama3.2:3b-fp16  # Vollständige Präzision (~6,5 GB)

# Spezifische Quantisierung herunterladen
ollama pull qwen2.5:7b-q4   # 4-Bit-Quantisierung
ollama pull qwen2.5:7b-q8   # 8-Bit-Quantisierung

# Speicherplatznutzung anzeigen
du -sh ~/.ollama/models

# Modell löschen
ollama rm llama3.2:3b

# Aus benutzerdefinierter Registry ziehen (erweitert)
ollama pull localhost:5000/custom-model

Wie führen Sie Modelle aus und servieren sie?

Es gibt zwei Möglichkeiten, Ollama zu verwenden:

bash

# 1. Interaktiver Chat (CLI)
ollama run llama3.2:3b
# Geben Sie jetzt Ihre Anfragen ein und drücken Sie die Eingabetaste

# 2. API-Server starten (läuft im Hintergrund)
ollama serve
# API lauscht auf http://localhost:11434/v1

# 3. Modell über API von einem anderen Terminal aus verwenden
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hallo"}]
  }'

Wie erstellen Sie benutzerdefinierte Modelle mit Modelfiles?

Ein Modelfile ist eine Konfigurationsdatei (wie ein Dockerfile), die ein benutzerdefiniertes Modell definiert, indem sie von einem Basis-Modell ausgeht und System-Prompts, Parameter und Gewichte hinzufügt.

bash

# Erstellen Sie eine Datei mit dem Namen Modelfile
FROM llama3.2:3b

# Fügen Sie einen System-Prompt hinzu
SYSTEM """
Sie sind ein hilfreicher Experte im Bereich maschinelles Lernen.
Erklären Sie komplexe Konzepte immer in einfachen Worten.
"""

# Parameter anpassen
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# Benutzerdefiniertes Modell erstellen
ollama create ml-expert -f Modelfile

# Verwenden Sie es
ollama run ml-expert

Welche Quantisierungsoptionen unterstützt Ollama?

Quantisierung reduziert Modellgröße und VRAM durch Verwendung von Zahlen mit niedrigerer Präzision. Ollama unterstützt GGUF-Format mit mehreren Quantisierungen:

Quantisierung	Größe (7B)	VRAM	Qualität	Geschwindigkeit
FP16 (vollständige Präzision)	14 GB	16 GB	Beste	Langsamste
Q8_0 (8-Bit)	7 GB	8 GB	Ausgezeichnet	Schnell
Q6_K (6-Bit)	5,5 GB	6 GB	Sehr gut	Schnell
Q5_K_M (5-Bit)	5 GB	5,5 GB	Gut	Sehr schnell
Q4_K_M (4-Bit)	4,7 GB	5 GB	Gut	Sehr schnell
Q3_K_M (3-Bit)	3,3 GB	4 GB	Annehmbar	Schnellste

Welche Embedding-Modelle sind mit Ollama verfügbar?

Embedding-Modelle konvertieren Text in numerische Vektoren für Semantic Search, RAG und andere Anwendungen. Ollama unterstützt mehrere Embedding-Modelle:

`nomic-embed-text` -- Kleines, schnelles Embedding-Modell (~260 MB). Gut für RAG und lokale Suche.
`mxbai-embed-large` -- Größeres Modell mit besserer Qualität (~335 MB). Bessere Semantik-Erkennung.
Verwendung: `ollama pull nomic-embed-text` und dann API-Anfrage mit `"model": "nomic-embed-text"`.

Welche Umgebungsvariablen können Sie setzen?

Umgebungsvariablen steuern Ollama-Verhalten ohne Neukompilierung:

`OLLAMA_HOST` -- Legen Sie die API-Adresse fest (Standard: `127.0.0.1:11434`).
`OLLAMA_MODELS` -- Geben Sie das Modellverzeichnis an (Standard: `~/.ollama/models`).
`OLLAMA_NUM_PARALLEL` -- Anzahl paralleler Anfragen (Standard: 1).
`OLLAMA_KEEP_ALIVE` -- Wie lange ein Modell im Speicher bleibt (Standard: 5 Minuten).
`OLLAMA_NOPRUNE` -- Verhindert automatisches Löschen ungenutzter Modelle.
Beispiel: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`

Welche häufigen Fehler sollten Sie vermeiden?

Falscher Modellname. `ollama pull llama` funktioniert nicht; verwenden Sie `ollama pull llama3.2:3b` oder `ollama pull llama2:7b`.
Zu viel VRAM erforderlich. Wählen Sie kleinere Modelle oder stärkere Quantisierung. Q4_K_M ist oft der beste Kompromiss.
Modelle nicht mit `serve` aktualisiert. Wenn Sie ein Modell mit `ollama pull` ändern, müssen Sie `ollama serve` neustarten.
Vergessen, `ollama serve` zu starten. Die API läuft nicht, wenn Sie es nicht explizit starten (auf Mac/Windows automatisch, auf Linux nicht).
Modelfile-Syntax-Fehler. Überprüfen Sie die Großschreibung: `FROM`, `SYSTEM`, `PARAMETER` müssen Großbuchstaben sein.

Häufige Fragen zu Ollama-Befehlen

Wie aktualisiere ich ein heruntergeladenes Modell?

Führen Sie `ollama pull <model>` erneut aus. Ollama aktualisiert das Modell, wenn eine neue Version verfügbar ist. Sie müssen das alte nicht manuell löschen.

Wie ändere ich den Standard-Chat-Prompt?

Verwenden Sie ein Modelfile mit SYSTEM-Befehl. Erstellen Sie ein Modelfile mit Ihrem benutzerdefinierten Prompt, dann `ollama create <name> -f Modelfile`.

Kann ich Ollama-Modelle teilen?

Ja, Sie können benutzerdefinierte Modelle in ein Registry pushen: `ollama push <registry>/<model>`. Andere können es mit `ollama pull` abrufen.

Welches Modell sollte ich für Anfänger wählen?

`ollama pull llama3.2:3b` ist eine gute Wahl: klein (~2 GB), schnell und vernünftig intelligent. Für bessere Qualität versuchen Sie `mistral:7b` (~4,5 GB).

Wie reduziere ich die Speicherplatznutzung?

Nutzen Sie Quantisierung: `ollama pull llama3.2:3b-q4` statt FP16. Q4_K_M oder Q5_K_M bieten beste Balance.

Kann ich mehrere Modelle gleichzeitig laufen lassen?

Nur wenn Sie mehrere Instanzen mit verschiedenen Ports starten. Standard-Setup lädt ein Modell im Speicher. Verwenden Sie `OLLAMA_NUM_PARALLEL` für Anfrage-Pipelining.

Muss ich bei der Verwendung von Ollama die DSGVO beachten?

Ja—Ollama speichert lokal, also müssen Sie sicherstellen, dass personenbezogene Daten gemäß DSGVO Artikel 28 verarbeitet werden. Local Inference erfüllt Datenschutz-Anforderungen, aber Sie benötigen immer noch Zugriffskontrolle und Logging.

Ist Ollama für deutschen Mittelstand geeignet?

Ja—Mittelständler können Ollama mit `ollama create` für branchenspezifische Modelle verwenden. Kombinieren Sie mit BSI-C5-Standards für regulatorische Compliance. Lokale Modelle reduzieren die Abhängigkeit von Cloud-Anbietern und Compliance-Kosten.

Quellen

Offizielle Ollama-Dokumentation -- ollama.com
Ollama GitHub Repository -- github.com/ollama/ollama
GGUF Modellformat -- github.com/ggerganov/ggml
Ollama Modelfile-Spezifikation -- ollama.com/docs/modelfile

Ollama Befehls-Anleitung: Alle Befehle erklärt (2026)

Welche sind die wesentlichen Ollama-Befehle?

Wie verwalten Sie Modelle in Ollama?

Wie führen Sie Modelle aus und servieren sie?

Wie erstellen Sie benutzerdefinierte Modelle mit Modelfiles?

Welche Quantisierungsoptionen unterstützt Ollama?

Welche Embedding-Modelle sind mit Ollama verfügbar?

Welche Umgebungsvariablen können Sie setzen?

Welche häufigen Fehler sollten Sie vermeiden?

Häufige Fragen zu Ollama-Befehlen

Wie aktualisiere ich ein heruntergeladenes Modell?

Wie ändere ich den Standard-Chat-Prompt?

Kann ich Ollama-Modelle teilen?

Welches Modell sollte ich für Anfänger wählen?

Wie reduziere ich die Speicherplatznutzung?

Kann ich mehrere Modelle gleichzeitig laufen lassen?

Muss ich bei der Verwendung von Ollama die DSGVO beachten?

Ist Ollama für deutschen Mittelstand geeignet?

Quellen

A Note on Third-Party Facts

Ollama Befehls-Anleitung: Alle Befehle erklärt (2026)

Welche sind die wesentlichen Ollama-Befehle?

Wie verwalten Sie Modelle in Ollama?

Wie führen Sie Modelle aus und servieren sie?

Wie erstellen Sie benutzerdefinierte Modelle mit Modelfiles?

Welche Quantisierungsoptionen unterstützt Ollama?

Welche Embedding-Modelle sind mit Ollama verfügbar?

Welche Umgebungsvariablen können Sie setzen?

Welche häufigen Fehler sollten Sie vermeiden?

Häufige Fragen zu Ollama-Befehlen

Wie aktualisiere ich ein heruntergeladenes Modell?

Wie ändere ich den Standard-Chat-Prompt?

Kann ich Ollama-Modelle teilen?

Welches Modell sollte ich für Anfänger wählen?

Wie reduziere ich die Speicherplatznutzung?

Kann ich mehrere Modelle gleichzeitig laufen lassen?

Muss ich bei der Verwendung von Ollama die DSGVO beachten?

Ist Ollama für deutschen Mittelstand geeignet?

Weiterführende Ressourcen

Quellen

A Note on Third-Party Facts