Wichtigste Erkenntnisse
- `ollama pull <model>` -- Modell herunterladen (z. B. `ollama pull llama3.2:3b`).
- `ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
- `ollama list` -- Alle heruntergeladenen Modelle und ihre Größen anzeigen.
- `ollama rm <model>` -- Ein heruntergeladenes Modell löschen.
- `ollama serve` -- Ollama API-Server starten (läuft automatisch auf Mac/Windows).
- `ollama create <name> -f <modelfile>` -- Benutzerdefiniertes Modell aus Modelfile erstellen.
- Ab April 2026 sind diese Befehle stabil und decken alle häufigen Anwendungsfälle ab.
Welche sind die wesentlichen Ollama-Befehle?
- `ollama list` -- Heruntergeladene Modelle, Speicherplatznutzung und Änderungsdatum anzeigen.
- `ollama pull <model>` -- Modell nach Name herunterladen (z. B. `ollama pull mistral`).
- `ollama run <model>` -- Chat-Sitzung mit einem Modell starten.
- `ollama rm <model>` -- Modell löschen und Speicherplatz freigeben.
- `ollama serve` -- REST API-Server starten (läuft normalerweise automatisch).
- `ollama help` -- Alle verfügbaren Befehle anzeigen.
Wie verwalten Sie Modelle in Ollama?
Die Modellverwaltung in Ollama erfolgt vollständig über Befehle:
# Alle heruntergeladenen Modelle auflisten
ollama list
# Modell aus der Ollama-Bibliothek herunterladen
ollama pull llama3.2:3b # 7-Bit-Version (~2,5 GB)
ollama pull llama3.2:3b-fp16 # Vollständige Präzision (~6,5 GB)
# Spezifische Quantisierung herunterladen
ollama pull qwen2.5:7b-q4 # 4-Bit-Quantisierung
ollama pull qwen2.5:7b-q8 # 8-Bit-Quantisierung
# Speicherplatznutzung anzeigen
du -sh ~/.ollama/models
# Modell löschen
ollama rm llama3.2:3b
# Aus benutzerdefinierter Registry ziehen (erweitert)
ollama pull localhost:5000/custom-modelWie führen Sie Modelle aus und servieren sie?
Es gibt zwei Möglichkeiten, Ollama zu verwenden:
# 1. Interaktiver Chat (CLI)
ollama run llama3.2:3b
# Geben Sie jetzt Ihre Anfragen ein und drücken Sie die Eingabetaste
# 2. API-Server starten (läuft im Hintergrund)
ollama serve
# API lauscht auf http://localhost:11434/v1
# 3. Modell über API von einem anderen Terminal aus verwenden
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "Hallo"}]
}'Wie erstellen Sie benutzerdefinierte Modelle mit Modelfiles?
Ein Modelfile ist eine Konfigurationsdatei (wie ein Dockerfile), die ein benutzerdefiniertes Modell definiert, indem sie von einem Basis-Modell ausgeht und System-Prompts, Parameter und Gewichte hinzufügt.
# Erstellen Sie eine Datei mit dem Namen Modelfile
FROM llama3.2:3b
# Fügen Sie einen System-Prompt hinzu
SYSTEM """
Sie sind ein hilfreicher Experte im Bereich maschinelles Lernen.
Erklären Sie komplexe Konzepte immer in einfachen Worten.
"""
# Parameter anpassen
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# Benutzerdefiniertes Modell erstellen
ollama create ml-expert -f Modelfile
# Verwenden Sie es
ollama run ml-expertWelche Quantisierungsoptionen unterstützt Ollama?
Quantisierung reduziert Modellgröße und VRAM durch Verwendung von Zahlen mit niedrigerer Präzision. Ollama unterstützt GGUF-Format mit mehreren Quantisierungen:
| Quantisierung | Größe (7B) | VRAM | Qualität | Geschwindigkeit |
|---|---|---|---|---|
| FP16 (vollständige Präzision) | 14 GB | 16 GB | Beste | Langsamste |
| Q8_0 (8-Bit) | 7 GB | 8 GB | Ausgezeichnet | Schnell |
| Q6_K (6-Bit) | 5,5 GB | 6 GB | Sehr gut | Schnell |
| Q5_K_M (5-Bit) | 5 GB | 5,5 GB | Gut | Sehr schnell |
| Q4_K_M (4-Bit) | 4,7 GB | 5 GB | Gut | Sehr schnell |
| Q3_K_M (3-Bit) | 3,3 GB | 4 GB | Annehmbar | Schnellste |
Welche Embedding-Modelle sind mit Ollama verfügbar?
Embedding-Modelle konvertieren Text in numerische Vektoren für Semantic Search, RAG und andere Anwendungen. Ollama unterstützt mehrere Embedding-Modelle:
- `nomic-embed-text` -- Kleines, schnelles Embedding-Modell (~260 MB). Gut für RAG und lokale Suche.
- `mxbai-embed-large` -- Größeres Modell mit besserer Qualität (~335 MB). Bessere Semantik-Erkennung.
- Verwendung: `ollama pull nomic-embed-text` und dann API-Anfrage mit `"model": "nomic-embed-text"`.
Welche Umgebungsvariablen können Sie setzen?
Umgebungsvariablen steuern Ollama-Verhalten ohne Neukompilierung:
- `OLLAMA_HOST` -- Legen Sie die API-Adresse fest (Standard: `127.0.0.1:11434`).
- `OLLAMA_MODELS` -- Geben Sie das Modellverzeichnis an (Standard: `~/.ollama/models`).
- `OLLAMA_NUM_PARALLEL` -- Anzahl paralleler Anfragen (Standard: 1).
- `OLLAMA_KEEP_ALIVE` -- Wie lange ein Modell im Speicher bleibt (Standard: 5 Minuten).
- `OLLAMA_NOPRUNE` -- Verhindert automatisches Löschen ungenutzter Modelle.
- Beispiel: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`
Welche häufigen Fehler sollten Sie vermeiden?
- Falscher Modellname. `ollama pull llama` funktioniert nicht; verwenden Sie `ollama pull llama3.2:3b` oder `ollama pull llama2:7b`.
- Zu viel VRAM erforderlich. Wählen Sie kleinere Modelle oder stärkere Quantisierung. Q4_K_M ist oft der beste Kompromiss.
- Modelle nicht mit `serve` aktualisiert. Wenn Sie ein Modell mit `ollama pull` ändern, müssen Sie `ollama serve` neustarten.
- Vergessen, `ollama serve` zu starten. Die API läuft nicht, wenn Sie es nicht explizit starten (auf Mac/Windows automatisch, auf Linux nicht).
- Modelfile-Syntax-Fehler. Überprüfen Sie die Großschreibung: `FROM`, `SYSTEM`, `PARAMETER` müssen Großbuchstaben sein.
Häufige Fragen zu Ollama-Befehlen
Wie aktualisiere ich ein heruntergeladenes Modell?
Führen Sie `ollama pull <model>` erneut aus. Ollama aktualisiert das Modell, wenn eine neue Version verfügbar ist. Sie müssen das alte nicht manuell löschen.
Wie ändere ich den Standard-Chat-Prompt?
Verwenden Sie ein Modelfile mit SYSTEM-Befehl. Erstellen Sie ein Modelfile mit Ihrem benutzerdefinierten Prompt, dann `ollama create <name> -f Modelfile`.
Kann ich Ollama-Modelle teilen?
Ja, Sie können benutzerdefinierte Modelle in ein Registry pushen: `ollama push <registry>/<model>`. Andere können es mit `ollama pull` abrufen.
Welches Modell sollte ich für Anfänger wählen?
`ollama pull llama3.2:3b` ist eine gute Wahl: klein (~2 GB), schnell und vernünftig intelligent. Für bessere Qualität versuchen Sie `mistral:7b` (~4,5 GB).
Wie reduziere ich die Speicherplatznutzung?
Nutzen Sie Quantisierung: `ollama pull llama3.2:3b-q4` statt FP16. Q4_K_M oder Q5_K_M bieten beste Balance.
Kann ich mehrere Modelle gleichzeitig laufen lassen?
Nur wenn Sie mehrere Instanzen mit verschiedenen Ports starten. Standard-Setup lädt ein Modell im Speicher. Verwenden Sie `OLLAMA_NUM_PARALLEL` für Anfrage-Pipelining.
Muss ich bei der Verwendung von Ollama die DSGVO beachten?
Ja—Ollama speichert lokal, also müssen Sie sicherstellen, dass personenbezogene Daten gemäß DSGVO Artikel 28 verarbeitet werden. Local Inference erfüllt Datenschutz-Anforderungen, aber Sie benötigen immer noch Zugriffskontrolle und Logging.
Ist Ollama für deutschen Mittelstand geeignet?
Ja—Mittelständler können Ollama mit `ollama create` für branchenspezifische Modelle verwenden. Kombinieren Sie mit BSI-C5-Standards für regulatorische Compliance. Lokale Modelle reduzieren die Abhängigkeit von Cloud-Anbietern und Compliance-Kosten.
Quellen
- Offizielle Ollama-Dokumentation -- ollama.com
- Ollama GitHub Repository -- github.com/ollama/ollama
- GGUF Modellformat -- github.com/ggerganov/ggml
- Ollama Modelfile-Spezifikation -- ollama.com/docs/modelfile