Schnellsetup (3 Befehle)
- 1Ollama installieren
Why it matters: `brew install ollama` — Ein-Klick-Installation. - 2Ein Modell herunterladen
Why it matters: `ollama pull llama2` — Lädt Llama 3.3 7B herunter. - 3Chatten beginnen
Why it matters: `ollama run llama2` — Interaktive Chat-Oberfläche.
Metal GPU Verifikation
Metal GPU-Beschleunigung ist in Ollama auf macOS automatisch. Keine Konfiguration erforderlich. So verifizieren Sie, dass Metal funktioniert:
- 1Mit ausführlicher Ausgabe ausführen
Why it matters: `ollama run llama3.1:8b --verbose` und in der Konsolenausgabe nach `ggml_metal_init: found device: Apple M[X]` suchen. - 2Geschwindigkeit während der Inferenz prüfen
Why it matters: Token-Generierungsrate beobachten: sollte je nach Mac 20–60 tok/s betragen (M5 Pro: ~50 tok/s bei Llama 3.3 8B). Nur-CPU-Fallback: ~1–5 tok/s. - 3GPU-Auslastung überwachen
Why it matters: Aktivitätsanzeige öffnen (Programme → Dienstprogramme) und den GPU-Bereich prüfen. Sollte während der Inferenz 80–100% GPU-Auslastung zeigen, wenn Metal funktioniert.
Modellverwaltung
- 1`ollama pull <modell>`
Why it matters: Modell herunterladen. Beispiel: `ollama pull mistral`. - 2`ollama list`
Why it matters: Alle heruntergeladenen Modelle auflisten. - 3`ollama run <modell>`
Why it matters: Interaktiven Chat mit Modell starten. - 4`ollama rm <modell>`
Why it matters: Modell löschen, um Speicherplatz freizugeben.
Speicheroptimierung für Apple Silicon
- OLLAMA_MAX_LOADED_MODELS: Anzahl der im Speicher gehaltenen Modelle. Standard: 1. Für Multi-Modell-Setups auf 2–3 setzen.
- GPU-Schichten: Ollama verwendet standardmäßig den gesamten verfügbaren vereinigten Speicher. Bei zu wenig Speicher `num_gpu_layers` im Modelfile setzen.
- Whisper: Mit Embedding-Modell und LLM kombinieren — passt auf 64 GB M5 Pro mit Ollama.
Mehrere Modelle gleichzeitig ausführen
Müssen Sie Whisper STT + Llama 3.3 8B + LLaVA Vision gleichzeitig ausführen? Konfigurieren Sie Ollama, um alle im Speicher zu halten.
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama
# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b
# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'Autostart beim Login
Ollama kann über brew services automatisch starten, wenn Sie sich an Ihrem Mac anmelden.
# Enable auto-start
brew services start ollama
# Check status
brew services list | grep ollama
# Disable auto-start (optional)
brew services stop ollamaAPI-Setup für Entwickler
Ollama stellt eine OpenAI-kompatible REST API unter `localhost:11434` bereit. Den Server mit `ollama serve` starten oder brew services verwenden. Dann Anfragen aus jeder Programmiersprache senden.
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Write a Python function"}],
"stream": false
}'
# Python example
import requests
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": "llama3.1:8b",
"messages": [{"role": "user", "content": "Hello"}],
"stream": False
}
)
print(response.json()["message"]["content"])Modelfile-Anpassung
Erstellen Sie benutzerdefinierte Modelle mit System-Prompts und Parametern.
- `ollama create llm-expert -f Modelfile` — erstellt benutzerdefiniertes Modell
- `ollama run llm-expert` — startet interaktiven Chat mit Ihrem benutzerdefinierten Modell
- `ollama run llm-expert "Code review this function"` — Prompt direkt senden
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9Häufige Probleme und Lösungen
- Metal nicht erkannt: Mit `ollama run llama3.1:8b --verbose` prüfen und nach `ggml_metal_init: found device: Apple M[X]` suchen. Falls fehlend, neu starten: `brew services restart ollama` oder `pkill ollama && ollama serve &`.
- Langsame Inferenz (CPU-Fallback): Ursache: Metal konnte nicht initialisiert werden, Modell läuft auf CPU. Aktivitätsanzeige prüfen — GPU-Auslastung sollte während der Inferenz 80–100% betragen. Wenn GPU 0% zeigt: Ollama neu starten.
- Kein Speicher mehr (OOM): Modell stürzt ab oder Antwort wird abgeschnitten. Ursache: Modell + Kontext + macOS-Overhead überschreitet RAM. Lösungen: (1) Kleinere Quantisierung verwenden (`ollama pull llama3.1:8b-q4_K_M`), (2) Kontext reduzieren (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Kleineres Modell verwenden (`ollama pull phi4` — 2,5 GB).
- Modell-Download hängt: Ursache: Netzwerk-Drosselung oder HuggingFace-Rate-Limits. Fix: `pkill ollama && ollama pull llama3.1:8b` (setzt vom bisherigen Fortschritt fort).
- Port 11434 bereits belegt: Eine andere Ollama-Instanz läuft oder ein anderer Dienst nutzt den Port. Finden: `lsof -i :11434`. Fix: `pkill ollama`, dann neu starten.
- Modell produziert Kauderwelsch / Zufallszeichen: Ursache: Modelfile-Parameter außerhalb des gültigen Bereichs oder falsche Vorlage. Fix: Offizielles Modell abrufen `ollama pull llama3.1:8b` (überschreibt benutzerdefiniertes), dann testen: `ollama run llama3.1:8b "Hello, how are you?"`.
- Speicher wird voll: Modelle werden in `~/.ollama/models/` gespeichert. Größe prüfen: `du -sh ~/.ollama/`. Nicht verwendete entfernen: `ollama rm <modellname>`.
Ist Ollama kostenlos?
Ja. Ollama ist Open-Source. Modelle (Llama, Mistral) sind kostenlos lizenziert. Keine Gebühren.
Kann ich Ollama ohne GPU verwenden?
Ja, aber langsam. Nur-CPU: ~1–5 tok/s bei 7B-Modellen. GPU (Metal auf Mac): 20–60 tok/s je nach Mac.
Mit welchem Modell sollte ich beginnen?
Mistral Small oder Llama 3.3 7B. Beide laufen auf jedem M1+ Mac und liefern gute Ergebnisse. Jeweils ca. 4 GB.
Können mehrere Personen die Ollama API gleichzeitig nutzen?
Ja. `ollama serve` auf einem Gerät, alle im LAN können die REST API auf der IP dieses Geräts:11434 aufrufen.
Wo speichert Ollama heruntergeladene Modelle auf dem Mac?
Standardspeicherort: `~/.ollama/models/`. Jedes Modell ist mehrere GB groß. Gesamten Speicherplatz prüfen: `du -sh ~/.ollama/`. Speicherort ändern: `OLLAMA_MODELS=/pfad/zu/modellen` Umgebungsvariable vor dem Starten von Ollama setzen.
Kann ich Ollama auf Intel-Macs ausführen?
Ja, aber ohne Metal GPU-Beschleunigung. Leistung ist nur CPU: 1–5 tok/s bei 7B-Modellen vs. 20–60 tok/s auf Apple Silicon. Für Tests machbar, nicht für den Produktionseinsatz.
Funktioniert Ollama nach der Installation offline?
Ja. Sobald Modelle heruntergeladen sind, läuft Ollama vollständig offline. Keine Internetverbindung für die Inferenz erforderlich. Nur Modell-Downloads (`ollama pull`) benötigen Internetzugang.