Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Ollama auf Mac 2026: Vollständige Apple Silicon Setup-Anleitung (M1–M5, Metal GPU)
Hardware & Performance

Ollama auf Mac 2026: Vollständige Apple Silicon Setup-Anleitung (M1–M5, Metal GPU)

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Ollama installieren: `brew install ollama`. Metal GPU automatisch. Modelle herunterladen: `ollama pull llama2`. Ausführen: `ollama run llama2`. REST API verfügbar unter `localhost:11434`.

Vollständige Ollama-Setupanleitung für Apple Silicon Mac 2026. Ein-Befehl-Installation, Metal GPU Verifikation, Modellverwaltung (pull, run, list), Speicheroptimierung für Multi-Modell-Setups und REST-API-Konfiguration für Entwickler.

Schnellsetup (3 Befehle)

  1. 1
    Ollama installieren
    Why it matters: `brew install ollama` — Ein-Klick-Installation.
  2. 2
    Ein Modell herunterladen
    Why it matters: `ollama pull llama2` — Lädt Llama 3.3 7B herunter.
  3. 3
    Chatten beginnen
    Why it matters: `ollama run llama2` — Interaktive Chat-Oberfläche.

Metal GPU Verifikation

Metal GPU-Beschleunigung ist in Ollama auf macOS automatisch. Keine Konfiguration erforderlich. So verifizieren Sie, dass Metal funktioniert:

  1. 1
    Mit ausführlicher Ausgabe ausführen
    Why it matters: `ollama run llama3.1:8b --verbose` und in der Konsolenausgabe nach `ggml_metal_init: found device: Apple M[X]` suchen.
  2. 2
    Geschwindigkeit während der Inferenz prüfen
    Why it matters: Token-Generierungsrate beobachten: sollte je nach Mac 20–60 tok/s betragen (M5 Pro: ~50 tok/s bei Llama 3.3 8B). Nur-CPU-Fallback: ~1–5 tok/s.
  3. 3
    GPU-Auslastung überwachen
    Why it matters: Aktivitätsanzeige öffnen (Programme → Dienstprogramme) und den GPU-Bereich prüfen. Sollte während der Inferenz 80–100% GPU-Auslastung zeigen, wenn Metal funktioniert.

Modellverwaltung

  1. 1
    `ollama pull <modell>`
    Why it matters: Modell herunterladen. Beispiel: `ollama pull mistral`.
  2. 2
    `ollama list`
    Why it matters: Alle heruntergeladenen Modelle auflisten.
  3. 3
    `ollama run <modell>`
    Why it matters: Interaktiven Chat mit Modell starten.
  4. 4
    `ollama rm <modell>`
    Why it matters: Modell löschen, um Speicherplatz freizugeben.

Speicheroptimierung für Apple Silicon

  • OLLAMA_MAX_LOADED_MODELS: Anzahl der im Speicher gehaltenen Modelle. Standard: 1. Für Multi-Modell-Setups auf 2–3 setzen.
  • GPU-Schichten: Ollama verwendet standardmäßig den gesamten verfügbaren vereinigten Speicher. Bei zu wenig Speicher `num_gpu_layers` im Modelfile setzen.
  • Whisper: Mit Embedding-Modell und LLM kombinieren — passt auf 64 GB M5 Pro mit Ollama.

Mehrere Modelle gleichzeitig ausführen

Müssen Sie Whisper STT + Llama 3.3 8B + LLaVA Vision gleichzeitig ausführen? Konfigurieren Sie Ollama, um alle im Speicher zu halten.

bash
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama

# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b

# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'

Autostart beim Login

Ollama kann über brew services automatisch starten, wenn Sie sich an Ihrem Mac anmelden.

bash
# Enable auto-start
brew services start ollama

# Check status
brew services list | grep ollama

# Disable auto-start (optional)
brew services stop ollama

API-Setup für Entwickler

Ollama stellt eine OpenAI-kompatible REST API unter `localhost:11434` bereit. Den Server mit `ollama serve` starten oder brew services verwenden. Dann Anfragen aus jeder Programmiersprache senden.

bash
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "Write a Python function"}],
  "stream": false
}'

# Python example
import requests
response = requests.post(
  "http://localhost:11434/api/chat",
  json={
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": False
  }
)
print(response.json()["message"]["content"])

Modelfile-Anpassung

Erstellen Sie benutzerdefinierte Modelle mit System-Prompts und Parametern.

  • `ollama create llm-expert -f Modelfile` — erstellt benutzerdefiniertes Modell
  • `ollama run llm-expert` — startet interaktiven Chat mit Ihrem benutzerdefinierten Modell
  • `ollama run llm-expert "Code review this function"` — Prompt direkt senden
dockerfile
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9

Häufige Probleme und Lösungen

  • Metal nicht erkannt: Mit `ollama run llama3.1:8b --verbose` prüfen und nach `ggml_metal_init: found device: Apple M[X]` suchen. Falls fehlend, neu starten: `brew services restart ollama` oder `pkill ollama && ollama serve &`.
  • Langsame Inferenz (CPU-Fallback): Ursache: Metal konnte nicht initialisiert werden, Modell läuft auf CPU. Aktivitätsanzeige prüfen — GPU-Auslastung sollte während der Inferenz 80–100% betragen. Wenn GPU 0% zeigt: Ollama neu starten.
  • Kein Speicher mehr (OOM): Modell stürzt ab oder Antwort wird abgeschnitten. Ursache: Modell + Kontext + macOS-Overhead überschreitet RAM. Lösungen: (1) Kleinere Quantisierung verwenden (`ollama pull llama3.1:8b-q4_K_M`), (2) Kontext reduzieren (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) Kleineres Modell verwenden (`ollama pull phi4` — 2,5 GB).
  • Modell-Download hängt: Ursache: Netzwerk-Drosselung oder HuggingFace-Rate-Limits. Fix: `pkill ollama && ollama pull llama3.1:8b` (setzt vom bisherigen Fortschritt fort).
  • Port 11434 bereits belegt: Eine andere Ollama-Instanz läuft oder ein anderer Dienst nutzt den Port. Finden: `lsof -i :11434`. Fix: `pkill ollama`, dann neu starten.
  • Modell produziert Kauderwelsch / Zufallszeichen: Ursache: Modelfile-Parameter außerhalb des gültigen Bereichs oder falsche Vorlage. Fix: Offizielles Modell abrufen `ollama pull llama3.1:8b` (überschreibt benutzerdefiniertes), dann testen: `ollama run llama3.1:8b "Hello, how are you?"`.
  • Speicher wird voll: Modelle werden in `~/.ollama/models/` gespeichert. Größe prüfen: `du -sh ~/.ollama/`. Nicht verwendete entfernen: `ollama rm <modellname>`.

Ist Ollama kostenlos?

Ja. Ollama ist Open-Source. Modelle (Llama, Mistral) sind kostenlos lizenziert. Keine Gebühren.

Kann ich Ollama ohne GPU verwenden?

Ja, aber langsam. Nur-CPU: ~1–5 tok/s bei 7B-Modellen. GPU (Metal auf Mac): 20–60 tok/s je nach Mac.

Mit welchem Modell sollte ich beginnen?

Mistral Small oder Llama 3.3 7B. Beide laufen auf jedem M1+ Mac und liefern gute Ergebnisse. Jeweils ca. 4 GB.

Können mehrere Personen die Ollama API gleichzeitig nutzen?

Ja. `ollama serve` auf einem Gerät, alle im LAN können die REST API auf der IP dieses Geräts:11434 aufrufen.

Wo speichert Ollama heruntergeladene Modelle auf dem Mac?

Standardspeicherort: `~/.ollama/models/`. Jedes Modell ist mehrere GB groß. Gesamten Speicherplatz prüfen: `du -sh ~/.ollama/`. Speicherort ändern: `OLLAMA_MODELS=/pfad/zu/modellen` Umgebungsvariable vor dem Starten von Ollama setzen.

Kann ich Ollama auf Intel-Macs ausführen?

Ja, aber ohne Metal GPU-Beschleunigung. Leistung ist nur CPU: 1–5 tok/s bei 7B-Modellen vs. 20–60 tok/s auf Apple Silicon. Für Tests machbar, nicht für den Produktionseinsatz.

Funktioniert Ollama nach der Installation offline?

Ja. Sobald Modelle heruntergeladen sind, läuft Ollama vollständig offline. Keine Internetverbindung für die Inferenz erforderlich. Nur Modell-Downloads (`ollama pull`) benötigen Internetzugang.

Ollama läuft. Wählen Sie jetzt die besten Open-Source-Modelle, die Sie laden möchten.

Top Open-Source-Modelle für Ollama →

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Ollama auf Ihrem Mac am Laufen? Vergleichen Sie Ihre lokale Llama 3.3 oder Mistral-Ausgabe mit GPT-4, Claude, Gemini und 22 weiteren Modellen mit PromptQuorum — validieren Sie, ob Ihr lokales Setup Cloud-Qualität für Ihre spezifischen Anwendungsfälle erreicht.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs