Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/MLX vs. Ollama vs. llama.cpp auf dem Mac 2026: Welches Framework für Apple Silicon LLMs?
Hardware & Performance

MLX vs. Ollama vs. llama.cpp auf dem Mac 2026: Welches Framework für Apple Silicon LLMs?

·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Ollama: einfachste Einrichtung, ideal für Einsteiger, automatisches Metal, REST-API inklusive. MLX: schnellste Inferenz (15–25% schneller), Apple-nativ, Python-Integration, Fine-Tuning. llama.cpp: plattformübergreifend, meiste Modellformate, Metal-Unterstützung. Für die meisten: Ollama starten, für mehr Geschwindigkeit zu MLX wechseln.

MLX vs. Ollama vs. llama.cpp auf Apple Silicon 2026: Geschwindigkeits-Benchmarks, Benutzerfreundlichkeit, Modellkompatibilität, Metal GPU und Python-Integration. Enthält direkten Vergleich, Setup-Zeiten und Empfehlungen.

Wichtigste Erkenntnisse

  • Ollama: einfachste Einrichtung, ideal für Einsteiger
  • MLX: am schnellsten auf Apple Silicon (15–25% schneller)
  • llama.cpp: meiste Modellformate, plattformübergreifend
  • Für die meisten: Ollama starten, bei Bedarf zu MLX wechseln

📍 In einem Satz

Ollama ist am einfachsten (Auto-Metal, REST-API, 2-Minuten-Setup); MLX ist 15–25 % schneller und unterstützt Python + Fine-Tuning; llama.cpp ist am plattformübergreifendsten mit breiter GGUF-Modellunterstützung — die meisten Mac-Nutzer starten mit Ollama und wechseln zu MLX, wenn sie mehr Geschwindigkeit benötigen.

💬 In einfachen Worten

Das sind drei Open-Source-Programme, mit denen dein Mac KI-Modelle lokal ausführen kann. "Metal" bedeutet, dass die GPU des Macs für schnelle KI-Verarbeitung genutzt wird. GGUF ist das gebräuchlichste Dateiformat für herunterladbare KI-Modelle. LoRA Fine-Tuning ermöglicht das Training auf eigenen Daten ohne komplettes Neutraining.

Direktvergleich

EigenschaftOllamaMLXllama.cpp
Setup-Zeit2 Min.5 Min.10 Min.
Metal GPUAutomatischNativUnterstützt
ModellformatGGUFMLX-FormatGGUF
APIREST (localhost:11434)Python-nativCLI + HTTP
Geschwindigkeit (8B Q4)45–50 tok/s55–65 tok/s45–55 tok/s
Geschwindigkeit (70B Q4)12–16 tok/s18–22 tok/s14–18 tok/s
Fine-TuningNeinJa (LoRA)Nein
Ideal fürEinsteiger, APIML-EntwicklerPlattformübergreifend

Ollama auf Apple Silicon

  • Ein-Befehl-Installation: `brew install ollama`
  • Metal GPU automatisch — keine Konfiguration erforderlich
  • REST-API für die Integration (jede Sprache)
  • Modellverwaltung: `ollama pull`, `ollama list`, `ollama rm`
  • Einschränkung: kein Fine-Tuning, keine benutzerdefinierte Quantisierung
  • Einschränkung: etwas langsamer als MLX aufgrund von GGUF-Overhead
  • Ideal für: Einsteiger, API-Nutzer, Whisper-Integration

Von Ollama unterstützte Modelle (100+ kuratiert)

  • Llama 3.3 (1B, 3B, 8B, 70B, 405B)
  • Mistral Small, Mixtral 8x22B/22B
  • Qwen3 (0,5B bis 72B)
  • Phi-3, Phi-4
  • Gemma 3 (4B, 12B, 27B)
  • DeepSeek Coder V2
  • Vision: Llama 3.2 Vision, LLaVA
  • Einbettung: nomic-embed-text, mxbai-embed-large

MLX — Apples natives Framework

  • Von Apple speziell für Apple Silicon entwickelt
  • NumPy-ähnliche Python-API: `import mlx.core as mx`
  • Lazy Evaluation + Unified Memory = optimale Auslastung
  • MLX-LM: dediziertes Paket für LLM-Inferenz und Fine-Tuning
  • Schnellste Inferenz auf Apple Silicon (10–25% schneller als Ollama)
  • Fine-Tuning-Unterstützung: LoRA und QLoRA direkt auf dem Mac
  • Einschränkung: nur MLX-Format-Modelle (wachsende Bibliothek)
  • Einschränkung: nur macOS — Code nicht portierbar
  • Ideal für: ML-Entwickler, maximale Geschwindigkeit, Fine-Tuning

Von MLX unterstützte Modelle (mlx-community auf HuggingFace)

  • Alle wichtigen LLMs (Llama, Mistral, Qwen, Gemma, Phi)
  • Quantisierungsversionen (Q3, Q4, Q5, Q6, Q8)
  • Vision-Modelle: Llama 3.2 Vision, LLaVA, Qwen2-VL
  • Hinweis: erfordert Konvertierung ins MLX-Format (Community konvertiert die meisten)

llama.cpp auf Apple Silicon

  • Plattformübergreifendes C/C++ — dieselbe Binary läuft auf Mac, Linux, Windows
  • Metal-Unterstützung über Build-Flag: `make LLAMA_METAL=1`
  • GGUF-Format: größte Modellbibliothek
  • Server-Modus: `./llama-server -m model.gguf` — REST-API
  • Whisper.cpp vom selben Autor — Metal STT-Unterstützung
  • Einschränkung: Kompilierung aus dem Quellcode (keine Ein-Klick-Installation)
  • Einschränkung: langsamer als MLX, vergleichbar mit Ollama
  • Ideal für: plattformübergreifende Projekte, maximale Modellformat-Unterstützung

Von llama.cpp unterstützte Modelle (beliebiges GGUF)

  • Jedes GGUF auf HuggingFace funktioniert (10.000+ Modelle)
  • Größtes Ökosystem für fein abgestimmte und benutzerdefinierte Modelle
  • Ursprüngliche/experimentelle Modelle erscheinen hier oft zuerst
  • Für gängige Modelle (Llama, Mistral, Qwen) decken alle drei Frameworks ab. Für unbekannte oder experimentelle Modelle gewinnt llama.cpp durch die Ökosystemgröße.

Setup-Vergleich: 5 Codezeilen, um Llama 3.3 8B auszuführen

Ollama (2 Befehle):

```bash

brew install ollama

ollama run llama3.3:8b "Hello, world"

```

MLX (4 Python-Zeilen):

```python

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Llama-3.1-8B-Instruct-4bit")

response = generate(model, tokenizer, prompt="Hello, world", max_tokens=100)

print(response)

```

llama.cpp (5 Befehle):

```bash

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

make LLAMA_METAL=1

wget https://huggingface.co/ggml-org/models/resolve/main/llama-3.1-8b-q4.gguf

./main -m llama-3.1-8b-q4.gguf -p "Hello, world"

```

Benchmarks: Gleiches Modell, drei Frameworks, M5 Pro 64 GB

ModellOllama tok/sMLX tok/sllama.cpp tok/s
Llama 3.3 8B Q4486252
Llama 3.3 8B Q8384840
Llama 3.3 70B Q4101411
Mistral Small Q4526655
Phi-4 Q4587260

MLX ist 15–25% schneller aufgrund nativer Metal-Optimierung. Frühe Benchmarks — Framework-Verbesserungen erwartet.

Speichernutzung: Gleiches Modell, drei Frameworks (M5 Pro 64 GB)

ModellOllama RAMMLX RAMllama.cpp RAM
Llama 3.3 8B Q45,2 GB4,8 GB5,0 GB
Llama 3.3 70B Q443 GB41 GB42 GB
Mistral Small Q44,6 GB4,3 GB4,4 GB

MLX nutzt 5–10% weniger Speicher als Ollama für dasselbe Modell durch Unified Memory-Optimierung. Bei knappen Speicherstufen (16 GB, 36 GB) kann dies den Unterschied machen, ob ein Modell passt oder in den Swap ausgelagert wird.

Entscheidungsmatrix: Wann welches Framework verwenden

  1. 1
    Einstieg
    Why it matters: Ollama — 2-Minuten-Setup, funktioniert sofort.
  2. 2
    Python-App entwickeln
    Why it matters: MLX — natives Python, höchste Geschwindigkeit.
  3. 3
    REST-API benötigt
    Why it matters: Ollama — integrierten API-Server inklusive.
  4. 4
    Fine-Tuning auf dem Mac
    Why it matters: MLX — einzige Option mit LoRA-Unterstützung.
  5. 5
    Plattformübergreifendes Projekt
    Why it matters: llama.cpp — derselbe Code auf Mac + Linux + Windows.
  6. 6
    Sprachassistent
    Why it matters: Ollama — einfache Whisper/Piper-Integration.
  7. 7
    Maximale Geschwindigkeit
    Why it matters: MLX — 15–25% schneller als Alternativen.
  8. 8
    Seltene Modelle
    Why it matters: llama.cpp — größte GGUF-Modellbibliothek.

Wann welches Framework NICHT verwenden

Ollama nicht verwenden, wenn:

• Fine-Tuning benötigt wird (nicht unterstützt)

• Jedes letzte bisschen Geschwindigkeit benötigt wird (15–25% langsamer als MLX)

• Vollständig benutzerdefinierte Quantisierung gewünscht wird (eingeschränkte Kontrolle)

MLX nicht verwenden, wenn:

• Plattformübergreifende Bereitstellung erforderlich ist (nur macOS)

• Python nicht vertraut ist

• Eine REST-API direkt benötigt wird (muss umhüllt werden)

• Vision-Modelle in der Produktion benötigt werden (kleinere Auswahl)

llama.cpp nicht verwenden, wenn:

• Ein Ein-Klick-Erlebnis gewünscht wird (Kompilierung erforderlich)

• Fine-Tuning benötigt wird (nicht unterstützt)

• Keine eigene Verwaltung von Modell-Downloads gewünscht wird

Mehrere Frameworks gleichzeitig verwenden?

Ja — sie konfligieren nicht. Alle drei installieren. Gängiges Muster: Ollama für den täglichen Einsatz, MLX für geschwindigkeitskritische Aufgaben, llama.cpp für Modelle, die nicht in Ollama/MLX verfügbar sind. Alle verwenden dieselben Grundmodelle (in verschiedenen Formaten).

Welches Framework ist am schnellsten?

MLX, 15–25% schneller als Ollama auf Apple Silicon. llama.cpp ist vergleichbar mit Ollama. Der Geschwindigkeitsunterschied ist nur bei großen Modellen (70B+) relevant; für 8B sind alle schnell genug.

Kann ich später das Framework wechseln?

Ja. Ollama heute installieren, morgen zu MLX wechseln. Modelle sind kompatibel (nur in verschiedenen Formaten). Kein Lock-in.

Ist MLX nur für Python?

MLX hat eine native Python-API, kann aber über Subprocess oder HTTP-Server-Wrapper aus anderen Sprachen aufgerufen werden. Am besten von Python aus verwendet.

Hat Ollama eine grafische Benutzeroberfläche?

Ollama selbst ist nur CLI. Verwenden Sie Open-Source-Frontends wie Open-WebUI für eine Chat-Oberfläche.

Kann ich Ollama und MLX gleichzeitig ausführen?

Ja. Sie verwenden separate Modellverzeichnisse und konfligieren nicht. Viele Entwickler betreiben Ollama als Hintergrunddienst für API-Zugriff und nutzen MLX für Python-Notebook-Experimente. Bei ausreichend Unified Memory können sie sogar dasselbe Modell gleichzeitig im Arbeitsspeicher halten.

Funktioniert MLX auf Intel-Macs?

Nein. MLX wurde speziell für Apple Silicon (M1+) entwickelt. Intel-Mac-Nutzer müssen Ollama oder llama.cpp verwenden. Beide funktionieren auf Intel, aber ohne Metal GPU-Beschleunigung — deutlich langsamer als Apple Silicon.

Welches Framework unterstützt Vision-Modelle am besten?

Ollama hat die sauberste Vision-Modell-Integration über `ollama run llama3.2-vision`. MLX unterstützt Vision-Modelle, erfordert aber mehr Einrichtung. llama.cpp hat Vision-Unterstützung via separater llava-Executable. Für multimodale Arbeiten mit Ollama beginnen.

Muss ich bei der Verwendung lokaler LLM-Frameworks die DSGVO beachten?

Da die Daten lokal auf Ihrem Mac verarbeitet werden und keine externen Server involviert sind, entfällt die Auftragsverarbeitungsvereinbarung nach DSGVO-Artikel 28. Lokale Inferenz mit Ollama, MLX oder llama.cpp gilt als datenschutzrechtlich vorteilhaft — besonders relevant für Mittelstandsunternehmen im DACH-Raum, die Datenschutz und BSI-Grundschutz-Anforderungen erfüllen müssen.

Ist der Einsatz lokaler LLM-Frameworks für den deutschen Mittelstand geeignet?

Ja. Da keine Daten an externe KI-Dienste gesendet werden, erfüllen diese Frameworks die DSGVO-Anforderungen an Datensparsamkeit und Zweckbindung. Für Mittelstandsunternehmen mit sensiblen Daten (Kundendaten, Geschäftsgeheimnisse, Personalunterlagen) empfiehlt das BSI den lokalen Einsatz von KI-Systemen. Ollama eignet sich besonders für einen schnellen Einstieg in der mittelständischen IT-Infrastruktur.

Framework-Versionen & Aktualität

• Ollama: getestet mit Version 0.7.x (aktuell, Stand Juni 2026)

• MLX: getestet mit mlx-lm 0.22

• llama.cpp: getestet mit Build vom Juni 2026

• Zuletzt überprüft: 2026-05-15

• Framework-Performance verbessert sich monatlich — vierteljährliches Re-Benchmarking für aktuelle Zahlen empfohlen

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Framework gewählt? Vergleichen Sie Ihre Ollama/MLX/llama.cpp-Ergebnisse mit GPT-4, Claude, Gemini und 22 weiteren Modellen in einem Abfragevorgang mit PromptQuorum — überprüfen Sie, ob Ihre Framework-Wahl Cloud-Qualität für Ihre Aufgaben liefert.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs