Startseite/Lokale LLMs/MLX vs. Ollama vs. llama.cpp auf dem Mac 2026: Welches Framework für Apple Silicon LLMs?

Hardware & Performance

MLX vs. Ollama vs. llama.cpp auf dem Mac 2026: Welches Framework für Apple Silicon LLMs?

Aktualisiert: Juni 2026·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Ollama: einfachste Einrichtung, ideal für Einsteiger, automatisches Metal, REST-API inklusive. MLX: schnellste Inferenz (15–25% schneller), Apple-nativ, Python-Integration, Fine-Tuning. llama.cpp: plattformübergreifend, meiste Modellformate, Metal-Unterstützung. Für die meisten: Ollama starten, für mehr Geschwindigkeit zu MLX wechseln.

MLX vs. Ollama vs. llama.cpp auf Apple Silicon 2026: Geschwindigkeits-Benchmarks, Benutzerfreundlichkeit, Modellkompatibilität, Metal GPU und Python-Integration. Enthält direkten Vergleich, Setup-Zeiten und Empfehlungen.

Wichtigste Erkenntnisse

Ollama: einfachste Einrichtung, ideal für Einsteiger
MLX: am schnellsten auf Apple Silicon (15–25% schneller)
llama.cpp: meiste Modellformate, plattformübergreifend
Für die meisten: Ollama starten, bei Bedarf zu MLX wechseln

📍 In einem Satz

Ollama ist am einfachsten (Auto-Metal, REST-API, 2-Minuten-Setup); MLX ist 15–25 % schneller und unterstützt Python + Fine-Tuning; llama.cpp ist am plattformübergreifendsten mit breiter GGUF-Modellunterstützung — die meisten Mac-Nutzer starten mit Ollama und wechseln zu MLX, wenn sie mehr Geschwindigkeit benötigen.

💬 In einfachen Worten

Das sind drei Open-Source-Programme, mit denen dein Mac KI-Modelle lokal ausführen kann. "Metal" bedeutet, dass die GPU des Macs für schnelle KI-Verarbeitung genutzt wird. GGUF ist das gebräuchlichste Dateiformat für herunterladbare KI-Modelle. LoRA Fine-Tuning ermöglicht das Training auf eigenen Daten ohne komplettes Neutraining.

Direktvergleich

Eigenschaft	Ollama	MLX	llama.cpp
Setup-Zeit	2 Min.	5 Min.	10 Min.
Metal GPU	Automatisch	Nativ	Unterstützt
Modellformat	GGUF	MLX-Format	GGUF
API	REST (localhost:11434)	Python-nativ	CLI + HTTP
Geschwindigkeit (8B Q4)	45–50 tok/s	55–65 tok/s	45–55 tok/s
Geschwindigkeit (70B Q4)	12–16 tok/s	18–22 tok/s	14–18 tok/s
Fine-Tuning	Nein	Ja (LoRA)	Nein
Ideal für	Einsteiger, API	ML-Entwickler	Plattformübergreifend

Ollama auf Apple Silicon

Ein-Befehl-Installation: `brew install ollama`
Metal GPU automatisch — keine Konfiguration erforderlich
REST-API für die Integration (jede Sprache)
Modellverwaltung: `ollama pull`, `ollama list`, `ollama rm`
Einschränkung: kein Fine-Tuning, keine benutzerdefinierte Quantisierung
Einschränkung: etwas langsamer als MLX aufgrund von GGUF-Overhead
Ideal für: Einsteiger, API-Nutzer, Whisper-Integration

Von Ollama unterstützte Modelle (100+ kuratiert)

Llama 3.3 (1B, 3B, 8B, 70B, 405B)
Mistral Small, Mixtral 8x22B/22B
Qwen3 (0,5B bis 72B)
Phi-3, Phi-4
Gemma 3 (4B, 12B, 27B)
DeepSeek Coder V2
Vision: Llama 3.2 Vision, LLaVA
Einbettung: nomic-embed-text, mxbai-embed-large

MLX — Apples natives Framework

Von Apple speziell für Apple Silicon entwickelt
NumPy-ähnliche Python-API: `import mlx.core as mx`
Lazy Evaluation + Unified Memory = optimale Auslastung
MLX-LM: dediziertes Paket für LLM-Inferenz und Fine-Tuning
Schnellste Inferenz auf Apple Silicon (10–25% schneller als Ollama)
Fine-Tuning-Unterstützung: LoRA und QLoRA direkt auf dem Mac
Einschränkung: nur MLX-Format-Modelle (wachsende Bibliothek)
Einschränkung: nur macOS — Code nicht portierbar
Ideal für: ML-Entwickler, maximale Geschwindigkeit, Fine-Tuning

Von MLX unterstützte Modelle (mlx-community auf HuggingFace)

Alle wichtigen LLMs (Llama, Mistral, Qwen, Gemma, Phi)
Quantisierungsversionen (Q3, Q4, Q5, Q6, Q8)
Vision-Modelle: Llama 3.2 Vision, LLaVA, Qwen2-VL
Hinweis: erfordert Konvertierung ins MLX-Format (Community konvertiert die meisten)

llama.cpp auf Apple Silicon

Plattformübergreifendes C/C++ — dieselbe Binary läuft auf Mac, Linux, Windows
Metal-Unterstützung über Build-Flag: `make LLAMA_METAL=1`
GGUF-Format: größte Modellbibliothek
Server-Modus: `./llama-server -m model.gguf` — REST-API
Whisper.cpp vom selben Autor — Metal STT-Unterstützung
Einschränkung: Kompilierung aus dem Quellcode (keine Ein-Klick-Installation)
Einschränkung: langsamer als MLX, vergleichbar mit Ollama
Ideal für: plattformübergreifende Projekte, maximale Modellformat-Unterstützung

Von llama.cpp unterstützte Modelle (beliebiges GGUF)

Jedes GGUF auf HuggingFace funktioniert (10.000+ Modelle)
Größtes Ökosystem für fein abgestimmte und benutzerdefinierte Modelle
Ursprüngliche/experimentelle Modelle erscheinen hier oft zuerst
Für gängige Modelle (Llama, Mistral, Qwen) decken alle drei Frameworks ab. Für unbekannte oder experimentelle Modelle gewinnt llama.cpp durch die Ökosystemgröße.

Setup-Vergleich: 5 Codezeilen, um Llama 3.3 8B auszuführen

Ollama (2 Befehle):

```bash

brew install ollama

ollama run llama3.3:8b "Hello, world"

```

MLX (4 Python-Zeilen):

```python

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Llama-3.1-8B-Instruct-4bit")

response = generate(model, tokenizer, prompt="Hello, world", max_tokens=100)

print(response)

```

llama.cpp (5 Befehle):

```bash

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

make LLAMA_METAL=1

wget https://huggingface.co/ggml-org/models/resolve/main/llama-3.1-8b-q4.gguf

./main -m llama-3.1-8b-q4.gguf -p "Hello, world"

```

Benchmarks: Gleiches Modell, drei Frameworks, M5 Pro 64 GB

Modell	Ollama tok/s	MLX tok/s	llama.cpp tok/s
Llama 3.3 8B Q4	48	62	52
Llama 3.3 8B Q8	38	48	40
Llama 3.3 70B Q4	10	14	11
Mistral Small Q4	52	66	55
Phi-4 Q4	58	72	60

MLX ist 15–25% schneller aufgrund nativer Metal-Optimierung. Frühe Benchmarks — Framework-Verbesserungen erwartet.

Speichernutzung: Gleiches Modell, drei Frameworks (M5 Pro 64 GB)

Modell	Ollama RAM	MLX RAM	llama.cpp RAM
Llama 3.3 8B Q4	5,2 GB	4,8 GB	5,0 GB
Llama 3.3 70B Q4	43 GB	41 GB	42 GB
Mistral Small Q4	4,6 GB	4,3 GB	4,4 GB

MLX nutzt 5–10% weniger Speicher als Ollama für dasselbe Modell durch Unified Memory-Optimierung. Bei knappen Speicherstufen (16 GB, 36 GB) kann dies den Unterschied machen, ob ein Modell passt oder in den Swap ausgelagert wird.

Entscheidungsmatrix: Wann welches Framework verwenden

1
Einstieg
Why it matters: Ollama — 2-Minuten-Setup, funktioniert sofort.
2
Python-App entwickeln
Why it matters: MLX — natives Python, höchste Geschwindigkeit.
3
REST-API benötigt
Why it matters: Ollama — integrierten API-Server inklusive.
4
Fine-Tuning auf dem Mac
Why it matters: MLX — einzige Option mit LoRA-Unterstützung.
5
Plattformübergreifendes Projekt
Why it matters: llama.cpp — derselbe Code auf Mac + Linux + Windows.
6
Sprachassistent
Why it matters: Ollama — einfache Whisper/Piper-Integration.
7
Maximale Geschwindigkeit
Why it matters: MLX — 15–25% schneller als Alternativen.
8
Seltene Modelle
Why it matters: llama.cpp — größte GGUF-Modellbibliothek.

Wann welches Framework NICHT verwenden

Ollama nicht verwenden, wenn:

• Fine-Tuning benötigt wird (nicht unterstützt)

• Jedes letzte bisschen Geschwindigkeit benötigt wird (15–25% langsamer als MLX)

• Vollständig benutzerdefinierte Quantisierung gewünscht wird (eingeschränkte Kontrolle)

MLX nicht verwenden, wenn:

• Plattformübergreifende Bereitstellung erforderlich ist (nur macOS)

• Python nicht vertraut ist

• Eine REST-API direkt benötigt wird (muss umhüllt werden)

• Vision-Modelle in der Produktion benötigt werden (kleinere Auswahl)

llama.cpp nicht verwenden, wenn:

• Ein Ein-Klick-Erlebnis gewünscht wird (Kompilierung erforderlich)

• Fine-Tuning benötigt wird (nicht unterstützt)

• Keine eigene Verwaltung von Modell-Downloads gewünscht wird

Mehrere Frameworks gleichzeitig verwenden?

Ja — sie konfligieren nicht. Alle drei installieren. Gängiges Muster: Ollama für den täglichen Einsatz, MLX für geschwindigkeitskritische Aufgaben, llama.cpp für Modelle, die nicht in Ollama/MLX verfügbar sind. Alle verwenden dieselben Grundmodelle (in verschiedenen Formaten).

Welches Framework ist am schnellsten?

MLX, 15–25% schneller als Ollama auf Apple Silicon. llama.cpp ist vergleichbar mit Ollama. Der Geschwindigkeitsunterschied ist nur bei großen Modellen (70B+) relevant; für 8B sind alle schnell genug.

Kann ich später das Framework wechseln?

Ja. Ollama heute installieren, morgen zu MLX wechseln. Modelle sind kompatibel (nur in verschiedenen Formaten). Kein Lock-in.

Ist MLX nur für Python?

MLX hat eine native Python-API, kann aber über Subprocess oder HTTP-Server-Wrapper aus anderen Sprachen aufgerufen werden. Am besten von Python aus verwendet.

Hat Ollama eine grafische Benutzeroberfläche?

Ollama selbst ist nur CLI. Verwenden Sie Open-Source-Frontends wie Open-WebUI für eine Chat-Oberfläche.

Kann ich Ollama und MLX gleichzeitig ausführen?

Ja. Sie verwenden separate Modellverzeichnisse und konfligieren nicht. Viele Entwickler betreiben Ollama als Hintergrunddienst für API-Zugriff und nutzen MLX für Python-Notebook-Experimente. Bei ausreichend Unified Memory können sie sogar dasselbe Modell gleichzeitig im Arbeitsspeicher halten.

Funktioniert MLX auf Intel-Macs?

Nein. MLX wurde speziell für Apple Silicon (M1+) entwickelt. Intel-Mac-Nutzer müssen Ollama oder llama.cpp verwenden. Beide funktionieren auf Intel, aber ohne Metal GPU-Beschleunigung — deutlich langsamer als Apple Silicon.

Welches Framework unterstützt Vision-Modelle am besten?

Ollama hat die sauberste Vision-Modell-Integration über `ollama run llama3.2-vision`. MLX unterstützt Vision-Modelle, erfordert aber mehr Einrichtung. llama.cpp hat Vision-Unterstützung via separater llava-Executable. Für multimodale Arbeiten mit Ollama beginnen.

Muss ich bei der Verwendung lokaler LLM-Frameworks die DSGVO beachten?

Da die Daten lokal auf Ihrem Mac verarbeitet werden und keine externen Server involviert sind, entfällt die Auftragsverarbeitungsvereinbarung nach DSGVO-Artikel 28. Lokale Inferenz mit Ollama, MLX oder llama.cpp gilt als datenschutzrechtlich vorteilhaft — besonders relevant für Mittelstandsunternehmen im DACH-Raum, die Datenschutz und BSI-Grundschutz-Anforderungen erfüllen müssen.

Ist der Einsatz lokaler LLM-Frameworks für den deutschen Mittelstand geeignet?

Ja. Da keine Daten an externe KI-Dienste gesendet werden, erfüllen diese Frameworks die DSGVO-Anforderungen an Datensparsamkeit und Zweckbindung. Für Mittelstandsunternehmen mit sensiblen Daten (Kundendaten, Geschäftsgeheimnisse, Personalunterlagen) empfiehlt das BSI den lokalen Einsatz von KI-Systemen. Ollama eignet sich besonders für einen schnellen Einstieg in der mittelständischen IT-Infrastruktur.

Framework-Versionen & Aktualität

• Ollama: getestet mit Version 0.7.x (aktuell, Stand Juni 2026)

• MLX: getestet mit mlx-lm 0.22

• llama.cpp: getestet mit Build vom Juni 2026

• Zuletzt überprüft: 2026-05-15

• Framework-Performance verbessert sich monatlich — vierteljährliches Re-Benchmarking für aktuelle Zahlen empfohlen

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Framework gewählt? Vergleichen Sie Ihre Ollama/MLX/llama.cpp-Ergebnisse mit GPT-4, Claude, Gemini und 22 weiteren Modellen in einem Abfragevorgang mit PromptQuorum — überprüfen Sie, ob Ihre Framework-Wahl Cloud-Qualität für Ihre Aufgaben liefert.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs