PromptQuorumPromptQuorum

MLX vs Ollama vs llama.cpp: Welche Inferenz-Engine sollten Sie verwenden?

Schnelle Antwort

Auf Apple Silicon verwenden Sie MLX — es liefert ~65 tok/s im Vergleich zu ~35 tok/s für Ollama auf einem M5 Pro mit einem 8B-Modell. Auf NVIDIA-GPUs verwenden Sie Ollama für Einfachheit oder llama.cpp für maximale Kontrolle. Ollama nutzt llama.cpp unter der Haube und fügt eine API-Schicht darüber hinzu.

  • MLX: nur Apple Silicon, schnellste native Inferenz, Python-basiert
  • Ollama: jede Plattform, OpenAI-kompatibler API, einfachste Einrichtung
  • llama.cpp: jede Hardware, maximale Kontrolle, erfordert Kompilierung

Aktualisiert: 2026-05

Tool Comparisons

Wichtigste Punkte

  • Ollama verwendet llama.cpp als Backend — die Wahl von Ollama bedeutet llama.cpp plus eine HTTP-API und eine Modellverwaltungsschicht darüber
  • MLX ist Apples eigenes ML-Framework; mlx-lm liefert ~65 tok/s für ein 8B-Modell auf dem M5 Pro durch native Nutzung von Apples Unified-Memory-Architektur — deutlich schneller als Ollamasv llama.cpp+Metal-Pfad auf demselben Chip
  • Direkt kompiliertes llama.cpp gibt etwas mehr Kontrolle über Quantisierung und Sampling, erfordert aber einen C++-Build-Schritt — die meisten Nutzer sind mit Ollama besser bedient

Engine-für-Engine-Vergleich

Wählen Sie MLX, wenn Sie Apple Silicon haben und die schnellstmögliche Inferenz möchten. mlx-lm ist ein Python-Paket (Installation mit pip install mlx-lm) und nutzt Apples Unified Memory, weshalb es Ollamasv llama.cpp+Metal-Pfad auf derselben Hardware übertrifft. Nachteil: MLX funktioniert nur auf Apple Silicon, und Sie führen Python-Skripte statt eines dauerhaften API-Dienstes aus.

Wählen Sie Ollama, wenn Sie eine Ein-Befehl-Einrichtung und eine stabile OpenAI-kompatible API möchten, unabhängig von der Hardware. Es funktioniert auf Mac, Windows und Linux. Auf Apple Silicon verwendet es llama.cpp mit Metal — schnell, aber nicht so optimiert wie natives MLX.

Wählen Sie llama.cpp direkt, wenn Sie maximale Kontrolle benötigen: benutzerdefinierte Quantisierung, spezifische Sampling-Parameter oder die Einbettung von Inferenz in eine C/C++-Anwendung. Der Einrichtungsaufwand ist höher (aus dem Quellcode kompilieren), aber Sie erhalten jede Funktion, bevor sie in Ollama landet.

EngineBeste VerwendungGeschwindigkeit (M5 Pro, 8B)Einrichtungsaufwand
MLXApple Silicon nativ~65 tok/sMittel (Python)
OllamaJede Plattform, einfacher API~35 tok/sEinfach (eine Installation)
llama.cppMaximale Kontrolle, jede HW~40 tok/sSchwer (kompilieren)

Beste Wahl nach Hardware

Wenn Sie einen Mac mit Apple Silicon haben: verwenden Sie MLX. Installieren Sie mit pip install mlx-lm und führen Sie dann jedes Modell der mlx-community-Organisation auf Hugging Face aus. Wenn Sie auch eine OpenAI-kompatible API benötigen, führen Sie mlx_lm.server --model mlx-community/model-name aus.

Wenn Sie eine NVIDIA-GPU oder andere Hardware haben: verwenden Sie Ollama. Ein Befehl installiert es, Modelle werden automatisch heruntergeladen, und es stellt eine OpenAI-kompatible API auf Port 11434 bereit. Für erweiterte Kontrolle ohne Ollamasv Overhead kompilieren Sie llama.cpp direkt und verwenden Sie dessen eingebauten Servermodus.

Schnelle Antworten zu MLX, Ollama und llama.cpp

Verwendet Ollama MLX auf dem Mac?
Nein. Ollama verwendet llama.cpp mit Metal-GPU-Beschleunigung auf Apple Silicon, nicht MLX. Für native MLX-Inferenz verwenden Sie mlx-lm direkt oder LM Studio (das beide Backends unterstützt). Siehe Unterstützt Ollama MLX auf Apple Silicon? für die vollständige Erklärung.
Ist llama.cpp schneller als Ollama?
Geringfügig — nativ kompiliertes llama.cpp läuft etwa 5–10 % schneller als Ollama, da Ollama HTTP-API- und Modellverwaltungs-Overhead hinzufügt. Der Unterschied ist für die meisten Workloads gering. MLX ist auf Apple-Silicon-Hardware deutlich schneller als beide.
Kann ich MLX auf Windows oder Linux verwenden?
Nein. MLX ist Apples Framework und läuft nur auf Apple Silicon (M1 und neuer). Auf Windows oder Linux mit NVIDIA- oder AMD-GPUs verwenden Sie Ollama oder llama.cpp mit CUDA oder ROCm.
Wie konvertiere ich ein Ollama-Modell in das MLX-Format?
Sie können ein Ollama-Modell nicht direkt in MLX konvertieren. Laden Sie die Original-Gewichte von Hugging Face herunter und verwenden Sie mlx-lms Konverter, oder finden Sie eine bereits konvertierte Version in der mlx-community-Organisation. Siehe Wie man Ollama-Modelle in MLX konvertiert.