Schnelle Antwort
Auf Apple Silicon verwenden Sie MLX — es liefert ~65 tok/s im Vergleich zu ~35 tok/s für Ollama auf einem M5 Pro mit einem 8B-Modell. Auf NVIDIA-GPUs verwenden Sie Ollama für Einfachheit oder llama.cpp für maximale Kontrolle. Ollama nutzt llama.cpp unter der Haube und fügt eine API-Schicht darüber hinzu.
Aktualisiert: 2026-05
Wichtigste Punkte
Wählen Sie MLX, wenn Sie Apple Silicon haben und die schnellstmögliche Inferenz möchten. mlx-lm ist ein Python-Paket (Installation mit pip install mlx-lm) und nutzt Apples Unified Memory, weshalb es Ollamasv llama.cpp+Metal-Pfad auf derselben Hardware übertrifft. Nachteil: MLX funktioniert nur auf Apple Silicon, und Sie führen Python-Skripte statt eines dauerhaften API-Dienstes aus.
Wählen Sie Ollama, wenn Sie eine Ein-Befehl-Einrichtung und eine stabile OpenAI-kompatible API möchten, unabhängig von der Hardware. Es funktioniert auf Mac, Windows und Linux. Auf Apple Silicon verwendet es llama.cpp mit Metal — schnell, aber nicht so optimiert wie natives MLX.
Wählen Sie llama.cpp direkt, wenn Sie maximale Kontrolle benötigen: benutzerdefinierte Quantisierung, spezifische Sampling-Parameter oder die Einbettung von Inferenz in eine C/C++-Anwendung. Der Einrichtungsaufwand ist höher (aus dem Quellcode kompilieren), aber Sie erhalten jede Funktion, bevor sie in Ollama landet.
| Engine | Beste Verwendung | Geschwindigkeit (M5 Pro, 8B) | Einrichtungsaufwand |
|---|---|---|---|
| MLX | Apple Silicon nativ | ~65 tok/s | Mittel (Python) |
| Ollama | Jede Plattform, einfacher API | ~35 tok/s | Einfach (eine Installation) |
| llama.cpp | Maximale Kontrolle, jede HW | ~40 tok/s | Schwer (kompilieren) |
Wenn Sie einen Mac mit Apple Silicon haben: verwenden Sie MLX. Installieren Sie mit pip install mlx-lm und führen Sie dann jedes Modell der mlx-community-Organisation auf Hugging Face aus. Wenn Sie auch eine OpenAI-kompatible API benötigen, führen Sie mlx_lm.server --model mlx-community/model-name aus.
Wenn Sie eine NVIDIA-GPU oder andere Hardware haben: verwenden Sie Ollama. Ein Befehl installiert es, Modelle werden automatisch heruntergeladen, und es stellt eine OpenAI-kompatible API auf Port 11434 bereit. Für erweiterte Kontrolle ohne Ollamasv Overhead kompilieren Sie llama.cpp direkt und verwenden Sie dessen eingebauten Servermodus.