Réponse rapide
Sur Apple Silicon, utilisez MLX — il atteint ~65 tok/s contre ~35 tok/s pour Ollama sur un M5 Pro avec un modèle 8B. Sur les GPU NVIDIA, utilisez Ollama pour la simplicité ou llama.cpp pour un contrôle maximal. Ollama utilise llama.cpp sous le capot et ajoute une couche API par-dessus.
Mis à jour : 2026-05
Points clés
Choisissez MLX si vous avez Apple Silicon et souhaitez l'inférence la plus rapide possible. mlx-lm est un paquet Python (installez avec pip install mlx-lm) et utilise la mémoire unifiée d'Apple, ce qui explique pourquoi il surpasse le chemin llama.cpp+Metal d'Ollama sur le même matériel. Inconvénient : MLX ne fonctionne que sur Apple Silicon, et vous exécutez des scripts Python plutôt qu'un service API persistant.
Choisissez Ollama si vous souhaitez une installation en une commande et une API stable compatible OpenAI, quel que soit le matériel. Il fonctionne sur Mac, Windows et Linux. Sur Apple Silicon, il utilise llama.cpp avec Metal — rapide, mais pas aussi optimisé que MLX natif.
Choisissez llama.cpp directement si vous avez besoin d'un contrôle maximal : quantification personnalisée, paramètres d'échantillonnage spécifiques, ou intégration de l'inférence dans une application C/C++. Le coût d'installation est plus élevé (compiler depuis les sources), mais vous obtenez chaque fonctionnalité avant qu'elle n'arrive dans Ollama.
| Moteur | Idéal pour | Vitesse (M5 Pro, 8B) | Difficulté d'installation |
|---|---|---|---|
| MLX | Apple Silicon natif | ~65 tok/s | Moyen (Python) |
| Ollama | Toute plateforme, API facile | ~35 tok/s | Facile (une installation) |
| llama.cpp | Contrôle maximal, tout HW | ~40 tok/s | Difficile (compiler) |
Si vous avez un Mac avec Apple Silicon : utilisez MLX. Installez avec pip install mlx-lm, puis exécutez n'importe quel modèle de l'organisation mlx-community sur Hugging Face. Si vous avez également besoin d'une API compatible OpenAI, exécutez mlx_lm.server --model mlx-community/model-name.
Si vous avez un GPU NVIDIA ou tout autre matériel : utilisez Ollama. Une commande l'installe, les modèles se téléchargent automatiquement, et il expose une API compatible OpenAI sur le port 11434. Pour un contrôle avancé sans la surcharge d'Ollama, compilez llama.cpp directement et utilisez son mode serveur intégré.