Comment convertir des modèles Ollama au format MLX

Read in:

Réponse rapide

Vous ne pouvez pas convertir directement les modèles Ollama en MLX. À la place, téléchargez les poids GGUF ou SafeTensors originaux depuis Hugging Face, puis convertissez-les avec mlx-lm convert. Pour la plupart des modèles populaires (Llama 3, Qwen, Mistral), des versions MLX pré-converties existent déjà sur Hugging Face sous l'organisation mlx-community.

▸Vous ne pouvez pas convertir les modèles Ollama directement — le format de modèle est différent
▸Des modèles MLX pré-convertis existent sur huggingface.co/mlx-community pour la plupart des modèles populaires
▸Pour convertir vous-même : téléchargez depuis Hugging Face, puis exécutez mlx_lm.convert

Mis à jour : 2026-05

Tool Comparisons

Points clés

✓Ollama stocke les modèles dans son propre format interne dans ~/.ollama/models — vous ne pouvez pas les importer directement dans MLX
✓L'organisation mlx-community sur Hugging Face dispose de versions MLX pré-converties de Llama 3, Qwen, Mistral, Phi, Gemma et bien d'autres — vérifiez-y d'abord avant de convertir
✓Si une version pré-convertie n'existe pas, téléchargez les poids SafeTensors originaux depuis Hugging Face et exécutez mlx_lm.convert — la quantification est appliquée lors de la conversion

Étape 1 : Chercher un modèle MLX pré-converti

Avant de convertir quoi que ce soit, visitez huggingface.co/mlx-community. La communauté maintient des centaines de modèles déjà convertis et quantifiés pour MLX. Recherchez par nom de modèle — s'il existe là-bas, l'installation ne prend qu'une commande et aucune conversion.

Si une version pré-convertie existe, exécutez le modèle directement avec mlx-lm :

pip install mlx-lm
mlx_lm.generate --model mlx-community/Meta-Llama-3-8B-4bit --prompt "Hello"

Étape 2 : Convertir un modèle vous-même (si non pré-converti)

Si le modèle que vous souhaitez n'est pas dans mlx-community, téléchargez les poids SafeTensors originaux depuis le dépôt Hugging Face de l'auteur du modèle (pas depuis mlx-community), puis exécutez le convertisseur. Le flag -q applique une quantification en 4 bits lors de la conversion :

La conversion prend 2 à 10 minutes selon la taille du modèle. Le résultat est un répertoire de fragments .safetensors accompagné d'une configuration de tokenizer compatible MLX.

pip install mlx-lm
mlx_lm.convert --hf-path original-org/model-name --mlx-path ./converted-model -q

Réponses rapides sur la conversion de modèles MLX

Puis-je exporter un modèle depuis Ollama et l'importer dans MLX ?▾

Non. Ollama stocke les modèles dans son propre format interne dans ~/.ollama/models. Ce format n'est pas directement lisible par mlx-lm. Vous avez besoin des poids SafeTensors ou GGUF originaux depuis Hugging Face comme source de conversion.

mlx-lm prend-il en charge les fichiers GGUF comme entrée de conversion ?▾

Début 2026, mlx-lm.convert cible principalement SafeTensors (le format standard Hugging Face). Si vous ne disposez que d'un fichier GGUF, utilisez d'abord un outil de conversion GGUF vers SafeTensors, ou recherchez les poids SafeTensors originaux sur la page Hugging Face du modèle.

Quels modèles disposent de versions MLX pré-converties ?▾

L'organisation mlx-community couvre la plupart des modèles majeurs : Llama 3, Qwen 2.5, Mistral, Phi-3/4, Gemma 2 et de nombreux fine-tunes. Des versions quantifiées en 4 bits et 8 bits sont généralement disponibles. Visitez huggingface.co/mlx-community et recherchez par nom de famille de modèle.

Quelle quantification utiliser lors de la conversion en MLX ?▾

Pour la plupart des modèles 7B–14B sur 16 Go de mémoire unifiée, utilisez la quantification en 4 bits (la valeur par défaut avec le flag -q). Pour un modèle 7B, cela produit un modèle d'environ 4 Go qui fonctionne bien sur les puces M1/M2/M3/M4. Utilisez 8 bits uniquement si vous disposez de 32 Go ou plus et avez besoin d'une meilleure qualité de sortie.

← Retour aux Prompt Bites