Sie können Ollama-Modelle nicht direkt in MLX konvertieren. Laden Sie stattdessen die originalen GGUF- oder SafeTensors-Gewichte von Hugging Face herunter und konvertieren Sie diese mit mlx-lm convert. Für die meisten gängigen Modelle (Llama 3, Qwen, Mistral) existieren auf Hugging Face bereits vorkonvertierte MLX-Versionen unter der mlx-community-Organisation.
▸Ollama-Modelle können nicht direkt konvertiert werden — das Modellformat ist unterschiedlich
▸Vorkonvertierte MLX-Modelle sind auf huggingface.co/mlx-community für die meisten gängigen Modelle verfügbar
▸Selbst konvertieren: von Hugging Face herunterladen, dann mlx_lm.convert ausführen
Aktualisiert: 2026-05
Tool Comparisons
Wichtigste Punkte
✓Ollama speichert Modelle in einem eigenen internen Format unter ~/.ollama/models — diese können nicht direkt in MLX importiert werden
✓Die mlx-community-Organisation auf Hugging Face bietet vorkonvertierte MLX-Versionen von Llama 3, Qwen, Mistral, Phi, Gemma und vielen anderen — prüfen Sie dort zuerst, bevor Sie konvertieren
✓Wenn keine vorkonvertierte Version existiert, laden Sie die originalen SafeTensors-Gewichte von Hugging Face herunter und führen Sie mlx_lm.convert aus — die Quantisierung wird während der Konvertierung angewendet
Schritt 1: Nach einem vorkonvertierten MLX-Modell suchen
Besuchen Sie zunächst huggingface.co/mlx-community, bevor Sie irgendetwas konvertieren. Die Community pflegt Hunderte von Modellen, die bereits für MLX konvertiert und quantisiert wurden. Suchen Sie nach dem Modellnamen — wenn es dort vorhanden ist, benötigen Sie nur einen Befehl ohne Konvertierung.
Wenn eine vorkonvertierte Version existiert, führen Sie das Modell direkt mit mlx-lm aus:
Schritt 2: Modell selbst konvertieren (falls nicht vorkonvertiert)
Wenn das gewünschte Modell nicht in mlx-community vorhanden ist, laden Sie die originalen SafeTensors-Gewichte aus dem Hugging-Face-Repo des Modellautors herunter (nicht von mlx-community) und führen dann den Konverter aus. Das Flag -q wendet während der Konvertierung 4-Bit-Quantisierung an:
Die Konvertierung dauert je nach Modellgröße 2–10 Minuten. Das Ergebnis ist ein Verzeichnis mit .safetensors-Shards sowie einer mlx-kompatiblen Tokenizer-Konfiguration.
Kann ich ein Modell aus Ollama exportieren und in MLX importieren?▾
Nein. Ollama speichert Modelle in einem eigenen internen Format in ~/.ollama/models. Dieses Format ist für mlx-lm nicht direkt lesbar. Sie benötigen die originalen SafeTensors- oder GGUF-Gewichte von Hugging Face als Konvertierungsquelle.
Unterstützt mlx-lm GGUF-Dateien als Konvertierungseingabe?▾
Stand Anfang 2026 zielt mlx-lm.convert hauptsächlich auf SafeTensors (das Standard-Hugging-Face-Format) ab. Wenn Sie nur eine GGUF-Datei haben, verwenden Sie zuerst ein GGUF-zu-SafeTensors-Konvertierungswerkzeug, oder suchen Sie nach den originalen SafeTensors-Gewichten auf der Hugging-Face-Seite des Modells.
Welche Modelle haben vorkonvertierte MLX-Versionen?▾
Die mlx-community-Organisation deckt die meisten großen Modelle ab: Llama 3, Qwen 2.5, Mistral, Phi-3/4, Gemma 2 und viele Fine-Tunes. Sowohl 4-Bit- als auch 8-Bit-quantisierte Versionen sind in der Regel verfügbar. Besuchen Sie huggingface.co/mlx-community und suchen Sie nach dem Modellfamiliennamen.
Welche Quantisierung sollte ich bei der MLX-Konvertierung verwenden?▾
Für die meisten 7B–14B-Modelle mit 16 GB Unified Memory empfiehlt sich 4-Bit-Quantisierung (Standard mit dem Flag -q). Bei einem 7B-Modell ergibt das ein ~4 GB großes Modell, das auf M1/M2/M3/M4-Chips gut läuft. Verwenden Sie 8-Bit nur, wenn Sie 32 GB oder mehr haben und höhere Ausgabequalität benötigen.