Cómo convertir modelos de Ollama a formato MLX

Leer en:

Respuesta rápida

No puedes convertir directamente modelos de Ollama a MLX. En su lugar, descarga los pesos GGUF o SafeTensors originales de Hugging Face, luego convierte con mlx-lm convert. Para la mayoría de modelos populares (Llama 3, Qwen, Mistral), versiones MLX preconvertidas ya existen en Hugging Face bajo la organización mlx-community.

▸No puedes convertir modelos de Ollama directamente — el formato de modelo es diferente
▸Modelos MLX preconvertidos existen en huggingface.co/mlx-community para la mayoría de modelos populares
▸Para convertir tu mismo: descarga desde Hugging Face, luego ejecuta mlx_lm.convert

Actualizado: 2026-05

Tool ComparisonsIntermedio

Puntos clave

✓No puedes convertir modelos de Ollama GGUF directamente a MLX — tienes que comenzar con los pesos originales en Hugging Face
✓Los modelos populares ya tienen versiones MLX en huggingface.co/mlx-community — busca tu modelo primero antes de convertir
✓Para convertir: descarga pesos de Hugging Face, luego ejecuta `mlx_lm.convert --model-path <ruta> -o <salida>`

¿Por qué no puedes convertir directamente?

Los modelos de Ollama están en formato GGUF (cuantizados de 4-8 bits). MLX requiere los pesos originales de 16 bits de Hugging Face porque necesita re-cuantizar con algoritmos nativos de Apple Silicon.

Si intentas convertir directamente desde GGUF, pierdes información de precisión durante la cuantización y el resultado es de menor calidad.

La solución: comenzar con los pesos sin cuantizar de Hugging Face, luego dejar que mlx-lm re-cuantize optimizando para Metal en Apple Silicon.

Cómo convertir (si es necesario)

Primer intento: busca tu modelo en mlx-community. Ejecuta: `pip install mlx-lm` y luego `python -m mlx_lm.generate --model mlx-community/model-name-4bit`. Si funciona, está preconvertido.

Si no está disponible, convierte tu mismo: descarga pesos originales con `git clone https://huggingface.co/owner/model`, luego ejecuta `mlx_lm.convert --model-path ./model -o ./mlx_model` (esto toma 5-10 minutos).

Preguntas rápidas sobre conversión de Ollama a MLX

¿Dónde encuentro modelos MLX preconvertidos?▾

En Hugging Face bajo la organización mlx-community: huggingface.co/mlx-community. Busca tu modelo (Llama, Qwen, Mistral, etc.). Si no está allí, tendrás que convertir tu mismo.

¿Cuánto tiempo tarda la conversión?▾

Typically 5–10 minutos para un modelo 7B en un M5 Pro. Modelos más grandes pueden tomar 20+ minutos. La conversión es una operación de una sola vez — el modelo resultante se cachea localmente.

¿Qué cuantización debería usar cuando conviertes a MLX?▾

Para la mayoría de modelos 7B–14B en memoria unificada de 16 GB, usa cuantización de 4 bits (es el predeterminado para el flag `-q`). Esto produce un modelo de ~4 GB que funciona bien en chips M1/M2/M3/M4. Solo usa cuantización de 8 bits si tienes 32+ GB de memoria y necesitas mayor calidad de salida.

¿Quieres el desglose completo?

Leer la guía completa →

Prompt Bites relacionados

← Volver a Prompt Bites