Skip to main content
PromptQuorumPromptQuorum

Cómo convertir modelos de Ollama a formato MLX

Respuesta rápida

No puedes convertir directamente modelos de Ollama a MLX. En su lugar, descarga los pesos GGUF o SafeTensors originales de Hugging Face, luego convierte con mlx-lm convert. Para la mayoría de modelos populares (Llama 3, Qwen, Mistral), versiones MLX preconvertidas ya existen en Hugging Face bajo la organización mlx-community.

  • No puedes convertir modelos de Ollama directamente — el formato de modelo es diferente
  • Modelos MLX preconvertidos existen en huggingface.co/mlx-community para la mayoría de modelos populares
  • Para convertir tu mismo: descarga desde Hugging Face, luego ejecuta mlx_lm.convert

Actualizado: 2026-05

Tool ComparisonsIntermedio

Puntos clave

  • No puedes convertir modelos de Ollama GGUF directamente a MLX — tienes que comenzar con los pesos originales en Hugging Face
  • Los modelos populares ya tienen versiones MLX en huggingface.co/mlx-community — busca tu modelo primero antes de convertir
  • Para convertir: descarga pesos de Hugging Face, luego ejecuta `mlx_lm.convert --model-path <ruta> -o <salida>`

¿Por qué no puedes convertir directamente?

Los modelos de Ollama están en formato GGUF (cuantizados de 4-8 bits). MLX requiere los pesos originales de 16 bits de Hugging Face porque necesita re-cuantizar con algoritmos nativos de Apple Silicon.

Si intentas convertir directamente desde GGUF, pierdes información de precisión durante la cuantización y el resultado es de menor calidad.

La solución: comenzar con los pesos sin cuantizar de Hugging Face, luego dejar que mlx-lm re-cuantize optimizando para Metal en Apple Silicon.

Cómo convertir (si es necesario)

Primer intento: busca tu modelo en mlx-community. Ejecuta: `pip install mlx-lm` y luego `python -m mlx_lm.generate --model mlx-community/model-name-4bit`. Si funciona, está preconvertido.

Si no está disponible, convierte tu mismo: descarga pesos originales con `git clone https://huggingface.co/owner/model`, luego ejecuta `mlx_lm.convert --model-path ./model -o ./mlx_model` (esto toma 5-10 minutos).

Preguntas rápidas sobre conversión de Ollama a MLX

¿Dónde encuentro modelos MLX preconvertidos?
En Hugging Face bajo la organización mlx-community: huggingface.co/mlx-community. Busca tu modelo (Llama, Qwen, Mistral, etc.). Si no está allí, tendrás que convertir tu mismo.
¿Cuánto tiempo tarda la conversión?
Typically 5–10 minutos para un modelo 7B en un M5 Pro. Modelos más grandes pueden tomar 20+ minutos. La conversión es una operación de una sola vez — el modelo resultante se cachea localmente.
¿Qué cuantización debería usar cuando conviertes a MLX?
Para la mayoría de modelos 7B–14B en memoria unificada de 16 GB, usa cuantización de 4 bits (es el predeterminado para el flag `-q`). Esto produce un modelo de ~4 GB que funciona bien en chips M1/M2/M3/M4. Solo usa cuantización de 8 bits si tienes 32+ GB de memoria y necesitas mayor calidad de salida.