MLX vs Ollama vs llama.cpp: ¿Cuál motor de inferencia deberías usar?
Respuesta rápida
En Apple Silicon, usa MLX — ejecuta ~65 tok/s versus ~35 tok/s para Ollama en un M5 Pro con un modelo 8B. En GPUs NVIDIA, usa Ollama por simplicidad o llama.cpp por control máximo. Ollama usa llama.cpp bajo el capó y agrega una capa API encima.
- ▸MLX: solo Apple Silicon, inferencia nativa más rápida, basado en Python
- ▸Ollama: cualquier plataforma, API compatible con OpenAI, configuración más fácil
- ▸llama.cpp: cualquier hardware, control máximo, requiere compilación
Actualizado: 2026-05
Puntos clave
- ✓MLX es el más rápido en Apple Silicon nativo — ~65 tok/s en M5 Pro, pero solo funciona en Macs
- ✓Ollama es el más simple en cualquier plataforma — envoltura de llama.cpp con API REST, OpenAI-compatible
- ✓llama.cpp es el más flexible — inferencia directa, compilable para cualquier hardware, sin capa de API
- ✓Ollama usa llama.cpp internamente — es una capa más conveniente pero con menor control granular
Comparación de motores
Si tienes Apple Silicon y necesitas máxima velocidad de inferencia, elige MLX. mlx-lm es un paquete Python (instala con pip install mlx-lm) que usa memoria unificada de Apple, lo que lo hace más rápido que la ruta de llama.cpp+Metal de Ollama en el mismo hardware. Tradeoff: MLX solo funciona en Apple Silicon y ejecutas un script Python, no un servicio API persistente.
Si quieres configuración de un comando y un API OpenAI-compatible estable en cualquier hardware, elige Ollama. Funciona en Mac, Windows y Linux. En Apple Silicon usa llama.cpp con Metal — rápido, pero no tan optimizado como MLX nativo.
Si necesitas máximo control, elige llama.cpp directamente: cuantización personalizada, parámetros de muestreo específicos, o incrustar inferencia en aplicaciones C/C++. El costo de configuración es mayor (compilar desde el código fuente), pero obtienes todas las características antes de que Ollama las implemente.
| Motor | Mejor para | Velocidad (M5 Pro, 8B) | Dificultad de configuración |
|---|---|---|---|
| MLX | Nativo Apple Silicon | ~65 tok/s | Media (Python) |
| Ollama | Cualquier plataforma, API fácil | ~35 tok/s | Fácil (un comando) |
| llama.cpp | Control máximo, cualquier HW | ~40 tok/s | Difícil (compilación) |
Preguntas rápidas: MLX vs Ollama vs llama.cpp
¿Usa Ollama MLX en Mac?▾
¿Es llama.cpp más rápido que Ollama?▾
¿Puedo usar MLX en Windows o Linux?▾
¿Cómo convierto modelos de Ollama a formato MLX?▾
¿Quieres el desglose completo?
Leer la guía completa →