快速回答
不支持。Ollama 在 Apple Silicon 上使用 llama.cpp + Metal GPU 加速,而非 MLX。Metal 加速速度不错,但优化程度不如原生 MLX。如需 MLX 速度的推理,请直接使用 mlx-lm,或使用同时支持 MLX 和 llama.cpp 后端的 LM Studio。
更新于: 2026-05
关键要点
Ollama 的架构建立在 llama.cpp 之上,在所有平台上都使用它。在 Apple Silicon 上,llama.cpp 激活其 Metal 计算着色器进行 GPU 加速。这是高效且跨平台的,但与 Apple 的 MLX 框架走的是不同的代码路径。Ollama 将跨平台兼容性(Mac、Windows、Linux)置于 Apple 专属优化之上。
MLX 是 Apple 自家的机器学习框架,专为 Apple Silicon 设计。它采用延迟编译方法,并针对统一内存架构优化内存访问模式。结果是在同一芯片上,与 llama.cpp+Metal 相比,每秒 token 数约提升一倍。
| 工具 | Mac 上的后端 | 使用 MLX? | Apple Silicon 优化? |
|---|---|---|---|
| Ollama | llama.cpp + Metal | 否 | 部分(Metal) |
| LM Studio | llama.cpp + MLX | 是(可选) | 是 |
| mlx-lm | MLX 原生 | 是 | 完全原生 |
如果您希望以类似 Ollama 的体验获得 MLX 速度,请使用 LM Studio。它同时支持 llama.cpp 和 MLX 后端,可按模型切换,并提供完整的 GUI。在 Apple Silicon 上,在 LM Studio 的模型设置中选择 MLX 引擎即可获得原生 MLX 推理速度。LM Studio 个人使用免费。
如果您偏好命令行和最高速度,请通过 pip install mlx-lm 安装 mlx-lm。它提供 OpenAI 兼容的服务器端点,因此能与 Ollama API 配合工作的应用程序也能与 mlx-lm 的服务器配合使用。