快速回答
在 Apple Silicon 上,使用 MLX — 在 M5 Pro 上,8B 模型的速度约为 ~65 tok/s,而 Ollama 约为 ~35 tok/s。在 NVIDIA GPU 上,追求简便选 Ollama,追求最大控制权选 llama.cpp。Ollama 在底层使用 llama.cpp,并在其上增加了一个 API 层。
更新于: 2026-05
关键要点
如果您拥有 Apple Silicon 并希望获得最快的推理速度,请选择 MLX。 mlx-lm 是一个 Python 包(使用 pip install mlx-lm 安装),并使用 Apple 的统一内存,这就是它在相同硬件上优于 Ollama 的 llama.cpp+Metal 路径的原因。权衡:MLX 只在 Apple Silicon 上工作,您运行的是 Python 脚本而不是持久的 API 服务。
如果您想要一键安装和稳定的 OpenAI 兼容 API,无论使用什么硬件,请选择 Ollama。它可在 Mac、Windows 和 Linux 上运行。在 Apple Silicon 上,它使用带有 Metal 的 llama.cpp — 速度快,但不如原生 MLX 优化。
如果您需要最大控制权,请直接选择 llama.cpp:自定义量化、特定采样参数,或将推理嵌入 C/C++ 应用程序。安装成本更高(从源代码编译),但您可以在 Ollama 添加之前获得每项功能。特别值得一提的是,llama.cpp 对中文模型的支持最为全面——Qwen、Yi 和 DeepSeek 都有优秀的 llama.cpp GGUF 版本可用,这使得 llama.cpp 成为中文开发者进行中文模型推理的优选。
| 引擎 | 最佳用途 | 速度(M5 Pro,8B) | 设置难度 |
|---|---|---|---|
| MLX | Apple Silicon 原生 | ~65 tok/s | 中等(Python) |
| Ollama | 任意平台,简易 API | ~35 tok/s | 简单(一键安装) |
| llama.cpp | 最大控制权,任意硬件 | ~40 tok/s | 困难(编译) |
如果您有搭载 Apple Silicon 的 Mac:使用 MLX。 使用 pip install mlx-lm 安装,然后运行 Hugging Face 上 mlx-community 组织中的任何模型。如果您还需要 OpenAI 兼容的 API,请运行 mlx_lm.server --model mlx-community/model-name。
如果您有 NVIDIA GPU 或其他硬件:使用 Ollama。 一条命令即可安装,模型自动下载,并在 11434 端口提供 OpenAI 兼容的 API。如需要在没有 Ollama 开销的情况下进行高级控制,请直接编译 llama.cpp 并使用其内置服务器模式。对于处理 Qwen、Yi、DeepSeek 等中文模型的开发者,llama.cpp 的 GGUF 格式支持尤为完善,是优先考虑的方案。