MLX vs Ollama vs llama.cpp: 어떤 추론 엔진을 사용해야 합니까?
빠른 답변
Apple Silicon에서는 MLX를 사용하십시오 — M5 Pro에서 8B 모델 기준 약 ~65 tok/s로 Ollama의 ~35 tok/s보다 빠릅니다. NVIDIA GPU에서는 간편함을 위해 Ollama, 최대 제어를 위해 llama.cpp를 사용하십시오. Ollama는 내부적으로 llama.cpp를 사용하며 그 위에 API 계층을 추가합니다.
- ▸MLX: Apple Silicon 전용, 가장 빠른 네이티브 추론, Python 기반
- ▸Ollama: 모든 플랫폼, OpenAI 호환 API, 가장 간편한 설정
- ▸llama.cpp: 모든 하드웨어, 최대 제어, 컴파일 필요
업데이트: 2026-05
핵심 요점
- ✓MLX는 Apple Silicon 네이티브에서 가장 빠릅니다 — M5 Pro에서 ~65 tok/s이지만 Mac에서만 작동합니다
- ✓Ollama는 모든 플랫폼에서 가장 간편합니다 — REST API를 갖춘 llama.cpp 래퍼로 OpenAI 호환
- ✓llama.cpp는 가장 유연합니다 — 직접 추론, 모든 하드웨어에서 컴파일 가능, API 계층 없음
- ✓Ollama는 내부적으로 llama.cpp를 사용합니다 — 더 편리한 계층이지만 세밀한 제어는 줄어듭니다
추론 엔진 비교
Apple Silicon이 있고 최대 추론 속도가 필요하다면 MLX를 선택하십시오. mlx-lm은 Python 패키지(pip install mlx-lm로 설치)이며 Apple의 통합 메모리를 활용하여 동일 하드웨어에서 Ollama의 llama.cpp+Metal 경로보다 빠릅니다. 트레이드오프: MLX는 Apple Silicon에서만 작동하며 지속적인 API 서비스가 아닌 Python 스크립트를 실행합니다.
모든 하드웨어에서 한 번의 명령으로 설치하고 안정적인 OpenAI 호환 API를 원한다면 Ollama를 선택하십시오. Mac, Windows, Linux에서 실행됩니다. Apple Silicon에서는 Metal과 함께 llama.cpp를 사용합니다 — 빠르지만 네이티브 MLX만큼 최적화되지는 않습니다.
최대 제어가 필요하다면 llama.cpp를 직접 선택하십시오: 사용자 정의 양자화, 특정 샘플링 파라미터, 또는 C/C++ 애플리케이션에 추론 임베딩. 설정 비용이 더 높지만(소스에서 컴파일) Ollama가 구현하기 전에 모든 기능을 사용할 수 있습니다.
| 엔진 | 최적 용도 | 속도 (M5 Pro, 8B) | 설정 난이도 |
|---|---|---|---|
| MLX | Apple Silicon 네이티브 | ~65 tok/s | 보통 (Python) |
| Ollama | 모든 플랫폼, 간편 API | ~35 tok/s | 쉬움 (한 명령) |
| llama.cpp | 최대 제어, 모든 하드웨어 | ~40 tok/s | 어려움 (컴파일) |
하드웨어별 최적 선택
Apple Silicon Mac이 있다면 MLX를 사용하십시오. pip install mlx-lm으로 설치한 후 Hugging Face의 mlx-community 조직에 있는 모델을 실행하십시오. OpenAI 호환 API도 필요하다면 mlx_lm.server --model mlx-community/model-name을 실행하십시오.
NVIDIA GPU 또는 다른 하드웨어가 있다면 Ollama를 사용하십시오. 한 명령으로 설치되고 모델이 자동으로 다운로드되며 11434 포트에서 OpenAI 호환 API를 제공합니다. Ollama 오버헤드 없이 고급 제어가 필요하다면 llama.cpp를 직접 컴파일하여 내장 서버 모드를 사용하십시오.
관련 자료
MLX, Ollama, llama.cpp에 관한 자주 묻는 질문
Ollama는 Mac에서 MLX를 사용합니까?▾
llama.cpp가 Ollama보다 빠릅니까?▾
Windows나 Linux에서 MLX를 사용할 수 있습니까?▾
Ollama 모델을 MLX 형식으로 변환하는 방법은 무엇입니까?▾
전체 설명이 필요하십니까?
전체 가이드 읽기 →