Skip to main content
PromptQuorumPromptQuorum

Ollama 모델을 MLX 형식으로 변환하는 방법

빠른 답변

Ollama 모델을 MLX로 직접 변환할 수 없습니다. 대신 Hugging Face에서 원본 GGUF 또는 SafeTensors 가중치를 다운로드한 후 mlx-lm convert로 변환하십시오. 대부분의 인기 모델(Llama 3, Qwen, Mistral)은 Hugging Face의 mlx-community 조직 아래에 이미 사전 변환된 MLX 버전이 있습니다.

  • Ollama 모델은 직접 변환할 수 없습니다 — 모델 형식이 다릅니다
  • 사전 변환된 MLX 모델이 대부분의 인기 모델에 대해 huggingface.co/mlx-community에 존재합니다
  • 직접 변환하려면: Hugging Face에서 다운로드한 후 mlx_lm.convert를 실행하십시오

업데이트: 2026-05

Tool Comparisons중급

핵심 요점

  • Ollama GGUF 모델은 MLX로 직접 변환할 수 없습니다 — Hugging Face의 원본 가중치에서 시작해야 합니다
  • 인기 모델은 이미 huggingface.co/mlx-community에 MLX 버전이 있습니다 — 변환 전에 먼저 검색하십시오
  • 변환하려면: Hugging Face에서 가중치를 다운로드한 후 `mlx_lm.convert --model-path <경로> -o <출력>`을 실행하십시오

직접 변환이 불가능한 이유

Ollama 모델은 GGUF 형식(4~8비트 압축)으로 저장됩니다. MLX는 Apple Silicon 네이티브 알고리즘으로 재압축하기 위해 Hugging Face의 원본 16비트 가중치가 필요합니다.

GGUF에서 직접 변환을 시도하면 압축 과정에서 정밀도 정보가 손실되어 결과 모델의 품질이 저하됩니다.

해결책: Hugging Face에서 비압축 가중치로 시작한 후 mlx-lm이 Apple Silicon의 Metal에 최적화된 방식으로 재압축하도록 하십시오.

변환 방법 (필요한 경우)

첫 번째 시도: mlx-community에서 모델을 검색하십시오. `pip install mlx-lm`을 실행한 후 `python -m mlx_lm.generate --model mlx-community/model-name-4bit`를 실행하십시오. 작동하면 이미 사전 변환된 것입니다.

사용 가능하지 않은 경우 직접 변환하십시오: `git clone https://huggingface.co/owner/model`로 원본 가중치를 다운로드한 후 `mlx_lm.convert --model-path ./model -o ./mlx_model`을 실행하십시오(5~10분 소요).

관련 읽을거리

Ollama에서 MLX 변환에 관한 자주 묻는 질문

사전 변환된 MLX 모델은 어디서 찾을 수 있습니까?
Hugging Face의 mlx-community 조직(huggingface.co/mlx-community)에서 찾을 수 있습니다. 원하는 모델(Llama, Qwen, Mistral 등)을 검색하십시오. 없는 경우 직접 변환해야 합니다.
변환에 얼마나 시간이 걸립니까?
M5 Pro에서 7B 모델의 경우 일반적으로 5~10분이 소요됩니다. 더 큰 모델은 20분 이상 걸릴 수 있습니다. 변환은 한 번만 수행하면 되며 결과 모델은 로컬에 캐시됩니다.
MLX로 변환할 때 어떤 양자화를 사용해야 합니까?
16 GB 통합 메모리에서 대부분의 7B~14B 모델에는 4비트 양자화(`-q` 플래그의 기본값)를 사용하십시오. 이는 M1/M2/M3/M4 칩에서 잘 작동하는 ~4 GB 모델을 생성합니다. 32 GB 이상의 메모리가 있고 더 높은 출력 품질이 필요한 경우에만 8비트 양자화를 사용하십시오.