Home/Local LLMs/Mac용 Ollama 2026: Apple Silicon 완전 설치 가이드 (M1–M5, Metal GPU)

Hardware & Performance

Mac용 Ollama 2026: Apple Silicon 완전 설치 가이드 (M1–M5, Metal GPU)

Last updated: May 2026·10분 읽기·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Ollama 설치: `brew install ollama`. Metal GPU 자동 설정. 모델 다운로드: `ollama pull llama2`. 실행: `ollama run llama2`. REST API: `localhost:11434`에서 사용 가능합니다.

Apple Silicon Mac을 위한 Ollama 완전 설치 가이드 2026. 단일 명령어 설치, Metal GPU 확인, 모델 관리(pull, run, list), 멀티 모델 설정을 위한 메모리 최적화, 개발자를 위한 REST API 구성을 다룹니다.

빠른 설정 (3가지 명령어)

1
Ollama 설치
Why it matters: `brew install ollama` — 원클릭 설치.
2
모델 다운로드
Why it matters: `ollama pull llama2` — Llama 3.3 7B를 다운로드합니다.
3
채팅 시작
Why it matters: `ollama run llama2` — 대화형 채팅 인터페이스를 시작합니다.

Metal GPU 확인

macOS에서 Ollama의 Metal GPU 가속은 자동으로 설정됩니다. 별도 구성이 필요하지 않습니다. Metal 작동 여부를 확인하는 방법은 다음과 같습니다.

1
상세 출력으로 실행
Why it matters: `ollama run llama3.1:8b --verbose`를 실행하고 콘솔 출력에서 `ggml_metal_init: found device: Apple M[X]`를 확인하십시오.
2
추론 중 속도 확인
Why it matters: 토큰 생성 속도를 확인하십시오. Mac에 따라 초당 20–60토큰이어야 합니다 (M5 Pro: Llama 3.3 8B에서 약 50 tok/s). CPU 전용 폴백 시: 약 1–5 tok/s.
3
GPU 사용률 모니터링
Why it matters: 활성 상태 보기(응용 프로그램 → 유틸리티)를 열고 GPU 섹션을 확인하십시오. Metal이 작동 중이라면 추론 중 GPU 사용률이 80-100%로 표시되어야 합니다.

모델 관리

1
`ollama pull <model>`
Why it matters: 모델을 다운로드합니다. 예: `ollama pull mistral`.
2
`ollama list`
Why it matters: 다운로드된 모든 모델을 나열합니다.
3
`ollama run <model>`
Why it matters: 모델과 대화형 채팅을 시작합니다.
4
`ollama rm <model>`
Why it matters: 공간 확보를 위해 모델을 삭제합니다.

Apple Silicon 메모리 최적화

OLLAMA_MAX_LOADED_MODELS: 메모리에 유지할 모델 수. 기본값: 1. 멀티 모델 설정의 경우 2–3으로 설정하십시오.
GPU 레이어: 기본적으로 Ollama는 사용 가능한 모든 통합 메모리를 사용합니다. 메모리가 부족한 경우 Modelfile에서 `num_gpu_layers`를 설정하십시오.
Whisper: 임베딩 모델 및 LLM과 결합하면 Ollama와 함께 64GB M5 Pro에서 실행됩니다.

여러 모델 동시 실행

Whisper STT + Llama 3.3 8B + LLaVA Vision을 동시에 실행해야 합니까? Ollama가 모든 모델을 메모리에 유지하도록 구성하십시오.

bash

export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama

# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b

# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'

로그인 시 자동 시작

brew services를 통해 Mac에 로그인할 때 Ollama가 자동으로 시작되도록 설정할 수 있습니다.

bash

# Enable auto-start
brew services start ollama

# Check status
brew services list | grep ollama

# Disable auto-start (optional)
brew services stop ollama

개발자를 위한 API 설정

Ollama는 `localhost:11434`에서 OpenAI 호환 REST API를 제공합니다. `ollama serve`로 서버를 시작하거나 brew services를 사용하십시오. 이후 어떤 프로그래밍 언어에서도 요청을 전송할 수 있습니다.

bash

# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "Write a Python function"}],
  "stream": false
}'

# Python example
import requests
response = requests.post(
  "http://localhost:11434/api/chat",
  json={
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": False
  }
)
print(response.json()["message"]["content"])

Modelfile 커스터마이징

시스템 프롬프트 및 파라미터로 커스텀 모델을 생성하십시오.

`ollama create llm-expert -f Modelfile` — 커스텀 모델 빌드
`ollama run llm-expert` — 커스텀 모델로 대화형 채팅 시작
`ollama run llm-expert "Code review this function"` — 프롬프트 직접 전송

dockerfile

FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9

일반적인 문제 및 해결 방법

Metal이 감지되지 않음: `ollama run llama3.1:8b --verbose`로 확인하고 `ggml_metal_init: found device: Apple M[X]`를 찾으십시오. 없으면 재시작하십시오: `brew services restart ollama` 또는 `pkill ollama && ollama serve &`.
느린 추론 (CPU 폴백): 원인: Metal 초기화 실패, 모델이 CPU에서 실행 중. 활성 상태 보기에서 GPU 사용률이 추론 중 80-100%여야 합니다. GPU가 0%이면: Ollama를 재시작하고 위의 Metal 미감지 항목을 확인하십시오.
메모리 부족 (OOM): 모델 충돌 또는 응답 잘림. 원인: 모델 + 컨텍스트 + macOS 오버헤드가 RAM을 초과함. 해결책: (1) 더 작은 양자화 사용 (`ollama pull llama3.1:8b-q4_K_M`), (2) 컨텍스트 축소 (`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`), (3) 더 작은 모델 사용 (`ollama pull phi4` — 2.5GB).
모델 다운로드 중단: 원인: 네트워크 제한 또는 HuggingFace 속도 제한. 해결책: `pkill ollama && ollama pull llama3.1:8b` (이전 진행 상태에서 재개).
포트 11434 이미 사용 중: 다른 Ollama 인스턴스가 실행 중이거나 다른 서비스가 해당 포트를 사용 중입니다. 확인: `lsof -i :11434`. 해결책: `pkill ollama` 후 재시작.
모델이 의미 없는 문자 출력: 원인: Modelfile 파라미터 범위 초과 또는 잘못된 템플릿. 해결책: 공식 모델 다운로드 `ollama pull llama3.1:8b` (커스텀 덮어쓰기) 후 테스트: `ollama run llama3.1:8b "Hello, how are you?"`.
저장 공간 부족: 모델은 `~/.ollama/models/`에 저장됩니다. 크기 확인: `du -sh ~/.ollama/`. 미사용 모델 제거: `ollama rm <model-name>`.

Ollama는 무료입니까?

네. Ollama는 오픈소스입니다. 모델(Llama, Mistral)은 무료 라이선스입니다. 별도 비용이 없습니다.

GPU 없이 Ollama를 사용할 수 있습니까?

네, 다만 속도가 느립니다. CPU 전용: 7B 모델에서 약 1–5 tok/s. GPU (Mac의 Metal): Mac에 따라 20–60 tok/s.

처음 사용할 모델로 무엇을 추천합니까?

Mistral Small 또는 Llama 3.3 7B를 권장합니다. 두 모델 모두 M1+ Mac에서 실행되며 우수한 출력을 제공합니다. 각각 약 4GB입니다.

여러 사람이 Ollama API를 동시에 사용할 수 있습니까?

네. 한 대의 기기에서 `ollama serve`를 실행하면 LAN의 모든 사람이 해당 기기의 IP:11434로 REST API에 접근할 수 있습니다.

Mac에서 Ollama 다운로드 모델은 어디에 저장됩니까?

기본 위치: `~/.ollama/models/`. 각 모델은 수 GB입니다. 전체 디스크 사용량 확인: `du -sh ~/.ollama/`. 위치를 변경하려면 Ollama 시작 전에 `OLLAMA_MODELS=/path/to/models` 환경 변수를 설정하십시오.

Intel Mac에서 Ollama를 실행할 수 있습니까?

네, 다만 Metal GPU 가속 없이 실행됩니다. CPU 전용 성능: 7B 모델에서 1-5 tok/s (Apple Silicon의 20-60 tok/s 대비). 테스트 목적으로는 사용 가능하나 운영 환경에는 적합하지 않습니다.

설치 후 Ollama를 오프라인으로 사용할 수 있습니까?

네. 모델을 다운로드한 후 Ollama는 완전히 오프라인으로 실행됩니다. 추론에 인터넷 연결이 필요하지 않습니다. 모델 다운로드(`ollama pull`)만 인터넷 연결이 필요합니다.

Ollama가 실행 중입니다. 이제 불러올 최적의 오픈소스 모델을 선택하십시오.

Ollama를 위한 최고의 오픈소스 모델 →

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider’s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Mac에서 Ollama를 실행 중이십니까? PromptQuorum으로 로컬 Llama 3.3 또는 Mistral 출력을 GPT-4, Claude, Gemini 및 22개의 다른 모델과 비교해 보십시오. 단 하나의 요청으로 특정 사용 사례에서 로컬 설정이 클라우드 품질에 부합하는지 검증해 보십시오.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Mac용 Ollama 2026: Apple Silicon 완전 설치 가이드 (M1–M5, Metal GPU)

Mac에 Ollama를 어떻게 설치합니까?

빠른 설정 (3가지 명령어)

Metal GPU 확인

모델 관리

Apple Silicon 메모리 최적화

여러 모델 동시 실행

로그인 시 자동 시작

개발자를 위한 API 설정

Modelfile 커스터마이징

일반적인 문제 및 해결 방법

관련 문서

Ollama는 무료입니까?

GPU 없이 Ollama를 사용할 수 있습니까?

처음 사용할 모델로 무엇을 추천합니까?

여러 사람이 Ollama API를 동시에 사용할 수 있습니까?

Mac에서 Ollama 다운로드 모델은 어디에 저장됩니까?

Intel Mac에서 Ollama를 실행할 수 있습니까?

설치 후 Ollama를 오프라인으로 사용할 수 있습니까?

A Note on Third-Party Facts