Home/Local LLMs/Ollama 설치: macOS, Windows & Linux 2분 설치 가이드

시작하기

Ollama 설치: macOS, Windows & Linux 2분 설치 가이드

Last updated: 2026년 4월 4일·8분 읽기·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Ollama는 macOS, Windows, Linux에서 2분 이내에 설치할 수 있습니다. 설치 후 명령어 하나로 Ollama 라이브러리의 모든 모델을 다운로드하고 실행할 수 있습니다 -- Python 환경, 설정 파일, 시작을 위한 GPU가 필요하지 않습니다.

Ollama는 macOS, Windows, Linux에서 2분 이내에 설치할 수 있습니다. 설치 후 명령어 하나로 Ollama 라이브러리의 모든 모델을 다운로드하고 실행할 수 있습니다 -- Python 환경, 설정 파일, 시작을 위한 GPU가 필요하지 않습니다. 2026년 4월 기준으로 Ollama는 Meta Llama 3.3, Qwen3, Mistral을 포함한 200개 이상의 모델을 지원합니다.

Ollama 설치: macOS, Windows & Linux 2분 설치 가이드

Key Takeaways

macOS: ollama.com에서 .dmg를 다운로드하거나 `brew install ollama`를 실행한 후 -- `ollama run llama3.2`로 대화를 시작하십시오.
Windows: ollama.com/download에서 설치 프로그램을 다운로드하십시오. Ollama는 시스템 트레이에서 백그라운드 서비스로 실행됩니다.
Linux: 명령어 하나로 모든 것을 설치합니다 -- `curl -fsSL https://ollama.com/install.sh | sh`.
최소 요구 사항: 3B 모델에는 4 GB RAM, 7B 모델에는 8 GB RAM. 시작하는 데 GPU는 필요하지 않습니다.
Ollama는 `http://localhost:11434`에서 OpenAI 호환 REST API를 제공합니다 -- OpenAI SDK 앱이라면 코드 변경 없이 사용할 수 있습니다.
👉 설치 전에 로컬 실행이 귀하의 사용 사례에 적합한지 확인하십시오 — 클라우드가 로컬 추론보다 나은 경우는 로컬 LLM vs 클라우드 API를 참조하십시오.

설치 전: 로컬 LLM이 귀하의 사용 사례에 적합합니까?

Ollama 설치는 5분이 걸리지만, GPU 감지 문제, 드라이버 불일치 또는 RAM 제약이 발생하면 첫 번째 모델을 제대로 실행하는 데 20~40분이 걸릴 수 있습니다.

로컬 추론이 올바른 선택인지 확신하지 못하는 경우, **로컬 vs 클라우드의 전체 트레이드오프를 먼저 비교하십시오** — 클라우드 API(5분이면 준비 완료, 문제 해결 불필요)로 시작하는 것이 더 현명한 방법임을 알 수 있습니다. 많은 사용자가 설치 후에 이를 발견합니다. 지금 결정하는 것이 좋습니다.

로컬을 선택한 사용자는 아래를 계속 읽으십시오. 먼저 클라우드를 평가하려는 사용자는 전체 비교를 참조하십시오.

Ollama란 무엇이며 왜 사용합니까?

Ollama는 대형 언어 모델을 로컬에서 실행하는 오픈 소스 추론 엔진입니다. 모델 관리, llama.cpp 추론 백엔드, OpenAI 호환 REST API를 단일 경량 애플리케이션으로 패키징합니다. Python, conda 환경, CUDA 설정이 필요하지 않습니다.

Ollama는 Meta Llama 3.3, Microsoft Phi-3, Google Gemma 2, Mistral, Qwen3 및 100개 이상의 다른 모델을 원클릭으로 다운로드할 수 있는 큐레이션된 모델 라이브러리(ollama.com/library)를 유지 관리합니다. 모델은 한 번 다운로드되어 디스크에 캐시됩니다 -- 이후 실행은 5초 이내에 시작됩니다.

Ollama의 대안은 로컬 LLM 원클릭 설치 프로그램을 참조하십시오. Ollama와 LM Studio의 비교는 LM Studio 설치 방법을 참조하십시오.

macOS에서 Ollama를 어떻게 설치합니까?

두 가지 방법이 있습니다. 설치 프로그램 다운로드가 더 빠르며, Homebrew는 brew로 소프트웨어를 관리하는 경우에 적합합니다.

1
ollama.com/download로 이동하여 "Download for macOS"를 클릭하십시오.
2
다운로드한 Ollama.dmg 파일을 열고 Ollama를 응용 프로그램 폴더로 드래그하십시오.
3
응용 프로그램에서 Ollama를 실행하십시오. 메뉴 바에 라마 아이콘이 표시됩니다 -- Ollama가 이제 백그라운드 서비스로 실행 중입니다.
4
터미널을 열고 첫 번째 모델을 실행하십시오: `ollama run llama3.2`
5
모델이 다운로드됩니다(llama3.2:3b의 경우 약 2 GB). 채팅 프롬프트가 표시됩니다. 메시지를 입력하고 Enter를 누르십시오.

Homebrew로 macOS에 Ollama 설치

bash

brew install ollama

# Start the Ollama service
ollama serve &

# Pull and run a model
ollama run llama3.2

Windows에서 Ollama를 어떻게 설치합니까?

1
ollama.com/download로 이동하여 "Download for Windows"를 클릭하십시오.
2
다운로드한 OllamaSetup.exe 설치 프로그램을 실행하십시오. Ollama는 %LOCALAPPDATA%\Programs\Ollama에 설치됩니다.
3
Ollama가 자동으로 시작되어 시스템 트레이 아이콘으로 표시됩니다.
4
PowerShell 또는 명령 프롬프트를 열고 실행하십시오: `ollama run llama3.2`
5
첫 번째 실행 시 모델이 다운로드됩니다. 이후 실행은 캐시된 모델을 사용합니다.

Windows에서의 GPU 지원

Windows의 Ollama는 NVIDIA GPU(CUDA 11.3+)와 AMD GPU(ROCm 6+)를 자동으로 감지하여 사용합니다. NVIDIA RTX 카드가 있는 경우 Ollama가 자동으로 모델 레이어를 VRAM에 오프로드합니다 -- 수동 설정이 필요하지 않습니다. GPU가 사용되고 있는지 확인하려면 `ollama run llama3.2`를 실행한 후 작업 관리자 → GPU에서 활동을 확인하십시오.

Linux에서 Ollama를 어떻게 설치합니까?

단일 명령어로 모든 Linux 배포판에 Ollama를 설치합니다:

bash

curl -fsSL https://ollama.com/install.sh | sh

Linux에서 systemd 서비스로 Ollama 실행

설치 스크립트가 자동으로 Ollama를 systemd 서비스로 등록합니다. 관리 방법:

bash

# Check service status
systemctl status ollama

# Start / stop / restart
systemctl start ollama
systemctl stop ollama
systemctl restart ollama

# View logs
journalctl -u ollama -f

Linux에서 Ollama를 systemd 서비스로 실행하는 4단계 흐름: `curl -fsSL https://ollama.com/install.sh | sh`로 설치, `systemctl status ollama`로 상태 확인, `start`/`stop`/`restart`로 제어, `journalctl -u ollama -f`로 로그 실시간 확인.

Ollama에서 첫 번째 모델을 어떻게 다운로드하고 실행합니까?

Ollama를 설치한 후 이 명령어를 실행하여 모델을 다운로드하고 시작하십시오:

bash

# Pull a model (downloads to ~/.ollama/models)
ollama pull llama3.2

# Run it interactively
ollama run llama3.2

# Or pull and run in one step
ollama run llama3.2

처음에 어떤 모델로 시작해야 합니까?

첫 번째 실행을 위해 다양한 하드웨어 프로필을 다루는 세 가지 모델을 권장합니다:

Model	다운로드 크기	필요 RAM	적합 용도
Llama 3.2 3B	약 2 GB	4 GB	첫 테스트 -- 모든 기기
Llama 3.3 8B	약 4.7 GB	8 GB	대부분의 노트북에서 일반 사용
phi4-mini	약 2.3 GB	4 GB	빠른 응답, 낮은 RAM

Ollama가 작동하는지 어떻게 확인합니까?

REST API를 직접 테스트하여 Ollama가 실행 중이고 접근 가능한지 확인하십시오:

bash

# Check Ollama is running
curl http://localhost:11434
# Expected: "Ollama is running"

# List downloaded models
ollama list

# Send a prompt via API (OpenAI-compatible)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "What is 2+2?",
  "stream": false
}'

유용한 Ollama 명령어

명령어	기능
ollama list	다운로드된 모든 모델과 크기 표시
ollama pull <model>	실행하지 않고 모델 다운로드
ollama rm <model>	디스크에서 모델 삭제
ollama ps	현재 메모리에 로드된 모델 표시
ollama show <model>	모델 세부 정보 표시(파라미터, 템플릿, 라이선스)
ollama serve	Ollama 서버 수동 시작(서비스로 실행되지 않는 경우)

일반적인 Ollama 설치 문제 해결

Ollama 설치 시 흔한 5가지 오류 참조표 -- 서비스 미실행, 2-47GB 다운로드 멈춤, 메모리 부족 오류, GPU 미감지, 4096 토큰에서 프롬프트 잘림 -- 각각의 해결 명령 포함.

Ollama에서 "could not connect to ollama app, is it running?"이라고 표시됩니다

Ollama가 백그라운드 서비스로 실행되고 있지 않습니다. macOS에서는 응용 프로그램에서 Ollama 앱을 여십시오. Linux에서는 `systemctl start ollama` 또는 터미널에서 `ollama serve`를 실행하십시오. Windows에서는 시작 메뉴에서 Ollama를 실행하십시오.

모델 다운로드가 매우 느리거나 멈춥니다

모델 다운로드 크기가 큽니다(2~47 GB). 다운로드가 멈추면 Ctrl+C를 누르고 `ollama pull <model>`을 다시 실행하십시오 -- Ollama가 부분 다운로드를 재개합니다. 더 빠른 다운로드를 위해 Wi-Fi 대신 유선 연결을 사용하십시오.

모델 실행 시 "error: model requires more system memory"가 표시됩니다

모델이 사용 가능한 RAM보다 큽니다. 더 작은 양자화를 시도하십시오: 기본 Q4_K_M 대신 `ollama run llama3.2-instruct-q4_0`을 사용하십시오. 또는 `llama3.2:3b`와 같은 더 작은 모델로 전환하십시오. RAM에 맞는 권장 사항은 초보자를 위한 최고의 로컬 LLM 모델을 참조하십시오.

Ollama가 실행 중인데 GPU가 사용되지 않습니다

Windows에서는 NVIDIA 드라이버 버전이 452.39 이상인지 확인하십시오. Linux에서는 NVIDIA 컨테이너 툴킷이 설치되어 있는지 확인하십시오(`nvidia-smi`가 GPU 정보를 반환해야 합니다). Ollama는 VRAM이 사용 가능할 때 자동으로 레이어를 GPU에 오프로드합니다 -- 모델을 시작한 후 `ollama ps`를 실행하여 GPU 사용률을 확인하십시오.

Ollama 모델 파일은 어디에 저장됩니까?

모델은 macOS와 Linux에서 ~/.ollama/models에 저장됩니다. Windows에서 기본 경로는 C:\Users\<username>\.ollama\models입니다. 서비스 시작 전에 OLLAMA_MODELS 환경 변수를 설정하여 저장 위치를 변경할 수 있습니다.

Ollama 설치 후 무엇을 해야 합니까?

Ollama가 실행되면 다음 단계는 첫 번째 로컬 LLM 실행으로 프롬프팅, 컨텍스트 길이, 로컬 추론 속도에서 무엇을 기대할 수 있는지 이해하는 것입니다. 하드웨어에 적합한 최고의 모델을 선택하려면 초보자를 위한 최고의 로컬 LLM 모델을 참조하십시오. 터미널 대신 그래픽 채팅 인터페이스를 선호하는 경우 LM Studio 설치 방법에서 데스크톱 앱 대안을 다루고 있습니다.

출처

Ollama 공식 웹사이트 -- 설치 다운로드 및 공식 문서
Ollama GitHub 저장소 -- 소스 코드, 이슈 및 커뮤니티 토론
Ollama 모델 라이브러리 -- 다운로드 링크가 있는 사용 가능한 모델의 큐레이션된 컬렉션

Ollama 설치 시 일반적인 실수

API가 응답할 것을 기대하기 전에 Ollama가 백그라운드 서비스로 실행 중인지 확인하지 않는 것.
먼저 메모리 요구 사항을 확인하지 않고 사용 가능한 RAM보다 큰 모델을 실행하려는 것.
GPU 감지를 무시하는 것 -- Ollama는 NVIDIA와 AMD를 지원하지만 최신 드라이버가 필요합니다.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider’s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Download the PromptQuorum Beta →

← Back to Local LLMs

Ollama 설치: macOS, Windows & Linux 2분 설치 가이드

설치 전: 로컬 LLM이 귀하의 사용 사례에 적합합니까?

Ollama란 무엇이며 왜 사용합니까?

macOS에서 Ollama를 어떻게 설치합니까?

Homebrew로 macOS에 Ollama 설치

Windows에서 Ollama를 어떻게 설치합니까?

Windows에서의 GPU 지원

Linux에서 Ollama를 어떻게 설치합니까?

Linux에서 systemd 서비스로 Ollama 실행

Ollama에서 첫 번째 모델을 어떻게 다운로드하고 실행합니까?

처음에 어떤 모델로 시작해야 합니까?

Ollama가 작동하는지 어떻게 확인합니까?

유용한 Ollama 명령어

일반적인 Ollama 설치 문제 해결

Ollama에서 "could not connect to ollama app, is it running?"이라고 표시됩니다

모델 다운로드가 매우 느리거나 멈춥니다

모델 실행 시 "error: model requires more system memory"가 표시됩니다

Ollama가 실행 중인데 GPU가 사용되지 않습니다

Ollama 모델 파일은 어디에 저장됩니까?

Ollama 설치 후 무엇을 해야 합니까?

출처

Ollama 설치 시 일반적인 실수

관련 읽기

A Note on Third-Party Facts