Home/Local LLMs/Ollama 명령어 가이드: 모든 명령어 완전 해설 (2026)

Tools & Interfaces

Ollama 명령어 가이드: 모든 명령어 완전 해설 (2026)

Last updated: April 2026·11분 읽기·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Ollama는 명령줄 도구이며, 명령어를 이해하면 훨씬 강력하게 활용할 수 있습니다. 이 가이드에서는 핵심 명령어인 `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve`, 그리고 모델 양자화 및 커스텀 Modelfile과 같은 고급 옵션을 다룹니다.

Ollama는 명령줄 도구이며, 명령어를 이해하면 훨씬 강력하게 활용할 수 있습니다. 이 가이드에서는 핵심 명령어인 `ollama pull`, `ollama run`, `ollama list`, `ollama rm`, `ollama serve`, 그리고 모델 양자화 및 커스텀 Modelfile과 같은 고급 옵션을 다룹니다. 2026년 4월 기준으로 이 명령어들은 실제 사용 사례의 95%를 커버합니다.

Key Takeaways

`ollama pull <모델>` -- 모델을 다운로드합니다 (예: `ollama pull llama3.2:3b`).
`ollama run <모델>` -- 모델과 채팅을 시작합니다.
`ollama list` -- 다운로드된 모든 모델과 크기를 표시합니다.
`ollama rm <모델>` -- 다운로드된 모델을 삭제합니다.
`ollama serve` -- Ollama API 서버를 시작합니다 (Mac/Windows에서는 자동으로 실행됩니다).
`ollama create <이름> -f <modelfile>` -- Modelfile로 커스텀 모델을 빌드합니다.
2026년 4월 기준으로 이 명령어들은 안정적이며 모든 일반적인 사용 사례를 커버합니다.

Ollama의 필수 명령어는 무엇입니까?

`ollama list` -- 다운로드된 모델, 디스크 사용량, 수정 날짜를 표시합니다.
`ollama pull <모델>` -- 이름으로 모델을 다운로드합니다 (예: `ollama pull mistral`).
`ollama run <모델>` -- 모델과 채팅 세션을 시작합니다.
`ollama rm <모델>` -- 모델을 삭제하고 디스크 공간을 확보합니다.
`ollama serve` -- REST API 서버를 시작합니다 (일반적으로 자동 실행됩니다).
`ollama help` -- 사용 가능한 모든 명령어를 표시합니다.

Ollama에서 모델을 어떻게 관리합니까?

Ollama의 모델 관리는 전적으로 명령어 기반입니다:

bash

# 다운로드된 모든 모델 나열
ollama list

# Ollama 라이브러리에서 모델 다운로드
ollama pull llama3.2:3b       # 7비트 버전 (~2.5 GB)
ollama pull llama3.2:3b-fp16  # 전체 정밀도 (~6.5 GB)

# 특정 양자화 다운로드
ollama pull qwen2.5:7b-q4   # 4비트 양자화
ollama pull qwen2.5:7b-q8   # 8비트 양자화

# 디스크 사용량 확인
du -sh ~/.ollama/models

# 모델 삭제
ollama rm llama3.2:3b

# 커스텀 레지스트리에서 가져오기 (고급)
ollama pull localhost:5000/custom-model

모델을 어떻게 실행하고 서빙합니까?

Ollama를 사용하는 방법은 두 가지입니다:

bash

# 1. 대화형 채팅 (CLI)
ollama run llama3.2:3b
# 프롬프트를 입력하고 Enter를 누르세요

# 2. API 서버 시작 (백그라운드에서 실행)
ollama serve
# API는 http://localhost:11434/v1 에서 수신 대기

# 3. 다른 터미널에서 API로 모델 사용
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Modelfile로 커스텀 모델을 어떻게 만듭니까?

Modelfile은 기본 모델에서 시작하여 시스템 프롬프트, 파라미터, 가중치를 추가함으로써 커스텀 모델을 정의하는 설정 파일(Dockerfile과 유사)입니다.

bash

# Modelfile이라는 파일 생성
FROM llama3.2:3b

# 시스템 프롬프트 추가
SYSTEM """
You are a helpful expert in machine learning.
Always explain complex concepts in simple terms.
"""

# 파라미터 조정
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# 커스텀 모델 빌드
ollama create ml-expert -f Modelfile

# 사용
ollama run ml-expert

Ollama는 어떤 양자화 옵션을 지원합니까?

양자화는 더 낮은 정밀도의 숫자를 사용하여 모델 크기와 VRAM을 줄입니다. Ollama는 여러 양자화를 지원하는 GGUF 형식을 지원합니다:

Quantization	Size (7B)	VRAM	Quality	Speed
FP16 (전체 정밀도)	14 GB	16 GB	최고	가장 느림
Q8_0 (8비트)	7 GB	8 GB	매우 우수	빠름
Q6_K (6비트)	5.5 GB	6 GB	우수	빠름
Q5_K_M (5비트)	5 GB	5.5 GB	양호	매우 빠름
Q4_K_M (4비트)	4.7 GB	5 GB	양호	매우 빠름
Q3_K_M (3비트)	3.3 GB	4 GB	보통	가장 빠름

Ollama로 임베딩을 어떻게 생성합니까?

임베딩은 텍스트의 수치적 표현으로, RAG(Retrieval-Augmented Generation) 및 시맨틱 검색에 유용합니다.

bash

# 임베딩 모델 가져오기
ollama pull nomic-embed-text  # 영어에 최적, 1억 3700만 파라미터

# 임베딩 생성
curl http://localhost:11434/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nomic-embed-text",
    "input": "The quick brown fox jumps"
  }'

# 응답에는 768차원 벡터로서 임베딩이 포함됩니다

Ollama를 제어하는 환경 변수는 무엇입니까?

주요 환경 변수:

`OLLAMA_HOST` -- 수신 대기 주소 (기본값: 127.0.0.1:11434). 네트워크 접근을 위해 `0.0.0.0:11434`로 설정합니다.
`OLLAMA_MODELS` -- 모델 저장 위치 (기본값: `~/.ollama/models`).
`OLLAMA_DEBUG` -- 상세 로그를 보려면 `1`로 설정합니다.
`OLLAMA_GPU` -- 사용할 GPU (기본값: 자동 감지). `cuda` 또는 `rocm`으로 설정합니다.
`OLLAMA_KEEP_ALIVE` -- 모델을 메모리에 유지하는 시간 (기본값: 5분).

Ollama 명령어 사용 시 자주 하는 실수

모델 태그를 잊어버리는 경우. `ollama pull llama3.2`는 가장 큰 버전을 가져옵니다; `ollama pull llama3.2:3b`는 3B 버전을 가져옵니다.
`ollama serve`가 자동으로 실행된다는 것을 모르는 경우. Mac과 Windows에서는 앱을 실행할 때 Ollama가 API를 자동으로 시작합니다. Linux에서는 수동으로 시작해야 할 수도 있습니다.
잘못된 양자화를 가져오는 경우. VRAM 사용량을 제어하기 위해 항상 정확한 모델 태그(예: `qwen2.5:7b-q4`)를 지정합니다.
모델을 가져온 후 Ollama가 오프라인에서 작동할 것으로 예상하는 경우. Ollama 자체는 오프라인으로 작동하지만, 모델은 인터넷에 연결된 상태에서 가져와야 합니다.

Ollama 명령어에 관한 자주 묻는 질문

Ollama 모델은 어디에 저장됩니까?

기본값: macOS/Linux에서는 `~/.ollama/models`, Windows에서는 `%USERPROFILE%\.ollama\models`. 위치를 변경하려면 `OLLAMA_MODELS`를 설정합니다.

컴퓨터 간에 모델을 이동할 수 있습니까?

가능합니다. `~/.ollama/models`에서 다른 컴퓨터의 `~/.ollama/models`로 모델 파일을 복사하면 `ollama list`가 인식합니다.

활성 모델의 메모리 사용량은 어떻게 확인합니까?

`ollama ps`를 사용하여 현재 로드된 모델을 나열합니다. 기본적으로 비활성 상태가 5분 지속되면 모델이 언로드됩니다.

여러 모델을 동시에 실행할 수 있습니까?

가능하지만 VRAM을 공유합니다. 8B 모델 두 개를 실행하려면 16 GB VRAM이 필요합니다. 추가 모델마다 메모리 사용량이 증가합니다.

GGUF와 다른 모델 형식의 차이점은 무엇입니까?

GGUF는 양자화되어 효율적이며 CPU/GPU에서 실행됩니다. 로컬 LLM의 표준입니다. 다른 형식(safetensors, PyTorch .bin)은 더 많은 VRAM이 필요하며 로컬 추론에 최적화되어 있지 않습니다.

자체 애플리케이션에서 Ollama 모델을 어떻게 사용합니까?

`ollama serve`는 `localhost:11434`에서 OpenAI 호환 API를 시작합니다. 해당 URL을 가리키는 OpenAI SDK(Python, Node.js 등)를 사용하여 요청을 보내고 응답을 받을 수 있습니다.

출처

Ollama GitHub -- github.com/ollama/ollama
Ollama 문서 -- github.com/ollama/ollama/blob/main/docs
Ollama 모델 라이브러리 -- ollama.ai/library

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider’s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Ollama 명령어 가이드: 모든 명령어 완전 해설 (2026)

Ollama의 필수 명령어는 무엇입니까?

Ollama에서 모델을 어떻게 관리합니까?

모델을 어떻게 실행하고 서빙합니까?

Modelfile로 커스텀 모델을 어떻게 만듭니까?

Ollama는 어떤 양자화 옵션을 지원합니까?

Ollama로 임베딩을 어떻게 생성합니까?

Ollama를 제어하는 환경 변수는 무엇입니까?

Ollama 명령어 사용 시 자주 하는 실수

Ollama 명령어에 관한 자주 묻는 질문

Ollama 모델은 어디에 저장됩니까?

컴퓨터 간에 모델을 이동할 수 있습니까?

활성 모델의 메모리 사용량은 어떻게 확인합니까?

여러 모델을 동시에 실행할 수 있습니까?

GGUF와 다른 모델 형식의 차이점은 무엇입니까?

자체 애플리케이션에서 Ollama 모델을 어떻게 사용합니까?

관련 읽을거리

출처

A Note on Third-Party Facts