Key Takeaways
- `ollama pull <๋ชจ๋ธ>` -- ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํฉ๋๋ค (์: `ollama pull llama3.2:3b`).
- `ollama run <๋ชจ๋ธ>` -- ๋ชจ๋ธ๊ณผ ์ฑํ ์ ์์ํฉ๋๋ค.
- `ollama list` -- ๋ค์ด๋ก๋๋ ๋ชจ๋ ๋ชจ๋ธ๊ณผ ํฌ๊ธฐ๋ฅผ ํ์ํฉ๋๋ค.
- `ollama rm <๋ชจ๋ธ>` -- ๋ค์ด๋ก๋๋ ๋ชจ๋ธ์ ์ญ์ ํฉ๋๋ค.
- `ollama serve` -- Ollama API ์๋ฒ๋ฅผ ์์ํฉ๋๋ค (Mac/Windows์์๋ ์๋์ผ๋ก ์คํ๋ฉ๋๋ค).
- `ollama create <์ด๋ฆ> -f <modelfile>` -- Modelfile๋ก ์ปค์คํ ๋ชจ๋ธ์ ๋น๋ํฉ๋๋ค.
- 2026๋ 4์ ๊ธฐ์ค์ผ๋ก ์ด ๋ช ๋ น์ด๋ค์ ์์ ์ ์ด๋ฉฐ ๋ชจ๋ ์ผ๋ฐ์ ์ธ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์ปค๋ฒํฉ๋๋ค.
Ollama์ ํ์ ๋ช ๋ น์ด๋ ๋ฌด์์ ๋๊น?
- `ollama list` -- ๋ค์ด๋ก๋๋ ๋ชจ๋ธ, ๋์คํฌ ์ฌ์ฉ๋, ์์ ๋ ์ง๋ฅผ ํ์ํฉ๋๋ค.
- `ollama pull <๋ชจ๋ธ>` -- ์ด๋ฆ์ผ๋ก ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํฉ๋๋ค (์: `ollama pull mistral`).
- `ollama run <๋ชจ๋ธ>` -- ๋ชจ๋ธ๊ณผ ์ฑํ ์ธ์ ์ ์์ํฉ๋๋ค.
- `ollama rm <๋ชจ๋ธ>` -- ๋ชจ๋ธ์ ์ญ์ ํ๊ณ ๋์คํฌ ๊ณต๊ฐ์ ํ๋ณดํฉ๋๋ค.
- `ollama serve` -- REST API ์๋ฒ๋ฅผ ์์ํฉ๋๋ค (์ผ๋ฐ์ ์ผ๋ก ์๋ ์คํ๋ฉ๋๋ค).
- `ollama help` -- ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ๋ช ๋ น์ด๋ฅผ ํ์ํฉ๋๋ค.
Ollama์์ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ๊ด๋ฆฌํฉ๋๊น?
Ollama์ ๋ชจ๋ธ ๊ด๋ฆฌ๋ ์ ์ ์ผ๋ก ๋ช ๋ น์ด ๊ธฐ๋ฐ์ ๋๋ค:
# ๋ค์ด๋ก๋๋ ๋ชจ๋ ๋ชจ๋ธ ๋์ด
ollama list
# Ollama ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ๋ชจ๋ธ ๋ค์ด๋ก๋
ollama pull llama3.2:3b # 7๋นํธ ๋ฒ์ (~2.5 GB)
ollama pull llama3.2:3b-fp16 # ์ ์ฒด ์ ๋ฐ๋ (~6.5 GB)
# ํน์ ์์ํ ๋ค์ด๋ก๋
ollama pull qwen2.5:7b-q4 # 4๋นํธ ์์ํ
ollama pull qwen2.5:7b-q8 # 8๋นํธ ์์ํ
# ๋์คํฌ ์ฌ์ฉ๋ ํ์ธ
du -sh ~/.ollama/models
# ๋ชจ๋ธ ์ญ์
ollama rm llama3.2:3b
# ์ปค์คํ
๋ ์ง์คํธ๋ฆฌ์์ ๊ฐ์ ธ์ค๊ธฐ (๊ณ ๊ธ)
ollama pull localhost:5000/custom-model๋ชจ๋ธ์ ์ด๋ป๊ฒ ์คํํ๊ณ ์๋นํฉ๋๊น?
Ollama๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง์ ๋๋ค:
# 1. ๋ํํ ์ฑํ
(CLI)
ollama run llama3.2:3b
# ํ๋กฌํํธ๋ฅผ ์
๋ ฅํ๊ณ Enter๋ฅผ ๋๋ฅด์ธ์
# 2. API ์๋ฒ ์์ (๋ฐฑ๊ทธ๋ผ์ด๋์์ ์คํ)
ollama serve
# API๋ http://localhost:11434/v1 ์์ ์์ ๋๊ธฐ
# 3. ๋ค๋ฅธ ํฐ๋ฏธ๋์์ API๋ก ๋ชจ๋ธ ์ฌ์ฉ
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "Hello"}]
}'Modelfile๋ก ์ปค์คํ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ๋ง๋ญ๋๊น?
Modelfile์ ๊ธฐ๋ณธ ๋ชจ๋ธ์์ ์์ํ์ฌ ์์คํ ํ๋กฌํํธ, ํ๋ผ๋ฏธํฐ, ๊ฐ์ค์น๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์ปค์คํ ๋ชจ๋ธ์ ์ ์ํ๋ ์ค์ ํ์ผ(Dockerfile๊ณผ ์ ์ฌ)์ ๋๋ค.
# Modelfile์ด๋ผ๋ ํ์ผ ์์ฑ
FROM llama3.2:3b
# ์์คํ
ํ๋กฌํํธ ์ถ๊ฐ
SYSTEM """
You are a helpful expert in machine learning.
Always explain complex concepts in simple terms.
"""
# ํ๋ผ๋ฏธํฐ ์กฐ์
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# ์ปค์คํ
๋ชจ๋ธ ๋น๋
ollama create ml-expert -f Modelfile
# ์ฌ์ฉ
ollama run ml-expertOllama๋ ์ด๋ค ์์ํ ์ต์ ์ ์ง์ํฉ๋๊น?
์์ํ๋ ๋ ๋ฎ์ ์ ๋ฐ๋์ ์ซ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ํฌ๊ธฐ์ VRAM์ ์ค์ ๋๋ค. Ollama๋ ์ฌ๋ฌ ์์ํ๋ฅผ ์ง์ํ๋ GGUF ํ์์ ์ง์ํฉ๋๋ค:
| Quantization | Size (7B) | VRAM | Quality | Speed |
|---|---|---|---|---|
| FP16 (์ ์ฒด ์ ๋ฐ๋) | 14 GB | 16 GB | ์ต๊ณ | ๊ฐ์ฅ ๋๋ฆผ |
| Q8_0 (8๋นํธ) | 7 GB | 8 GB | ๋งค์ฐ ์ฐ์ | ๋น ๋ฆ |
| Q6_K (6๋นํธ) | 5.5 GB | 6 GB | ์ฐ์ | ๋น ๋ฆ |
| Q5_K_M (5๋นํธ) | 5 GB | 5.5 GB | ์ํธ | ๋งค์ฐ ๋น ๋ฆ |
| Q4_K_M (4๋นํธ) | 4.7 GB | 5 GB | ์ํธ | ๋งค์ฐ ๋น ๋ฆ |
| Q3_K_M (3๋นํธ) | 3.3 GB | 4 GB | ๋ณดํต | ๊ฐ์ฅ ๋น ๋ฆ |
Ollama๋ก ์๋ฒ ๋ฉ์ ์ด๋ป๊ฒ ์์ฑํฉ๋๊น?
์๋ฒ ๋ฉ์ ํ ์คํธ์ ์์น์ ํํ์ผ๋ก, RAG(Retrieval-Augmented Generation) ๋ฐ ์๋งจํฑ ๊ฒ์์ ์ ์ฉํฉ๋๋ค.
# ์๋ฒ ๋ฉ ๋ชจ๋ธ ๊ฐ์ ธ์ค๊ธฐ
ollama pull nomic-embed-text # ์์ด์ ์ต์ , 1์ต 3700๋ง ํ๋ผ๋ฏธํฐ
# ์๋ฒ ๋ฉ ์์ฑ
curl http://localhost:11434/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "nomic-embed-text",
"input": "The quick brown fox jumps"
}'
# ์๋ต์๋ 768์ฐจ์ ๋ฒกํฐ๋ก์ ์๋ฒ ๋ฉ์ด ํฌํจ๋ฉ๋๋คOllama๋ฅผ ์ ์ดํ๋ ํ๊ฒฝ ๋ณ์๋ ๋ฌด์์ ๋๊น?
์ฃผ์ ํ๊ฒฝ ๋ณ์:
- `OLLAMA_HOST` -- ์์ ๋๊ธฐ ์ฃผ์ (๊ธฐ๋ณธ๊ฐ: 127.0.0.1:11434). ๋คํธ์ํฌ ์ ๊ทผ์ ์ํด `0.0.0.0:11434`๋ก ์ค์ ํฉ๋๋ค.
- `OLLAMA_MODELS` -- ๋ชจ๋ธ ์ ์ฅ ์์น (๊ธฐ๋ณธ๊ฐ: `~/.ollama/models`).
- `OLLAMA_DEBUG` -- ์์ธ ๋ก๊ทธ๋ฅผ ๋ณด๋ ค๋ฉด `1`๋ก ์ค์ ํฉ๋๋ค.
- `OLLAMA_GPU` -- ์ฌ์ฉํ GPU (๊ธฐ๋ณธ๊ฐ: ์๋ ๊ฐ์ง). `cuda` ๋๋ `rocm`์ผ๋ก ์ค์ ํฉ๋๋ค.
- `OLLAMA_KEEP_ALIVE` -- ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์งํ๋ ์๊ฐ (๊ธฐ๋ณธ๊ฐ: 5๋ถ).
Ollama ๋ช ๋ น์ด ์ฌ์ฉ ์ ์์ฃผ ํ๋ ์ค์
- ๋ชจ๋ธ ํ๊ทธ๋ฅผ ์์ด๋ฒ๋ฆฌ๋ ๊ฒฝ์ฐ. `ollama pull llama3.2`๋ ๊ฐ์ฅ ํฐ ๋ฒ์ ์ ๊ฐ์ ธ์ต๋๋ค; `ollama pull llama3.2:3b`๋ 3B ๋ฒ์ ์ ๊ฐ์ ธ์ต๋๋ค.
- `ollama serve`๊ฐ ์๋์ผ๋ก ์คํ๋๋ค๋ ๊ฒ์ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ. Mac๊ณผ Windows์์๋ ์ฑ์ ์คํํ ๋ Ollama๊ฐ API๋ฅผ ์๋์ผ๋ก ์์ํฉ๋๋ค. Linux์์๋ ์๋์ผ๋ก ์์ํด์ผ ํ ์๋ ์์ต๋๋ค.
- ์๋ชป๋ ์์ํ๋ฅผ ๊ฐ์ ธ์ค๋ ๊ฒฝ์ฐ. VRAM ์ฌ์ฉ๋์ ์ ์ดํ๊ธฐ ์ํด ํญ์ ์ ํํ ๋ชจ๋ธ ํ๊ทธ(์: `qwen2.5:7b-q4`)๋ฅผ ์ง์ ํฉ๋๋ค.
- ๋ชจ๋ธ์ ๊ฐ์ ธ์จ ํ Ollama๊ฐ ์คํ๋ผ์ธ์์ ์๋ํ ๊ฒ์ผ๋ก ์์ํ๋ ๊ฒฝ์ฐ. Ollama ์์ฒด๋ ์คํ๋ผ์ธ์ผ๋ก ์๋ํ์ง๋ง, ๋ชจ๋ธ์ ์ธํฐ๋ท์ ์ฐ๊ฒฐ๋ ์ํ์์ ๊ฐ์ ธ์์ผ ํฉ๋๋ค.
Ollama ๋ช ๋ น์ด์ ๊ดํ ์์ฃผ ๋ฌป๋ ์ง๋ฌธ
Ollama ๋ชจ๋ธ์ ์ด๋์ ์ ์ฅ๋ฉ๋๊น?
๊ธฐ๋ณธ๊ฐ: macOS/Linux์์๋ `~/.ollama/models`, Windows์์๋ `%USERPROFILE%\.ollama\models`. ์์น๋ฅผ ๋ณ๊ฒฝํ๋ ค๋ฉด `OLLAMA_MODELS`๋ฅผ ์ค์ ํฉ๋๋ค.
์ปดํจํฐ ๊ฐ์ ๋ชจ๋ธ์ ์ด๋ํ ์ ์์ต๋๊น?
๊ฐ๋ฅํฉ๋๋ค. `~/.ollama/models`์์ ๋ค๋ฅธ ์ปดํจํฐ์ `~/.ollama/models`๋ก ๋ชจ๋ธ ํ์ผ์ ๋ณต์ฌํ๋ฉด `ollama list`๊ฐ ์ธ์ํฉ๋๋ค.
ํ์ฑ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ด๋ป๊ฒ ํ์ธํฉ๋๊น?
`ollama ps`๋ฅผ ์ฌ์ฉํ์ฌ ํ์ฌ ๋ก๋๋ ๋ชจ๋ธ์ ๋์ดํฉ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ๋นํ์ฑ ์ํ๊ฐ 5๋ถ ์ง์๋๋ฉด ๋ชจ๋ธ์ด ์ธ๋ก๋๋ฉ๋๋ค.
์ฌ๋ฌ ๋ชจ๋ธ์ ๋์์ ์คํํ ์ ์์ต๋๊น?
๊ฐ๋ฅํ์ง๋ง VRAM์ ๊ณต์ ํฉ๋๋ค. 8B ๋ชจ๋ธ ๋ ๊ฐ๋ฅผ ์คํํ๋ ค๋ฉด 16 GB VRAM์ด ํ์ํฉ๋๋ค. ์ถ๊ฐ ๋ชจ๋ธ๋ง๋ค ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ฆ๊ฐํฉ๋๋ค.
GGUF์ ๋ค๋ฅธ ๋ชจ๋ธ ํ์์ ์ฐจ์ด์ ์ ๋ฌด์์ ๋๊น?
GGUF๋ ์์ํ๋์ด ํจ์จ์ ์ด๋ฉฐ CPU/GPU์์ ์คํ๋ฉ๋๋ค. ๋ก์ปฌ LLM์ ํ์ค์ ๋๋ค. ๋ค๋ฅธ ํ์(safetensors, PyTorch .bin)์ ๋ ๋ง์ VRAM์ด ํ์ํ๋ฉฐ ๋ก์ปฌ ์ถ๋ก ์ ์ต์ ํ๋์ด ์์ง ์์ต๋๋ค.
์์ฒด ์ ํ๋ฆฌ์ผ์ด์ ์์ Ollama ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ฌ์ฉํฉ๋๊น?
`ollama serve`๋ `localhost:11434`์์ OpenAI ํธํ API๋ฅผ ์์ํฉ๋๋ค. ํด๋น URL์ ๊ฐ๋ฆฌํค๋ OpenAI SDK(Python, Node.js ๋ฑ)๋ฅผ ์ฌ์ฉํ์ฌ ์์ฒญ์ ๋ณด๋ด๊ณ ์๋ต์ ๋ฐ์ ์ ์์ต๋๋ค.
์ถ์ฒ
- Ollama GitHub -- github.com/ollama/ollama
- Ollama ๋ฌธ์ -- github.com/ollama/ollama/blob/main/docs
- Ollama ๋ชจ๋ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ -- ollama.ai/library