Key Takeaways
- ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ: ๋ ์์ ์์ํ(Q4_K_M โ Q3_K_S)๋ก ์ ํํ๊ฑฐ๋ ๋ ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค.
- NVIDIA GPU ๋ฏธ๊ฐ์ง: Linux์์ ๋๋ผ์ด๋ฒ๋ฅผ 525+๋ก, Windows์์ 452+๋ก ์ ๋ฐ์ดํธํ์ญ์์ค. `nvidia-smi`๋ก ํ์ธํ์ญ์์ค.
- ๊ทน๋๋ก ๋๋ฆฐ ์ถ๋ก : CPU ์ ์ฉ์ผ๋ก ์คํ ์ค์ ๋๋ค. `OLLAMA_GPU_LAYERS` ํ๊ฒฝ ๋ณ์๋ฅผ ์ฌ์ฉํ์ฌ Ollama์์ GPU ์คํ๋ก๋ฉ์ ํ์ฑํํ์ญ์์ค.
- ์ฐ๊ฒฐ ๊ฑฐ๋ถ: Ollama๊ฐ ์คํ ์ค์ด ์๋๋๋ค. `ollama serve`๋ก ์์ํ๊ฑฐ๋ ์๋น์ค๋ฅผ ์ฌ์์ํ์ญ์์ค.
- ๋น์ ์ ์ถ๋ ฅ: ์๋ชป๋ ํ๋กฌํํธ ํ ํ๋ฆฟ์ ๋๋ค. ๊ธฐ๋ณธ ๋ณํ์ด ์๋ Instruct ๋ณํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค.
์ค๋ฅ 1: "๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ" / OOM ์ถฉ๋
๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ ์ค๋ฅ๋ ๋ชจ๋ธ์ ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฒ๋ณด๋ค ๋ ๋ง์ RAM์ด ํ์ํ๋ค๋ ์๋ฏธ์ด์ง ํ๋์จ์ด ์ค๋ฅ๊ฐ ์๋๋๋ค. ์ฒ์ ์ฌ์ฉํ๋ ๋ถ๋ค์๊ฒ ๊ฐ์ฅ ํํ ์ค๋ฅ์ ๋๋ค. ์์ํ๊ฐ RAM ์๊ตฌ ์ฌํญ์ ์ค์ด๋ ๋ฐฉ๋ฒ์ ๋ํ ๋ฐฐ๊ฒฝ์ LLM ์์ํ ์ค๋ช ์ ์ฐธ๊ณ ํ์ญ์์ค.
- ์ฌ์ฉ ๊ฐ๋ฅํ RAM ํ์ธ: macOS/Linux์์ `free -h`๋ฅผ ์คํํ๊ฑฐ๋, Windows์์ ์์ ๊ด๋ฆฌ์ โ ์ฑ๋ฅ โ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ญ์์ค.
- ๋ ์์ ์์ํ๋ก ์ ํ: `Q8_0` ๋๋ `Q5_K_M`์ `Q4_K_M`์ผ๋ก ๊ต์ฒดํ์ญ์์ค. Ollama์์๋ `ollama run llama3.2-instruct-q4_K_M`์ ์คํํ์ญ์์ค.
- ๋ชจ๋ธ ๋ก๋ ์ ๋ฐฑ๊ทธ๋ผ์ด๋ ์ ํ๋ฆฌ์ผ์ด์ ์ข ๋ฃ โ ๋ธ๋ผ์ฐ์ ์ ๋ค๋ฅธ ์ฑ์ด RAM์ ์๋นํ์ฌ ๋ชจ๋ธ์์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ค์ ๋๋ค.
- ๋ ์์ ๋ชจ๋ธ๋ก ์ ํ: 8GB RAM์์ 8B ๋ชจ๋ธ์ด ์คํจํ๋ฉด `llama3.2:3b`๋ฅผ ์๋ํ์ญ์์ค (์ฝ 2.5GB๋ง ํ์).
Linux / macOS์์ ์ฌ์ฉ ๊ฐ๋ฅํ RAM ํ์ธ
# Linux
free -h
# macOS
vm_stat | grep "Pages free"
# macOS์์ ๋ ์ฝ๊ธฐ ์ฝ๊ฒ
top -l 1 | grep "PhysMem"์ค๋ฅ 2: GPU๊ฐ ์ฌ์ฉ๋์ง ์์ (CPU ์ ์ฉ ์คํ)
GPU๊ฐ ์ฌ์ฉ๋์ง ์์ผ๋ฉด LLM์ด ์์๋ณด๋ค 5~10๋ฐฐ ๋๋ฆฌ๊ฒ ์คํ๋ฉ๋๋ค โ ๋ฌด์๋ณด๋ค ๋จผ์ ๋๋ผ์ด๋ฒ ์ค์น๋ฅผ ํ์ธํ์ญ์์ค. GPU๊ฐ ์์คํ ์์ ์ธ์๋๋์ง ํ์ธํ์ญ์์ค:
# NVIDIA โ GPU ์ด๋ฆ๊ณผ ๋๋ผ์ด๋ฒ ๋ฒ์ ์ด ํ์๋์ด์ผ ํจ
nvidia-smi
# Linux์ AMD
rocm-smi
# macOS โ Metal ์ฌ์ฉ ๊ฐ๋ฅ ์ฌ๋ถ ํ์ธ
system_profiler SPDisplaysDataType | grep "Metal"Ollama์์ GPU๋ฅผ ํ์ฑํํ๋ ๋ฐฉ๋ฒ์?
- Linux์ NVIDIA: NVIDIA ๋๋ผ์ด๋ฒ 525+ ๋ฐ CUDA Toolkit 11.3+๋ฅผ ์ค์นํ์ญ์์ค. Ollama๋ ์ฌ์์ ์ CUDA๋ฅผ ์๋์ผ๋ก ๊ฐ์งํฉ๋๋ค.
- Windows์ NVIDIA: ๋๋ผ์ด๋ฒ ๋ฒ์ ์ด 452.39 ์ด์์ธ์ง ํ์ธํ์ญ์์ค. Ollama๋ Windows ์ค์น ํ๋ก๊ทธ๋จ์ ํตํด ์๋์ผ๋ก CUDA ์ง์์ ์ค์นํฉ๋๋ค.
- Linux์ AMD: ROCm 5.7+๋ฅผ ์ค์นํ์ญ์์ค. ๊ฐ์ง์ ์คํจํ๋ฉด RX 6000 ์๋ฆฌ์ฆ ์นด๋์ `HSA_OVERRIDE_GFX_VERSION=11.0.0`์ ์ค์ ํ์ญ์์ค.
- Apple Silicon: Ollama๋ ๊ธฐ๋ณธ์ ์ผ๋ก Metal์ ์ฌ์ฉํฉ๋๋ค โ ๋ณ๋ ์ค์ ์ด ํ์ํ์ง ์์ต๋๋ค. ๋ชจ๋ธ ๋ก๋ ํ `ollama ps`๋ก ํ์ธํ์ญ์์ค. ์ถ๋ ฅ์ GPU ๋ ์ด์ด๊ฐ ํ์๋ฉ๋๋ค.
์ค๋ฅ 3: ์ถ๋ก ์ด ๋งค์ฐ ๋๋ฆผ (์ด๋น 5 ํ ํฐ ๋ฏธ๋ง)
์ด๋น 5 ํ ํฐ ๋ฏธ๋ง์ ๋ชจ๋ธ์ด CPU ์ ์ฉ์ผ๋ก ์คํ ์ค์ด๊ฑฐ๋ ์ฌ์ฉ ๊ฐ๋ฅํ VRAM์ ๋นํด ๋ชจ๋ธ์ด ๋๋ฌด ํฌ๋ค๋ ์๋ฏธ์ ๋๋ค. GPU์์ 7B ๋ชจ๋ธ์ 30โ80 tok/s๋ฅผ ์์ฑํ๊ณ , ๋์ผํ ๋ชจ๋ธ์ด CPU์์๋ 3โ10 tok/s๋ฅผ ์์ฑํฉ๋๋ค.
- GPU ํ์ฑ ์ฌ๋ถ ํ์ธ: ๋ชจ๋ธ์ด ๋ก๋๋ ์ํ์์ `ollama ps`๋ฅผ ์คํํ์ญ์์ค. ์ถ๋ ฅ์ GPU ๋ CPU์ ๋ ์ด์ด ์๊ฐ ํ์๋ฉ๋๋ค.
- ๋ชจ๋ธ ํฌ๊ธฐ ์ค์ด๊ธฐ: CPU์์ 13B ๋ชจ๋ธ์ 3โ6 tok/s๋ฅผ ์์ฑํฉ๋๋ค. 7B๋ก ์ ํํ๋ฉด ์๋๊ฐ ๋ ๋ฐฐ, 3B๋ก ์ ํํ๋ฉด ๋ค ๋ฐฐ๊ฐ ๋ฉ๋๋ค.
- Ollama์์ GPU ๋ ์ด์ด ๋๋ฆฌ๊ธฐ: `OLLAMA_GPU_LAYERS=999`๋ฅผ ์ค์ ํ์ฌ ๋ชจ๋ ๋ ์ด์ด๋ฅผ GPU๋ก ๋ณด๋ด์ญ์์ค (Ollama๋ VRAM์ ๋ง๋ ์์ค์ผ๋ก ์ ํํฉ๋๋ค).
- ๋ ๋น ๋ฅธ ์์ํ ์ฌ์ฉ: Q4_K_M์ ํ์ฉ ๊ฐ๋ฅํ ํ์ง์ ์ ์งํ๋ ๊ฐ์ฅ ๋น ๋ฅธ ์์ํ์ ๋๋ค. Q8_0์ ํ์ง์ด ๋ ๋์ง๋ง ์ฝ 30% ๋๋ฆฝ๋๋ค.
Ollama์์ GPU ๋ ์ด์ด ์ค์
# Ollama ์์ ์ ํ๊ฒฝ ๋ณ์ ์ค์
export OLLAMA_GPU_LAYERS=999
ollama serve
# ๋๋ Modelfile์์
FROM llama3.1:8b
PARAMETER num_gpu 999์ค๋ฅ 4: API ํธ์ถ ์ "์ฐ๊ฒฐ ๊ฑฐ๋ถ"
์ฐ๊ฒฐ ๊ฑฐ๋ถ๋ Ollama๊ฐ ์คํ ์ค์ด ์๋์ ์๋ฏธํฉ๋๋ค โ `localhost:11434`์ API๋ ์๋น์ค๊ฐ ํ์ฑ ์ํ์ผ ๋๋ง ์๋ตํฉ๋๋ค. API ํธ์ถ ์ ์ ์๋ฒ๋ฅผ ์์ํ์ญ์์ค.
# Ollama ์๋ ์์
ollama serve
# Linux โ systemd ์๋น์ค ์ฌ์์
systemctl restart ollama
# ์คํ ์ค์ธ์ง ํ์ธ
curl http://localhost:11434
# ์์ ๊ฒฐ๊ณผ: "Ollama is running"์ค๋ฅ 5: "๋ชจ๋ธ์ ์ฐพ์ ์ ์์" ์ค๋ฅ
"๋ชจ๋ธ์ ์ฐพ์ ์ ์์"์ ๋ช ๋ น์ ๋ชจ๋ธ ์ด๋ฆ์ด ๋ค์ด๋ก๋๋ ๋ชจ๋ธ๊ณผ ์ผ์นํ์ง ์์์ ์๋ฏธํฉ๋๋ค. Ollama์ ๋ชจ๋ธ ์ด๋ฆ์ ๋์๋ฌธ์๋ฅผ ๊ตฌ๋ถํ๋ฉฐ ๋ฒ์ ํ๊ทธ๊ฐ ํฌํจ๋ฉ๋๋ค.
# ๋ค์ด๋ก๋๋ ๋ชจ๋ ๋ชจ๋ธ ๋์ด
ollama list
# ๋ชจ๋ธ์ด ์๋ ๊ฒฝ์ฐ ๊ฐ์ ธ์ค๊ธฐ
ollama pull llama3.2
# ์ ํํ ๋ชจ๋ธ ์ด๋ฆ ํ์ธ โ ํ๊ทธ๊ฐ ์ค์ํจ
# "llama3.2"์ "llama3.2:3b"๋ ๋ค๋ฅธ ํญ๋ชฉ์ค๋ฅ 6: ์์๋ ๋ชจ๋ธ ํ์ผ
์์๋ ๋ชจ๋ธ ํ์ผ์ ์ค๋จ๋ ๋ค์ด๋ก๋๋ก ์ธํด ๋ฐ์ํฉ๋๋ค โ ์ญ์ ํ ๋ค์ ๊ฐ์ ธ์์ ํด๊ฒฐํ์ญ์์ค. Ollama๊ฐ ํญ์ ๋ถ๋ถ ๋ค์ด๋ก๋๋ฅผ ์๋์ผ๋ก ๊ฐ์งํ์ง๋ ์์ต๋๋ค.
# ์์๋ ๋ชจ๋ธ ์ ๊ฑฐ
ollama rm llama3.2
# ๋ค์ ๊ฐ์ ธ์ค๊ธฐ
ollama pull llama3.2
# LM Studio์ ๊ฒฝ์ฐ: ๋ชจ๋ธ ํ์ผ์ ์๋์ผ๋ก ์ญ์
# ๊ธฐ๋ณธ ์์น: ~/.cache/lm-studio/models/์ค๋ฅ 6b: LM Studio์์ "๋ชจ๋ธ ํด์ ์คํจ"
"Failed to resolve model lmstudio-community/..."๋ LM Studio๊ฐ ๋ ์ง์คํธ๋ฆฌ์์ ๋ชจ๋ธ์ ์ฐพ์ ์ ์์์ ์๋ฏธํฉ๋๋ค. ์ด๋ Hugging Face์ `lmstudio-community`์์ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ์ง๋ง ๋ ์ง์คํธ๋ฆฌ ์ฐธ์กฐ๊ฐ ๋ณ๊ฒฝ๋ ๊ฒฝ์ฐ์ ๋ฐ์ํฉ๋๋ค. LM Studio๊ฐ ๋ ์ด์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ธ ํ์ผ๊ณผ ์ผ์นํ์ง ์๋ ์บ์๋ ๋ ์ง์คํธ๋ฆฌ ํญ๋ชฉ์ ์ฌ์ฉํ๊ณ ์์ต๋๋ค.
- LM Studio ์ด๊ธฐ โ My Models ํญ โ ์คํจํ ๋ชจ๋ธ์ ์ ์ธ ๊ฐ ๋ฉ๋ด ํด๋ฆญ โ "๋ชจ๋ธ ์ญ์ " ์ ํ (ํ์ผ์ ์ ์งํ๊ณ ๋ ์ง์คํธ๋ฆฌ์์๋ง ์ ๊ฑฐ)
- ๋ชจ๋ธ ๋ธ๋ผ์ฐ์ ์์ ๋์ผํ ๋ชจ๋ธ์ ๊ฒ์ํ์ฌ ๋ค์ ๋ค์ด๋ก๋ โ LM Studio๊ฐ ๋ค์ ๋ฑ๋กํฉ๋๋ค
- ๋์: LM Studio ์ข ๋ฃ โ `~/.cache/lm-studio/models/`๋ก ์ด๋ โ ํน์ ๋ชจ๋ธ ํด๋ ์ญ์ โ ๋ค์ ๋ค์ด๋ก๋
# LM Studio ๋ชจ๋ธ ์บ์ ์๋ ์ญ์ (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>์ค๋ฅ 7: CUDA / ROCm ์ด๊ธฐํ ์ค๋ฅ
CUDA ๋ฐ ROCm ์ค๋ฅ๋ ๋๋ผ์ด๋ฒ/๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฒ์ ๋ถ์ผ์น๋ฅผ ์๋ฏธํฉ๋๋ค โ ๋๋ผ์ด๋ฒ๋ฅผ ํ์ํ ์ต์ ๋ฒ์ ์ผ๋ก ์ ๋ฐ์ดํธํ์ญ์์ค.
- "CUDA ๋๋ผ์ด๋ฒ ๋ฒ์ ์ด ์ถฉ๋ถํ์ง ์์": NVIDIA ๋๋ผ์ด๋ฒ๋ฅผ ์ ๋ฐ์ดํธํ์ญ์์ค. llama.cpp์ ์ต์ ์๊ตฌ ์ฌํญ์ CUDA 11.3 / ๋๋ผ์ด๋ฒ 450.80์ ๋๋ค.
- "์คํ ๊ฐ๋ฅํ ์ปค๋ ์ด๋ฏธ์ง ์์": GPU ์ํคํ ์ฒ๊ฐ ์ง์๋์ง ์์ต๋๋ค. GTX 900 ์๋ฆฌ์ฆ(Maxwell) ์ดํ๋ ์ต์ CUDA ๋น๋์์ ์ง์๋์ง ์์ต๋๋ค.
- AMD ROCm "HSA_STATUS_ERROR_INVALID_ISA": Ollama ์์ ์ `HSA_OVERRIDE_GFX_VERSION=10.3.0`(RX 6000์ ๊ฒฝ์ฐ) ๋๋ `11.0.0`(RX 7000์ ๊ฒฝ์ฐ)์ ์ค์ ํ์ญ์์ค.
- CUDA ๋ฒ์ ํ์ธ: `nvcc --version` ๋๋ `nvidia-smi | grep CUDA`๋ฅผ ์คํํ์ญ์์ค.
์ค๋ฅ 8: ๋น์ ์, ๋ฐ๋ณต, ๋๋ ๋ฌด์๋ฏธํ ์ถ๋ ฅ
๋น์ ์ ์ถ๋ ฅ์ ๊ฑฐ์ ํญ์ Instruct/์ฑํ ๋ณํ ๋์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณ ์์์ ์๋ฏธํฉ๋๋ค. ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์ง๋ฌธ์ ๋ํ ๋ต๋ณ์ด ์๋ ์์ ํ ์คํธ ์์ฑ์ ์์ฑํฉ๋๋ค.
๊ธฐ๋ณธ ๋ชจ๋ธ(์: `llama3.1:8b`)์ ๋ํ์ฉ์ผ๋ก ํ์ธํ๋๋์ง ์์์ผ๋ฉฐ, ์ง๋ฌธ์ผ๋ก ํ๋กฌํํธํ๋ฉด ํก์ค์์ค์ฒ๋ผ ๋ณด์ด๋ ์์ ์์ฑ์ ์์ฑํฉ๋๋ค. ํญ์ Instruct ๋ณํ์ ์ฌ์ฉํ์ญ์์ค: `llama3.1:8b-instruct`. ๋ชจ๋ธ ๋ณํ์ ์ ํํ๋ GUI ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ LM Studio ์ค์น ๋ฐฉ๋ฒ์ ์ฐธ๊ณ ํ์ญ์์ค.
Ollama์์ ๋๋ถ๋ถ์ ๋ชจ๋ธ์ ๋ํ ๊ธฐ๋ณธ ํ๊ทธ๋ ์ด๋ฏธ Instruct ๋ณํ์ ๊ฐ๋ฆฌํต๋๋ค. Hugging Face์์ ์๋์ผ๋ก ๋ค์ด๋ก๋ํ ๊ฒฝ์ฐ ํ์ผ ์ด๋ฆ์ "Instruct" ๋๋ "chat"์ด ํฌํจ๋์ด ์๋์ง ํ์ธํ์ญ์์ค.
์ค๋ฅ 9: "์ฃผ์๊ฐ ์ด๋ฏธ ์ฌ์ฉ ์ค" โ ํฌํธ ์ถฉ๋
"์ฃผ์๊ฐ ์ด๋ฏธ ์ฌ์ฉ ์ค"์ ๋ค๋ฅธ ํ๋ก์ธ์ค๊ฐ ํฌํธ 11434(Ollama) ๋๋ 1234(LM Studio)๋ฅผ ์ ์ ํ๊ณ ์์์ ์๋ฏธํฉ๋๋ค. ์ถฉ๋ํ๋ ํ๋ก์ธ์ค๋ฅผ ์ฐพ์ ์ข ๋ฃํ์ญ์์ค.
# ํฌํธ 11434(Ollama)๋ฅผ ์ฌ์ฉ ์ค์ธ ํ๋ก์ธ์ค ์ฐพ๊ธฐ
lsof -i :11434
# PID๋ก ์ข
๋ฃ
kill -9 <PID>
# ๋๋ Ollama ํฌํธ ๋ณ๊ฒฝ
export OLLAMA_HOST=0.0.0.0:11435
ollama serve์ค๋ฅ 10: ์๋ต ๋์ค ๋ชจ๋ธ ์์ฑ ์ค๋จ
์๋ต ๋์ค ์ค๋จ์ ์ปจํ ์คํธ ๊ธธ์ด ํ๊ณ์ ๋๋ฌํ๊ฑฐ๋ `num_predict`๊ฐ ๋๋ฌด ๋ฎ๊ฒ ์ค์ ๋์ด ๋ฐ์ํฉ๋๋ค. ๋ง์ ์ค์ ์์ ๊ธฐ๋ณธ `num_predict`๋ 128 ํ ํฐ์ผ๋ก, 1~2 ๋ฌธ์ฅ์ ๋ถ๊ณผํฉ๋๋ค.
- num_predict ๋๋ฆฌ๊ธฐ: ์ด ๋งค๊ฐ๋ณ์๋ ์์ฑํ ์ต๋ ํ ํฐ ์๋ฅผ ์ค์ ํฉ๋๋ค. ๊ธฐ๋ณธ๊ฐ์ ์ข ์ข 128์ ๋๋ค. ๋๋ฆฌ๋ ๋ฐฉ๋ฒ: Ollama์์ Modelfile์ `PARAMETER num_predict 2048`์ ์ถ๊ฐํ์ญ์์ค.
- ์ปจํ ์คํธ ์ฐฝ ํ์ธ: ๋ํ๊ฐ ๋งค์ฐ ๊ธธ๋ฉด ๋ชจ๋ธ์ด ์ปจํ ์คํธ ํ๊ณ์ ๋๋ฌํ ์ ์์ต๋๋ค. ์ ์ธ์ ์ ์์ํ๊ฑฐ๋ ๋ ํฐ ์ปจํ ์คํธ ์ฐฝ์ ๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค (Llama 3.2 3B๋ 128K๋ฅผ ์ง์ํฉ๋๋ค).
- ์ค์ง ํ ํฐ ํ์ธ: ์ผ๋ถ Modelfile์๋ ์์ฑ์ ์ผ์ฐ ์ข ๋ฃํ๋ ์ค์ง ์ํ์ค๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. ์์์น ๋ชปํ ์ค์ง ํจํด์ ์ํด ์์คํ ํ๋กฌํํธ์ ํ ํ๋ฆฟ์ ํ์ธํ์ญ์์ค.
๊ด๋ จ ์๋ฃ
- LLM ์์ํ ์ค๋ช โ Q4_K_M์ด ๊ธฐ๋ณธ๊ฐ์ธ ์ด์ ์ ์์ํ๊ฐ RAM์ ๋ฏธ์น๋ ์ํฅ
- ๋ก์ปฌ LLM ํ๋์จ์ด ๊ฐ์ด๋ 2026 โ 7B~70B ๋ชจ๋ธ ์คํ์ ์ํ ํ๋์จ์ด ์๊ตฌ ์ฌํญ
- Ollama ์ค์น ๋ฐฉ๋ฒ โ ์ค์น ๋ฐ ์ค์ ๊ฐ์ด๋
- Ollama vs LM Studio โ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ๋ ๋ก์ปฌ LLM ๋๊ตฌ ๋น๊ต
- ๋ ธํธ๋ถ์์ ๋ก์ปฌ LLM ์คํํ๊ธฐ โ ๋ ธํธ๋ถ ํนํ ์ด ๋ฐ ๋ฐฐํฐ๋ฆฌ ์ต์ ํ
- ์ด๋ณด์๋ฅผ ์ํ ์ต๊ณ ์ ๋ก์ปฌ LLM ๋ชจ๋ธ โ 8GB RAM์ ๋ํ ๋ชจ๋ธ ์ถ์ฒ
- 2026๋ ์ฝ๋ฉ์ฉ ์ต๊ณ ์ ๋ก์ปฌ LLM โ Qwen3-Coder vs DeepSeek ๋ฒค์น๋งํฌ ๋น๊ต
์ถ๊ฐ ๋์ ๋ฐ๋ ๊ณณ
๋ ธํธ๋ถ์ ํ๋์จ์ด ํนํ ๋ฌธ์ (์ด ์ ํ, ๋ฐฐํฐ๋ฆฌ ์๋ชจ)๋ ๋ ธํธ๋ถ์์ ๋ก์ปฌ LLM ์คํํ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ์ญ์์ค. ๋ณด์ ๋ฐ ๊ฐ์ธ ์ ๋ณด ์ค์ ์ง๋ฌธ์ ๋ก์ปฌ LLM ๋ณด์ ๋ฐ ๊ฐ์ธ ์ ๋ณด ์ฒดํฌ๋ฆฌ์คํธ๋ฅผ ์ฐธ๊ณ ํ์ญ์์ค. Ollama GitHub ์ด์ ํ์ด์ง(github.com/ollama/ollama/issues)์ r/LocalLLaMA ์๋ธ๋ ๋ง์ ๋ชจ๋ธ๋ณ ๋ฒ๊ทธ์ ๋ํ ๊ฐ์ฅ ํ๋ฐํ ์ปค๋ฎค๋ํฐ ์์์ ๋๋ค.
๋ก์ปฌ LLM ๋ฌธ์ ํด๊ฒฐ์ ํํ ์ค์
- OOM ์ค๋ฅ๋ฅผ ํ๋์จ์ด ์ค๋ฅ๋ก ํผ๋ โ ์ด ์ค๋ฅ๋ ๋ชจ๋ธ์ ๋นํด RAM์ด ๋๋ฌด ์๋ค๋ ์๋ฏธ์ด์ง ํ๋์จ์ด๊ฐ ๊ณ ์ฅ๋ฌ๋ค๋ ๊ฒ ์๋๋๋ค. ํด๊ฒฐ์ฑ : Q4_K_M ์์ํ ๋๋ ๋ ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค.
- ์์คํ ๋ถํ ํ์ธ ๋ฏธํก โ ๋ค๋ฅธ ์ ํ๋ฆฌ์ผ์ด์ ์ด CPU/GPU๋ฅผ ์๋นํ ๋ ์ถ๋ก ์๋๊ฐ ํฌ๊ฒ ์ ํ๋ฉ๋๋ค. ๋ฒค์น๋งํฌ ์ ๋ธ๋ผ์ฐ์ , ๋น๋์ค ํ๋ ์ด์ด, ๋ฐฑ๊ทธ๋ผ์ด๋ ํ๋ก์ธ์ค๋ฅผ ์ข ๋ฃํ์ญ์์ค.
- ๋๋ผ์ด๋ฒ ๋ฒ์ ๋นํธํ์ฑ ๋ฌด์ โ NVIDIA CUDA๋ CUDA ๋ฆด๋ฆฌ์ค๋ณ๋ก ํน์ ๋๋ผ์ด๋ฒ ๋ฒ์ ์ด ํ์ํฉ๋๋ค. `nvidia-smi` ์ถ๋ ฅ์ ํ์ธํ์ญ์์ค. CUDA 11.x๋ฅผ ์ํ ๋๋ผ์ด๋ฒ ๋ฒ์ ์ โฅ450.80์ด์ด์ผ ํฉ๋๋ค.
- Ollama์์ ์๋ชป๋ ๋ชจ๋ธ ์ด๋ฆ ์ฌ์ฉ โ `llama3.2`์ `llama3.2:3b`๋ ๋ค๋ฅธ Ollama ํ๊ทธ์ ๋๋ค. `ollama list`๋ฅผ ์คํํ์ฌ ๋ค์ด๋ก๋๋ ๋ชจ๋ธ์ ์ ํํ ์ด๋ฆ์ ํ์ธํ์ญ์์ค.
- ๋๋ผ์ด๋ฒ ์ ๋ฐ์ดํธ ํ Ollama ์ฌ์์ ๋ฏธํก โ Ollama๋ ์์ ์ GPU๋ฅผ ๊ฐ์งํฉ๋๋ค. NVIDIA ๋๋ ROCm ๋๋ผ์ด๋ฒ๋ฅผ ์ ๋ฐ์ดํธํ ํ GPU๋ฅผ ๋ค์ ๊ฐ์งํ๋๋ก Ollama๋ฅผ ์์ ํ ์ฌ์์ํ์ญ์์ค (`ollama serve`).
์ถ์ฒ
- NVIDIA. (2024). "CUDA Toolkit Release Notes." https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/ โ ๋ฆด๋ฆฌ์ค๋ณ ๊ณต์ CUDA ๋๋ผ์ด๋ฒ ๋ฒ์ ์๊ตฌ ์ฌํญ.
- Ollama. (2026). "Ollama Troubleshooting." https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md โ ์ผ๋ฐ ์ค๋ฅ์ ๋ํ ๊ณต์ Ollama ๋ฌธ์.
- AMD. (2024). "ROCm Installation Guide." https://rocm.docs.amd.com/projects/install-on-linux/en/latest/ โ ๊ณต์ AMD ROCm ์ค์น ๋ฐ Linux GPU ์ง์.