Key Takeaways
- ๋ ๊ฐ์ง ๋ฐฉ๋ฒ: Ollama(CLI, ํค๋๋ฆฌ์ค, API ์ง์) ๋๋ LM Studio(GUI, CLI ๋ถํ์). ๋ ๋ฐฉ๋ฒ ๋ชจ๋ Qwen 3.6 27B๋ฅผ ๋ก์ปฌ์์ ์คํํฉ๋๋ค.
- ํ์ ์์ : Ollama์ ๊ธฐ๋ณธ๊ฐ์ `num_ctx 2048`์ ๋๋ค. ์ด๋ ๋๋ถ๋ถ์ ์ค์ ํ๋กฌํํธ๋ฅผ ์๋ผ๋ ๋๋ค. Modelfile ๋๋ API `num_ctx` ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด `num_ctx 32768`๋ก ์ค์ ํ์ญ์์ค.
- ํ๋์จ์ด: ์ต์ 16GB VRAM(RTX 4080). Apple Silicon M4 Pro(48GB) ๋๋ M5 Max(128GB)๋ EU ํธ์คํ ์ถ๋ก ์ ๊ถ์ฅ ์ต์ ์ ๋๋ค.
- GDPR: ๋ก์ปฌ์์ ์คํ๋๋ฉด ๋ฐ์ดํฐ๊ฐ ๊ธฐ๊ธฐ๋ฅผ ๋ฒ์ด๋์ง ์์ต๋๋ค. SCC๋ ์์ฒด ์ธํ๋ผ ์ ์ฑ ์ด์ธ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ณ์ฝ์ด ํ์ ์์ต๋๋ค.
- PromptQuorum ํตํฉ: PromptQuorum์ ๋ก์ปฌ ๋์คํจ์น ์ค์ ์์ `OLLAMA_BASE_URL=http://localhost:11434/v1`๊ณผ `LOCAL_LLM_MODEL=qwen3.6:27b`๋ฅผ ์ค์ ํ์ญ์์ค โ Anthropic API ์ค์ ๊ณผ๋ ๋ณ๋์ ๋๋ค.
2026๋ ์ Qwen์ ๋ก์ปฌ์์ ์คํํ๋ ์ด์
2026๋ ์ Qwen 3๋ฅผ ๋ก์ปฌ์์ ์คํํ๋ฉด HumanEval ๊ธฐ์ค 92.1%์ ๋ฌํ๋ ๋ชจ๋ธ์ ํ ํฐ๋น โฌ0์ ๋น์ฉ์ผ๋ก ์ด์ฉํ ์ ์์ต๋๋ค โ ์ฝ๋ฉ ์์ ์์ Claude Sonnet 4.6์ ๋น์ทํ๊ฑฐ๋ ์ด๋ฅผ ๋ฅ๊ฐํ๋ ์์ค์ ๋๋ค. ํ๋์จ์ด ๋น์ฉ์ด ์๊ฐ๋๋ฉด ๋ชจ๋ ํ๋กฌํํธ๊ฐ ๋ฌด๋ฃ์ ๋๋ค. ํ๋ฃจ 1,000๋ง ํ ํฐ์ ์์ฑํ๋ 5์ธ ๊ฐ๋ฐํ์ ๊ฒฝ์ฐ, ๋ก์ปฌ ์ถ๋ก ์ Claude Sonnet 4.6 API ๊ฐ๊ฒฉ ๋๋น ์ ~$900๋ฅผ ์ ๊ฐํฉ๋๋ค.
EU GDPR ์ค์๊ฐ ๋ ๋ฒ์งธ ์ด์ ์ ๋๋ค. GDPR ์ 44์กฐ๋ ์ 3๊ตญ์ผ๋ก์ ๋ฐ์ดํฐ ์ด์ ์ ์ ํํฉ๋๋ค. EU ํ๋์จ์ด์์ Qwen์ ๋ก์ปฌ๋ก ์คํํ๋ฉด ํ๋กฌํํธ, ์ฝ๋ ๋ฐ ๊ณ ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ธํ๋ผ๋ฅผ ๋ฒ์ด๋์ง ์์ต๋๋ค. ๋ฏธ๊ตญ ๋๋ ์ค๊ตญ ์ ๊ณต์ ์ฒด์์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ณ์ฝ์ด ํ์ ์์ผ๋ฉฐ, Schrems II ์ํ ํ๊ฐ๋ AI ๋ ์ด์ด์ ๋ํ ๊ฐ์ธ์ ๋ณด ์ํฅ ํ๊ฐ๋ ํ์ํ์ง ์์ต๋๋ค.
์ธ ๋ฒ์งธ ์ด์ ๋ ์ง์ฐ ์๊ฐ์ ๋๋ค. RTX 4090์์์ ๋ก์ปฌ ์ถ๋ก ์ ์ด๋น 35๊ฐ ์ด์์ ํ ํฐ์ ์์ฑํฉ๋๋ค โ ์งง์ ํ๋กฌํํธ์์๋ API ์๋ต ์๊ฐ๊ณผ ๋น์ทํ๋ฉฐ, ๊ธด ์์ฑ์์๋ ๋คํธ์ํฌ ์๋ณต ์ค๋ฒํค๋๊ฐ ์์ต๋๋ค.
Qwen 3.6 27B๋ฅผ ๋ก์ปฌ์์ ์คํํ๋ฉด ํ๋์จ์ด ์ดํ ํ ํฐ๋น ๋น์ฉ์ด โฌ0์ด๋ฉฐ, ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ EU ์ธํ๋ผ์ ์ ์ง๋๊ณ RTX 4090์์ ์ด๋น 35๊ฐ ์ด์์ ํ ํฐ์ ์ ๊ณตํฉ๋๋ค.
๋ก์ปฌ LLM์ AI ๋ชจ๋ธ์ด ์์ ์ ์ปดํจํฐ์์ ์คํ๋๋ค๋ ์๋ฏธ์ ๋๋ค. ๋ชจ๋ธ ํ์ผ(Qwen 3.6 27B์ ๊ฒฝ์ฐ ์ฝ 17GB)์ ๋ค์ด๋ก๋ํ๋ฉด ์ ๋ ฅํ๋ ๋ชจ๋ ํ๋กฌํํธ๊ฐ ์ฌ์ฉ์์ ๊ธฐ๊ธฐ์์ ์์ ํ ์ฒ๋ฆฌ๋ฉ๋๋ค โ ์ด๋ค ์๋ฒ์๋ ์ ์ก๋์ง ์์ต๋๋ค.
๐กTip: DeepSeek์ ๋ชจ๋ธ ๋ผ์ธ์ ์ ์์ฃผ ๋ณ๊ฒฝ๋ฉ๋๋ค. ๋ฐฐํฌ ์ ์ platform.deepseek.com์์ ํ์ฌ ๋ชจ๋ธ๋ช ๊ณผ ๊ฐ๊ฒฉ์ ํ์ธํ์ญ์์ค. ์์น๋ 2026๋ 5์ ๊ธฐ์ค์ผ๋ก ๊ณต๊ฐ์ ์ผ๋ก ์ด์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ํฉ๋๋ค.
Qwen ๋ชจ๋ธ ์ ํ
Qwen 3๋ ์ฌ๋ฌ ํฌ๊ธฐ๋ก ์ ๊ณต๋ฉ๋๋ค. VRAM๊ณผ ํ์ํ ํ์ง์ ๋ฐ๋ผ ์ ํํ์ญ์์ค. ๋ชจ๋ ํฌ๊ธฐ๋ Hugging Face(Qwen) ๋ฐ ๋ช ์์ ํ๊ทธ๋ฅผ ์ฌ์ฉํ๋ Ollama์์ ์ด์ฉํ ์ ์์ต๋๋ค.
| Model | VRAM | Tokens/sec (RTX 4090) | Best For |
|---|---|---|---|
| Qwen 3.6 27B Q4_K_M | 16 GB | ~35 | ํ๋ก๋์ ์ฝ๋ฉ, ๋ณต์กํ ์์ |
| Qwen 3.6 27B Q8_0 | 28 GB | ~20 | ์ต๊ณ ํ์ง, ๋์ผ GPU |
| Qwen 3 14B Q4_K_M | 9 GB | ~60 | 8โ12GB VRAM, ์ผ๋ฐ ์์ |
| Qwen 3 7B Q4_K_M | 5 GB | ~80 | ์ ์ฌ์ VRAM, ๋น ๋ฅธ ์์ฑ |
| Qwen 3 72B Q4_K_M | 42 GB | โ | ์ต๊ณ ํ์ง, Apple Silicon 96GB ์ด์ |
Q4_K_M์ ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ๊ถ์ฅ๋๋ ์์ํ ๋ฐฉ์์ผ๋ก ์ต๊ณ ์ ํ์ง ๋๋น ํฌ๊ธฐ ๋น์จ์ ์ ๊ณตํฉ๋๋ค. Q8_0์ VRAM ๋น์ฉ์ด ๋์ง๋ง ๋ ๋์ ํ์ง์ ์ ๊ณตํฉ๋๋ค. 27B ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ๋๋ก ๋ช ์์ ํ๊ทธ(qwen3๊ฐ ์๋ qwen3.6:27b)๋ฅผ ํญ์ ์ฌ์ฉํ์ญ์์ค.
ํ๋์จ์ด ์๊ตฌ์ฌํญ
- ์ต์์ฌ์(Qwen 3.6 27B): 16GB VRAM GPU โ RTX 4080, RTX 4070 Ti Super, ๋๋ RTX 3090
- ๊ถ์ฅ GPU: RTX 4090(24GB VRAM) โ Q4_K_M์ ์ด๋น 35 ํ ํฐ์ผ๋ก ์คํํ๋ฉฐ 8GB์ ์ฌ์ ๊ณต๊ฐ ํ๋ณด
- Apple Silicon M3/M4(ํ์ฌ): 48GB ํตํฉ ๋ฉ๋ชจ๋ฆฌ์ M3 Max ๋๋ M4 Pro โ ์กฐ์ฉํ๊ณ ์ ๋ ฅ ํจ์จ์ ์ด๋ฉฐ MLX๋ฅผ ํตํด ์ด๋น 40+ ํ ํฐ ์ฒ๋ฆฌ
- Mac Mini M4 Pro(48GB): ์๋งค๊ฐ ~โฌ1,599, ์ํ ํผ ํฉํฐ, EU ์ฌ๋ฌด์ค ๋ฐฐํฌ๋ฅผ ์ํ ์ต๊ณ TCO
- Apple Silicon M5 Pro(64GB): ์ฐจ์ธ๋, 307GB/s ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ โ ์์ ์ด๋น 50+ ํ ํฐ์ผ๋ก Qwen 3.6 27B ์คํ. Apple์ M4 ๋๋น LLM ํ๋กฌํํธ ์ฒ๋ฆฌ 4๋ฐฐ ํฅ์์ ์ฃผ์ฅ
- Apple Silicon M5 Max(128GB): 460โ614GB/s ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ โ ์ฌ์ ๊ณต๊ฐ์ ํ๋ณดํ๋ฉฐ Qwen 3 72B Q4_K_M์ ํธ์ํ๊ฒ ์คํ. 2026๋ ์ค๋ฐ Mac Studio ์ถ์ ์์ ; ํ์ฌ Mac Mini๋ M4 Pro ํ์ฌ
- RAM: GPU ์ถ๋ก ๊ณผ ํจ๊ป ์ต์ 32GB ์์คํ RAM; ์ ์ฒด ๊ฐ๋ฐ ํ๊ฒฝ๊ณผ ํจ๊ป 64GB ๊ถ์ฅ
- ์ ์ฅ๊ณต๊ฐ: Qwen 3.6 27B Q4_K_M์ ์ํด 20GB ์ฌ์ ๋์คํฌ ๊ณต๊ฐ(GGUF ํ์ผ ~17GB)
๐Note: Apple Silicon ํตํฉ ๋ฉ๋ชจ๋ฆฌ๋ CPU์ GPU๊ฐ ๊ณต์ ํฉ๋๋ค. 48GB ํตํฉ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฐ์ถ Mac์ OS ๋ฐ ๋ค๋ฅธ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํ ์ฌ์ ๊ณต๊ฐ์ ํ๋ณดํ๋ฉฐ Qwen 3.6 27B Q4_K_M์ ์คํํ ์ ์์ต๋๋ค. ์ด๋ก ์ธํด ๋จ์ผ ์ํ ๊ธฐ๊ธฐ์์ ๊ฐ์ฅ ์ค์ฉ์ ์ธ EU ํธ์คํ ์ถ๋ก ์ต์ ์ด ๋ฉ๋๋ค.
๐กTip: M5 Max(128GB)๋ Qwen 3 72B๊ฐ ํ๋ก๋์ ์๋๋ก ์คํ๋๋ ์ฒซ ๋ฒ์งธ Apple Silicon ๊ตฌ์ฑ์ ๋๋ค. ๋งค์ฐ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๊ฑฐ๋ EU ๊ท์ ์ํฌ๋ก๋์ ์ต๊ณ ํ์ง์ด ํ์ํ ๊ฒฝ์ฐ, M5 Max Mac Studio๊ฐ ๋จ์ผ ๊ธฐ๊ธฐ ๊ถ์ฅ์ฌํญ์ ๋๋ค.
Ollama ์ค์
Ollama๋ Qwen 3๋ฅผ ๋ก์ปฌ์์ ์คํํ๋ ๊ฐ์ฅ ๋น ๋ฅธ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ชจ๋ธ ๋ค์ด๋ก๋๋ฅผ ๊ด๋ฆฌํ๊ณ , localhost:11434์์ OpenAI ํธํ API๋ฅผ ์ ๊ณตํ๋ฉฐ, ์์ํ๋ฅผ ์๋์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ollama.com์์ ์ค์นํ์ญ์์ค.
- 1Ollama ์ค์น
Why it matters: Ollama๋ ๋ชจ๋ธ ๋ค์ด๋ก๋, GGUF ํ์์ ์ฒ๋ฆฌํ๊ณ OpenAI ํธํ ๋ก์ปฌ API๋ฅผ ์ ๊ณตํฉ๋๋ค. - 2๋ช ์์ ํ๊ทธ๋ก Qwen 3.6 27B ๋ชจ๋ธ ๋ค์ด๋ก๋
Why it matters: qwen3.6:27b๋ฅผ ๋ช ์์ ์ผ๋ก ์ฌ์ฉํ์ญ์์ค. ํ๊ทธ ์์ด `qwen3`๋ฅผ ์ฌ์ฉํ๋ฉด ๊ธฐ๋ณธ์ ์ผ๋ก 8B ๋ชจ๋ธ์ด ๋ค์ด๋ก๋๋ฉ๋๋ค โ ์ด ๊ฐ์ด๋๊ฐ ๋์์ผ๋ก ํ๋ 27B ๋ชจ๋ธ์ด ์๋๋๋ค. - 3์ฌ๋ฐ๋ฅธ ์ปจํ ์คํธ ๊ธธ์ด๋ก Modelfile ์์ฑ
Why it matters: ๊ธฐ๋ณธ num_ctx ๊ฐ์ธ 2048 ํ ํฐ์ ์ค์ ์ฝ๋ฉ ์์ ์ ๋๋ฌด ์์ต๋๋ค. 32768 ํ ํฐ์ ๋๋ถ๋ถ์ ํ์ผ๊ณผ ๋ํ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. - 4์ปค์คํ ๋ชจ๋ธ ๋น๋ ๋ฐ ์คํ
Why it matters: ํ์ฅ๋ ์ปจํ ์คํธ ์ฐฝ์ ๊ฐ์ง Qwen 3.6 27B ์ธ์คํด์ค๋ฅผ ์์ฑํฉ๋๋ค. ํ ์คํธ ํ๋กฌํํธ๋ก ํ์ธํ์ญ์์ค. - 5API ์๋ํฌ์ธํธ ํ ์คํธ
Why it matters: Ollama๋ localhost:11434/v1์์ OpenAI ํธํ API๋ฅผ ๋ ธ์ถํฉ๋๋ค. ์ด ์๋ํฌ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ LLM ํด๋ผ์ด์ธํธ, IDE ๋ฐ PromptQuorum์ ์ฐ๊ฒฐํ์ญ์์ค.
# 1๋จ๊ณ โ Ollama ์ค์น
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows โ https://ollama.com/download ์์ ๋ค์ด๋ก๋
# 2๋จ๊ณ โ Qwen 3.6 27B ๋ค์ด๋ก๋ (๋ช
์์ ํ๊ทธ ํ์)
ollama pull qwen3.6:27b
# Qwen 3.6 27B Q4_K_M (~17 GB) ๋ค์ด๋ก๋
# ์ฐธ๊ณ : ํ๊ทธ ์์ด 'ollama pull qwen3'๋ฅผ ์ฌ์ฉํ๋ฉด 8B ๋ชจ๋ธ์ด ๋ค์ด๋ก๋๋จ
# 3๋จ๊ณ โ ์ฌ๋ฐ๋ฅธ num_ctx๋ก Modelfile ์์ฑ
cat > Modelfile <<'EOF'
FROM qwen3.6:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF
# 4๋จ๊ณ โ ๋น๋ ๋ฐ ์คํ
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k
# ์์ ์ถ๋ ฅ (Qwen ์ ์ ์๋ ์):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
# return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.
# 5๋จ๊ณ โ API ํ
์คํธ
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32k",
"messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
}'โ ๏ธWarning: 3๋จ๊ณ๋ฅผ ๊ฑด๋๋ฐ์ง ๋ง์ญ์์ค. Ollama์ ๊ธฐ๋ณธ num_ctx๋ 2048 ํ ํฐ(์ฝ 1,500 ๋จ์ด)์ ๋๋ค. ์ด๋ ๋๋ถ๋ถ์ ์ค์ ์ฝ๋ฉ ์์ ์ ๋๋ฌด ์์ต๋๋ค. ๋๋ถ๋ถ์ ์ฝ๋ฉ ์์ (ํ์ผ ์ฝ๊ธฐ, ํจ์ ์ค๋ช , ํ ์คํธ ์์ฑ)์ 8,000โ32,000 ํ ํฐ์ ์ปจํ ์คํธ๊ฐ ํ์ํฉ๋๋ค. ์ด ์์ ์์ด๋ Qwen์ด ํ๋กฌํํธ๋ฅผ ์๋์ผ๋ก ์๋ผ๋ด์ด ์ ํ๋ ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค.
LM Studio ์ค์
LM Studio๋ CLI ๋ช ๋ น ์์ด ๋ก์ปฌ LLM์ ์คํํ ์ ์๋ GUI๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋น๊ธฐ์ ์ฌ์ฉ์๋ Windows ์ค์ ์ ๊ฒฝ์ฐ ๊ถ์ฅ๋๋ ๋ฐฉ๋ฒ์ ๋๋ค. lmstudio.ai์์ ๋ค์ด๋ก๋ํ์ญ์์ค.
- 1LM Studio ๋ค์ด๋ก๋ ๋ฐ ์ค์น
Why it matters: ๋ก์ปฌ LLM ์ถ๋ก ์ ์ํ ๋ฌด๋ฃ ํฌ๋ก์ค ํ๋ซํผ GUI. CLI ๋ถํ์. - 2Qwen 3 27B ๊ฒ์ ๋ฐ ๋ค์ด๋ก๋
Why it matters: LM Studio์ ๋ชจ๋ธ ๋ธ๋ผ์ฐ์ ๋ Hugging Face๋ฅผ ๊ฒ์ํฉ๋๋ค. "Qwen 3 27B"๋ฅผ ๊ฒ์ํ๊ณ 16GB VRAM์ ์ํ Q4_K_M GGUF ๋ณํ์ ์ ํํ์ญ์์ค. - 3LM Studio ์ค์ ์์ ์ปจํ ์คํธ ๊ธธ์ด ๊ตฌ์ฑ
Why it matters: Ollama์ ๋์ผํ num_ctx ๋ฌธ์ โ ๋ชจ๋ธ ๋ก๋ ์ ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์์ Context Length๋ฅผ 32768๋ก ๋ณ๊ฒฝํ์ญ์์ค. - 4๋ก์ปฌ ์๋ฒ ์์
Why it matters: LM Studio์ "Start Server"๋ localhost:1234์์ OpenAI ํธํ API๋ฅผ ์์ฑํฉ๋๋ค. ํด๋ผ์ด์ธํธ์ PromptQuorum์์ ์ด URL์ ์ฌ์ฉํ์ญ์์ค. - 5Claude Code ์ค์น(์ ํ์ฌํญ)
Why it matters: Claude Code๋ Claude๋ฅผ ๋ก์ปฌ์์ ์คํํ๊ธฐ ์ํ Anthropic์ CLI์ ๋๋ค. https://claude.com/claude-code ์์ ๋ค์ด๋ก๋ํ์ญ์์ค(๋ชจ๋ ํ๋ซํผ: macOS, Windows, Linux). - 6Claude Code Proxy ์ค์น
Why it matters: ๋ฌด๋ฃ Claude Code Proxy(OpenClaw ๊ธฐ๋ฐ)๋ Claude Code๋ฅผ ๋ก์ปฌ LLM์ ์ฐ๊ฒฐํฉ๋๋ค. ์คํ: `uv run python -m uvicorn server:app --host 0.0.0.0 --port 8082`. Windows์์๋: `uv run python -m uvicorn server:app --host 0.0.0.0 --port 8082`๋ก ์คํํ์ญ์์ค. - 7๋ก์ปฌ Qwen์ ์ฌ์ฉํ๋๋ก Claude Code ๊ตฌ์ฑ
Why it matters: Claude Code ์ค์ ์์ API ์๋ํฌ์ธํธ๋ฅผ http://localhost:8082๋ก ์ค์ ํ์ญ์์ค. Claude Code๋ ํ๋ก์๋ฅผ ํตํด LM Studio ์ธ์คํด์ค(localhost:1234)๋ก ์์ฒญ์ ๋ผ์ฐํ ํ์ฌ Qwen 3.6 27B๋ฅผ ์ฝ๋ฉ ์ด์์คํดํธ๋ก ์ฌ์ฉํ ์ ์๊ฒ ํฉ๋๋ค. ์ฝ๋๋ ์์ ํ ๋ก์ปฌ๋ก ์ ์ง๋ฉ๋๋ค.
// LM Studio ๋ก์ปฌ ์๋ฒ ๊ตฌ์ฑ (JSON ๋ด๋ณด๋ด๊ธฐ)
{
"model": "qwen3.6-27b-q4_k_m",
"server": {
"host": "localhost",
"port": 1234,
"cors": true
},
"inference": {
"context_length": 32768,
"temperature": 0.7,
"gpu_layers": -1
}
}PromptQuorum ์ฐ๊ฒฐ
PromptQuorum์ ์ฌ๋ฌ LLM์ ๊ฑธ์ณ ํ๋กฌํํธ๋ฅผ ๋ผ์ฐํ ํฉ๋๋ค. ๋ก์ปฌ Qwen ์ธ์คํด์ค๋ฅผ ๋์คํจ์น ๋์์ผ๋ก ์ฌ์ฉํ๋ ค๋ฉด PromptQuorum์ ๋ก์ปฌ LLM ์๋ํฌ์ธํธ๊ฐ Ollama ์๋ฒ๋ฅผ ๊ฐ๋ฆฌํค๋๋ก ๊ตฌ์ฑํ์ญ์์ค.
์ด๊ฒ์ Ollama(OpenAI ํธํ) ์๋ํฌ์ธํธ๋ก Claude์ ์ฌ์ฉ๋๋ Anthropic API ๊ตฌ์ฑ๊ณผ๋ ๋ณ๊ฐ์ ๋๋ค. ๋ ๊ฐ์ง๋ฅผ ๋์์ ํ์ฑํํ ์ ์์ผ๋ฉฐ, PromptQuorum์ ์์ ์ ํ๊ณผ ๋ฐ์ดํฐ ๋ฏผ๊ฐ๋์ ๋ฐ๋ผ ๋ผ์ฐํ ํฉ๋๋ค.
๋ก์ปฌ ๋์คํจ์น ์ค์ ์์ OLLAMA_BASE_URL์ http://localhost:11434/v1๋ก, LOCAL_LLM_MODEL์ qwen3.6:27b๋ก ์ค์ ํ์ฌ PromptQuorum์ ๋ก์ปฌ Qwen์ ์ฐ๊ฒฐํ์ญ์์ค.
# PromptQuorum ๋์คํจ์น ๊ตฌ์ฑ โ Ollama๋ฅผ ํตํ ๋ก์ปฌ Qwen
# .env ๋๋ PromptQuorum ์ค์ ํจ๋์์ ์ค์
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3.6:27b
# ๋ผ์ฐํ
๊ท์น ์์ (PromptQuorum ๋์คํจ์น):
# - task_type: code โ model: qwen3.6:27b (๋ก์ปฌ Ollama, GDPR ์์ )
# - task_type: analysis โ model: claude-sonnet-4-6 (Anthropic API, ๋ณ๋ ๊ตฌ์ฑ)
# - task_type: private โ model: qwen3.6:27b (๋ก์ปฌ Ollama, ํด๋ผ์ฐ๋ ์ ์ถ ์์)๋ฌธ์ ํด๊ฒฐ
- ๋ชจ๋ธ ์๋ต์ด ๋ฌธ์ฅ ์ค๊ฐ์ ์๋ฆผ: num_ctx๊ฐ ๋๋ฌด ๋ฎ์ต๋๋ค. `PARAMETER num_ctx 32768`๋ก Modelfile์ ์ฌ๊ตฌ์ฑํ๊ณ `ollama create`๋ก ๋ชจ๋ธ์ ๋ค์ ๋ง๋์ญ์์ค.
- CUDA ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ ์ค๋ฅ: ๋ชจ๋ธ์ด VRAM์ ๋ง์ง ์์ต๋๋ค. Qwen 3 14B Q4_K_M(~9GB VRAM)์ผ๋ก ์ ํํ๊ฑฐ๋ 27B์ Q3_K_S ์์ํ๋ฅผ ์๋ํ์ญ์์ค.
- Ollama API๊ฐ 404 ๋ฐํ: ๋ชจ๋ธ ์ด๋ฆ์ด ์ ํํ ์ผ์นํ๋์ง ํ์ธํ์ญ์์ค. `ollama list`๋ฅผ ์คํํ์ฌ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ธ์ ํ์ธํ์ญ์์ค. ํ์๋ ์ ํํ ์ด๋ฆ์ ์ฌ์ฉํ์ญ์์ค(์: `qwen3-32k`).
- ๋๋ฆฐ ์์ฑ ์๋(์ด๋น 5 ํ ํฐ ๋ฏธ๋ง): GPU ๋ ์ด์ด๊ฐ ์์ ํ ์คํ๋ก๋๋์ง ์์์ต๋๋ค. `ollama run qwen3-32k`๋ฅผ ์คํํ๊ณ `num_gpu_layers`๊ฐ ์ต๋ํ๋์ด ์๋์ง ํ์ธํ์ญ์์ค. GPU๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ ๋ค๋ฅธ ํ๋ก์ธ์ค๊ฐ ์คํ ์ค์ด์ง ์์์ง ํ์ธํ์ญ์์ค.
- LM Studio์์ "๋ชจ๋ธ ๋ก๋ ์คํจ" ํ์: VRAM์ด ๋ถ์กฑํฉ๋๋ค. Q4_K_M ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ 16384๋ก ์ค์ด๊ฑฐ๋ Qwen 3 14B๋ก ์ ํํ์ญ์์ค.
- PromptQuorum์์ ์ธ์ฆ ์ค๋ฅ ๋ฐํ: PromptQuorum์ ๋ก์ปฌ LLM ์ค์ ์์ `OLLAMA_BASE_URL=http://localhost:11434/v1`์ ์ค์ ํ์ญ์์ค. ์์์ ํค๊ฐ ํ์ํ ๊ฒฝ์ฐ ๋น์ด ์์ง ์์ ๋ฌธ์์ด์ ์ ๋ ฅํ์ญ์์ค โ Ollama๋ API ํค ์ธ์ฆ์ด ํ์ ์์ต๋๋ค.
- Ollama๊ฐ GPU ๋์ CPU ์ฌ์ฉ: NVIDIA์ ๊ฒฝ์ฐ: CUDA ๋๋ผ์ด๋ฒ๊ฐ ์ค์น๋์ด ์๋์ง ํ์ธํ์ญ์์ค(`nvidia-smi`์ GPU๊ฐ ํ์๋์ด์ผ ํฉ๋๋ค). Mac์ ๊ฒฝ์ฐ: Ollama๋ Metal์ ์๋์ผ๋ก ์ฌ์ฉํฉ๋๋ค โ ๊ตฌ์ฑ์ด ํ์ ์์ต๋๋ค. Metal์ด ํ์ฑํ๋์ง ์์ ๊ฒฝ์ฐ ollama.com์์ Ollama๋ฅผ ์ฌ์ค์นํ์ญ์์ค.
- ๋ชจ๋ธ ๋ค์ด๋ก๋๊ฐ ์ค๋จ๋๊ฑฐ๋ ์คํจ: ๋ํ ๋ชจ๋ธ(Qwen 3.6 27B ~17GB)์ ๋๋ฆฐ ์ฐ๊ฒฐ์์ ์๊ฐ ์ด๊ณผ๋ฉ๋๋ค. `ollama pull qwen3.6:27b`๋ฅผ ๋ค์ ์คํํ์ญ์์ค โ Ollama๋ ์ค๋จ๋ ์ง์ ์์ ์ฌ๊ฐํฉ๋๋ค. ๋๋ Hugging Face์์ GGUF๋ฅผ ์ง์ ๋ค์ด๋ก๋ํ๊ณ Modelfile FROM ์ ์์ ๋ก์ปฌ ๊ฒฝ๋ก์ ํจ๊ป `ollama create`๋ฅผ ์ฌ์ฉํ์ญ์์ค.
๐กTip: `ollama ps`๋ฅผ ์คํํ์ฌ ํ์ฌ VRAM์ ๋ก๋๋ ๋ชจ๋ธ๊ณผ ๊ฐ ๋ชจ๋ธ์ด ์๋นํ๋ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์ธํ์ญ์์ค. ๋ ํฐ ๋ชจ๋ธ๋ก ์ ํํ๊ธฐ ์ ์ `ollama stop qwen3-32k`๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ธ๋ก๋ํ์ญ์์ค.
์ ๋ ฅ ์๋น ๋ฐ TCO
ํ๋์จ์ด ๋น์ฉ์ ์ผํ์ฑ ํฌ์์ ๋๋ค. ์ ๊ธฐ๋ ์ง์์ ์ธ ๋น์ฉ์ ๋๋ค. ์ฌ๋ฐ๋ฅธ ํ๋์จ์ด ์ ํ์ ์ ๊ธฐ ์๊ธ, ์ฌ์ฉ ์๊ฐ, EU ๋ด ์ฌ๋ถ(2026๋ ๋ ์ผ์ ์ ๊ธฐ ์๊ธ์ ํ๊ท ~โฌ0.35/kWh์ธ ๋ฐ๋ฉด ๋ฏธ๊ตญ์ ~$0.13/kWh)์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.
RTX 4090 ์์คํ ์ ์ถ๋ก ๋ถํ ์ ์ฝ 450W๋ฅผ ์๋นํฉ๋๋ค. ๋ ์ผ ์ ๊ธฐ ์๊ธ์ผ๋ก ํ๋ฃจ 8์๊ฐ ์คํ: 0.45kW ร 8์๊ฐ ร โฌ0.35 ร 250 ๊ทผ๋ฌด์ผ = ์ฐ๊ฐ โฌ315์ ์ ๊ธฐ ์๊ธ. ํ๋์จ์ด ๋น์ฉ์ ์์ฑ ์์คํ ๊ธฐ์ค ~โฌ2,000โ2,500์ ๋๋ค.
Apple Silicon M5 Max Mac Studio๋ LLM ์ถ๋ก ๋ถํ ์ ์ฝ 40โ50W๋ฅผ ์๋นํฉ๋๋ค. ๋์ผ ์๋๋ฆฌ์ค: 0.05kW ร 8์๊ฐ ร โฌ0.35 ร 250์ผ = ์ฐ๊ฐ โฌ35์ ์ ๊ธฐ ์๊ธ. ํ๋์จ์ด ๋น์ฉ์ 128GB M5 Max Mac Studio ๊ธฐ์ค ~โฌ3,000โ4,000์ ๋๋ค.
๋จ์ผ ๊ฐ๋ฐ์ ๊ธฐ์ค ํ๋ฃจ 1,000๋ง ํ ํฐ์ Claude Sonnet 4.6 API์ ๋น๊ต: 1,000๋ง ํ ํฐ ร $3/100๋ง ร 250์ผ = ์ฐ๊ฐ $7,500.
| Option | Hardware | Electricity/year (EU) | API cost/year (10M tok/day) | Break-even |
|---|---|---|---|---|
| Claude Sonnet 4.6 API | โ | โ | $7,500 | โ |
| RTX 4090 ์์คํ + ๋ก์ปฌ Qwen | โฌ2,200 | โฌ315 | $0 | Claude ๋๋น ~4๊ฐ์ |
| Mac Mini M4 Pro (48GB) | โฌ1,599 | โฌ25 | $0 | Claude ๋๋น ~3๊ฐ์ |
| Mac Studio M5 Max (128GB) | ~โฌ3,500 | โฌ35 | $0 | Claude ๋๋น ~6๊ฐ์ |
โขImportant: ๋์ ์ ๊ธฐ ์๊ธ ์ง์ญ์ EU ํ์๊ฒ Mac Mini M4 Pro(48GB)๋ ์ต๊ณ ์ TCO๋ฅผ ์ ๊ณตํฉ๋๋ค: ํ๋์จ์ด์ ์ ๊ธฐ๋ฅผ ํฉ์ฐํ ๋น์ฉ์ด ๊ฐ์ฅ ๋ฎ์ผ๋ฉฐ, ์ค๊ณ์ GDPR ์ค์๋ฅผ ๋ณด์ฅํ๊ณ ์ฌ๋ฌด์ค ํ๊ฒฝ์์ ์กฐ์ฉํ๊ฒ ์๋ํฉ๋๋ค. Mac Studio M5 Max๋ Qwen 3 72B ํ์ง์ด ํ์ํ ํ์ ์ํ ์ ๊ทธ๋ ์ด๋ ๊ฒฝ๋ก์ ๋๋ค.
FAQ
Qwen 3๋ฅผ ๋ก์ปฌ์์ ์คํํ๊ธฐ ์ํ ์ต์ ํ๋์จ์ด๋ ๋ฌด์์ธ๊ฐ์?
Q4_K_M ์์ํ์ Qwen 3.6 27B์ ๊ฒฝ์ฐ: 16GB VRAM GPU โ RTX 4080 ๋๋ RTX 3090. Apple Silicon์ ๊ฒฝ์ฐ: 36GB ํตํฉ ๋ฉ๋ชจ๋ฆฌ์ M3 Pro ๋๋ 48GB์ M3 Max. ๋ ์์ Qwen 3 14B์ ๊ฒฝ์ฐ: 9GB VRAM(RTX 3080 ๋๋ RTX 4070). Qwen 3 7B๋ 5GB VRAM(GTX 1080 ์ด์)์์ ์คํ๋ฉ๋๋ค.
Ollama๊ฐ ํ๋กฌํํธ๋ฅผ ์๋ผ๋ด๋ ์ด์ ๋ ๋ฌด์์ธ๊ฐ์?
Ollama๋ ๊ธฐ๋ณธ๊ฐ์ผ๋ก num_ctx 2048 ํ ํฐ(~1,500 ๋จ์ด)์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๋๋ถ๋ถ์ ์ค์ ์ฝ๋ฉ ์์ ์ ๋๋ฌด ์์ต๋๋ค. Modelfile์์ num_ctx๋ฅผ ์ต์ 32768๋ก ์ค์ ํด์ผ ํฉ๋๋ค. `PARAMETER num_ctx 32768`๋ก Modelfile์ ๋ง๋ค๊ณ `ollama create qwen3-32k -f Modelfile`์ ์คํํ์ฌ ์ฌ๋ฐ๋ฅธ ์ปจํ ์คํธ ์ฐฝ์ ๊ฐ์ถ ๋ชจ๋ธ ์ธ์คํด์ค๋ฅผ ๋น๋ํ์ญ์์ค.
Qwen์ ๋ก์ปฌ์์ ์คํํ๋ฉด GDPR์ ์ค์ํ๋์?
๋ค โ ๋ก์ปฌ ์ถ๋ก ์ ๊ฐ๋ฅํ ๊ฐ์ฅ GDPR ์ค์์ ์ธ AI ์ํคํ ์ฒ์ ๋๋ค. Qwen์ด ์ฌ์ฉ์์ ํ๋์จ์ด์์ ์คํ๋๋ฉด ์ด๋ค ์ 3์์๊ฒ๋ ๋ฐ์ดํฐ๊ฐ ์ ์ก๋์ง ์์ต๋๋ค. ๋ฐ์ดํฐ ์ด์ ์ด ์๊ธฐ ๋๋ฌธ์ ๊ตญ์ ๋ฐ์ดํฐ ์ด์ ์ ๊ดํ GDPR ์ 44์กฐ ์ ํ์ด ์ ์ฉ๋์ง ์์ต๋๋ค. ๋ด๋ถ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ณ์ฝ์ด ์ ์ฉ๋์ง๋ง, AI ๋ ์ด์ด์ ๋ํ SCC๋ ์ ์ ์ฑ ๊ฒฐ์ ์ ํ์ํ์ง ์์ต๋๋ค.
Qwen 3๋ฅผ CPU๋ง์ผ๋ก ์คํํ ์ ์๋์?
๋ค, GPU ์๋ ์์คํ ์์ llama.cpp ๋๋ Ollama๋ฅผ ํตํด ๊ฐ๋ฅํฉ๋๋ค. CPU ์ถ๋ก ์ ์๋นํ ๋๋ฆฝ๋๋ค โ Qwen 3.6 27B์ ๊ฒฝ์ฐ ์ต์ CPU์์ ์ผ๋ฐ์ ์ผ๋ก ์ด๋น 1โ5 ํ ํฐ์ ๋๋ค. ํ๋ก๋์ ์ฌ์ฉ์ ๊ฒฝ์ฐ GPU ๋๋ Apple Silicon์ด ํ์ํฉ๋๋ค. ์ ์ฉ GPU๊ฐ ์๋ ๋ ธํธ๋ถ์์ ๊ฐ๋ ์ฌ์ฉํ๊ฑฐ๋ ํ ์คํธํ๋ ๊ฒฝ์ฐ CPU ์ถ๋ก ์ ์๋ํ์ง๋ง ์ค์๊ฐ ๋ํ์๋ ๋น์ค์ฉ์ ์ ๋๋ค.
Qwen์ ์ต์ ๋ฒ์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ ค๋ฉด ์ด๋ป๊ฒ ํ๋์?
`ollama pull qwen3.6:27b`๋ฅผ ๋ค์ ์คํํ์ญ์์ค. Ollama๋ ์ต์ ๋ฒ์ ์ด ์๋์ง ํ์ธํ๊ณ ๋ณ๊ฒฝ๋ ๋ ์ด์ด๋ง ๋ค์ด๋ก๋ํฉ๋๋ค. Modelfile์ ๋ค์ ๋ง๋ค ํ์๊ฐ ์์ต๋๋ค โ ๋ชจ๋ธ ํ๊ทธ(qwen3.6:27b)๋ ํญ์ ์ต์ 27B ๋ฆด๋ฆฌ์ค๋ฅผ ๊ฐ๋ฆฌํต๋๋ค. LM Studio์์๋ ๋ชจ๋ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ ๋ฐ์ดํธ๋ฅผ ํ์ธํ๊ณ ์ต์ GGUF ๋ฒ์ ์ด ์์ผ๋ฉด ์ฌ๋ค์ด๋ก๋ํ์ญ์์ค.
Claude Code์ ๋ก์ปฌ Qwen์ ํจ๊ป ์ฌ์ฉํ ์ ์๋์?
๋ค. Claude Code๋ Claude๋ฅผ ์ํ Anthropic์ ์ฝ๋ฉ CLI์ ๋๋ค. ๋ก์ปฌ Qwen 3.6 27B์ ํจ๊ป ์ฌ์ฉํ๋ ค๋ฉด ๋ฌด๋ฃ Claude Code Proxy๋ฅผ ์ค์นํ๊ณ LM Studio ์ธ์คํด์ค(localhost:1234)๋ฅผ ๊ฐ๋ฆฌํจ ๋ค์ Claude Code๊ฐ ํ๋ก์(localhost:8082)๋ฅผ ํตํด ์์ฒญ์ ๋ผ์ฐํ ํ๋๋ก ๊ตฌ์ฑํ์ญ์์ค. ์ฝ๋๋ ์์ ํ ๋ก์ปฌ๋ก ์ ์ง๋ฉ๋๋ค โ Anthropic API ํค๊ฐ ํ์ ์์ต๋๋ค.
๋ก์ปฌ Qwen๊ณผ ํจ๊ป Claude Code๋ฅผ ์ฌ์ฉํ๋ ค๋ฉด Anthropic API ํค๊ฐ ํ์ํ๊ฐ์?
์๋์. ํ๋ก์๋ฅผ ํตํด ๋ก์ปฌ LLM๊ณผ ํจ๊ป Claude Code๋ฅผ ์ฌ์ฉํ ๋๋ Anthropic API ํค๊ฐ ์ฌ์ฉ๋์ง ์์ต๋๋ค. ํ๋ก์๊ฐ Claude Code์ ์์ฒญ์ ๊ฐ๋ก์ฑ์ด LM Studio ์๋ฒ๋ก ๋ผ์ฐํ ํฉ๋๋ค. API ํค๋ ๋ณ๋ ฌ๋ก Anthropic์ Claude API๋ฅผ ๋ค๋ฅธ ์์ ์ ์ฌ์ฉํ๋ ค๋ ๊ฒฝ์ฐ์๋ง ํ์ํฉ๋๋ค.
Claude Code Proxy์ Ollama์ ์ฐจ์ด์ ์ ๋ฌด์์ธ๊ฐ์?
Ollama๋ ๋ชจ๋ธ ๋ค์ด๋ก๋, ์์ํ, ์ปจํ ์คํธ ๊ตฌ์ฑ์ ๊ด๋ฆฌํ๊ณ OpenAI ํธํ API(localhost:11434/v1)๋ฅผ ๋ ธ์ถํ๋ ๋ก์ปฌ LLM ๋ฐํ์์ ๋๋ค. Claude Code Proxy๋ Claude Code๋ฅผ ๋ก์ปฌ LLM(Ollama, LM Studio, ๋๋ llama.cpp)์ ์ฐ๊ฒฐํ๋ ๊ฒฝ๋ ๋ธ๋ฆฌ์ง์ ๋๋ค. ๋ ๊ฐ์ง๋ฅผ ๋์์ ์คํํ ์ ์์ต๋๋ค: Ollama๋ ๋ชจ๋ธ์ ์ฒ๋ฆฌํ๊ณ , ํ๋ก์๋ Claude Code ํด๋ผ์ด์ธํธ ์ฐ๊ฒฐ์ ์ฒ๋ฆฌํฉ๋๋ค. ๋๋ Ollama ๋์ LM Studio๋ฅผ ๋ฐํ์์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค โ ํ๋ก์๋ ๋ ๊ฐ์ง ๋ชจ๋์ ํธํ๋ฉ๋๋ค.
๋ก์ปฌ Qwen๊ณผ Claude Code๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด ์ถ๋ก ์๋์ ์ํฅ์ ๋ฏธ์น๋์?
ํฐ ์ํฅ ์์ต๋๋ค. ํ๋ก์๋ LM Studio ์ธ์คํด์ค์ ๊ฐ์ ๊ธฐ๊ธฐ์์ ์คํ๋๋ฏ๋ก ๋ฌด์ํ ์ ์๋ ์ง์ฐ(50ms ๋ฏธ๋ง)๋ง ์ถ๊ฐ๋ฉ๋๋ค. ์ถ๋ก ์๋๋ ํ๋ก์๊ฐ ์๋ GPU์ ๋ชจ๋ธ ์์ํ(Q4_K_M์ด ํ์ค)์ ์ํด ๊ฒฐ์ ๋ฉ๋๋ค. ์ฝ๋ ์์ฑ ์์ ์ ์ ์ฒด ์ถ๋ก ์๋ต ์๊ฐ์ ์ถ๋ ฅ ๊ธธ์ด์ ๋ฐ๋ผ RTX 4080์์ ์ผ๋ฐ์ ์ผ๋ก 20โ60์ด์ ๋๋ค.