Key Takeaways
- Qwen3 7B๋ 5.5 GB VRAM์์ ์คํ๋ฉ๋๋ค โ `ollama pull qwen2.5:7b` ๋ช ๋ น์ด ํ๋๋ก RTX 3060์์ ์ด๋น 57 ํ ํฐ ์๋๋ก ์คํํ ์ ์์ต๋๋ค.
- ์ธ ๊ฐ์ง ํ์ ํจ๋ฐ๋ฆฌ: Qwen3(๋ฒ์ฉ), Qwen3-Coder(์ฝ๋ฉ, 32B์์ HumanEval 92.7%), Qwen2-VL(๋น์ , ๋ก์ปฌ์์ ์ต๊ณ ์ CJK OCR).
- ๋ฐ์ง ์ํคํ ์ฒ = ์๋น์ ์นํ์ : DeepSeek์ 236B MoE ๋ชจ๋ธ(์ฝ 130 GB RAM ํ์)๊ณผ ๋ฌ๋ฆฌ, Qwen3 72B๋ ๋ ๊ฐ์ RTX 3090์์ 46 GB VRAM์ผ๋ก ์คํ๋ฉ๋๋ค.
- ๋ค์ดํฐ๋ธ ๋ค๊ตญ์ด: ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด, ์๋์ด, ๋ ์ผ์ด, ํ๋์ค์ด ๋ฐ 23๊ฐ ์ธ์ด๋ก ์ฌ์ ํ์ต โ Qwen3๋ CJK ์์ ์์ Llama 3.3์ ์ง์์ ์ผ๋ก ๋ฅ๊ฐํฉ๋๋ค.
- Q4_K_M์ด ์ ํฉํ ์์ํ: ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ์ต์ โ VRAM ์ฝ 55% ์ ๊ฐ, ๋ฒค์น๋งํฌ ํ์ง ์์ค 1% ๋ฏธ๋ง.
- ํ๋์จ์ด ๊ฒฐ์ : VRAM 12 GB โ 14B ๋ชจ๋ธ; 24 GB โ 32B; 48 GB ์ด์(GPU ๋ ๊ฐ ๋๋ Apple Silicon 64 GB) โ 72B.
Qwen3๋ ๋ฒ์ฉ(7Bโ72B), ์ฝ๋ฉ(Coder 7Bโ32B), ๋น์ (VL 7Bโ72B) ์ธ ๊ฐ์ง ๋ก์ปฌ ๋ฐฐํฌ ํ์ ํจ๋ฐ๋ฆฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ๋ชจ๋ Ollama ๋๋ LM Studio๋ฅผ ํตํด ์คํ ๊ฐ๋ฅํฉ๋๋ค.
๋ชจ๋ธ์ ๋ก์ปฌ์์ ์คํํ๋ค๋ ๊ฒ์ AI๊ฐ ํด๋ผ์ฐ๋ ์๋ฒ๊ฐ ์๋ ์ฌ๋ฌ๋ถ์ ์ปดํจํฐ์์ ์คํ๋๋ค๋ ์๋ฏธ์ ๋๋ค. ๋ฐ์ดํฐ๊ฐ ์ธ๋ถ๋ก ์ ์ก๋์ง ์์ผ๋ฉฐ, ํ๋์จ์ด ๊ตฌ์ ํ์๋ ํ ํฐ๋น ๋น์ฉ์ด ๋ฐ์ํ์ง ์์ต๋๋ค.
Qwen3 ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ ๊ฐ์
Qwen3 ํจ๋ฐ๋ฆฌ๋ ์ธ ๊ฐ์ง ์์ ์ ๋ค๋ฃน๋๋ค: ๋ฒ์ฉ ์ถ๋ก , ์ฝ๋ฉ, ๋น์ โ ๊ฐ๊ฐ 7B์์ 72B ํ๋ผ๋ฏธํฐ๊น์ง ๋ค์ํ ํฌ๊ธฐ ์ต์ ์ ์ ๊ณตํฉ๋๋ค. ๋ชจ๋ Alibaba์ Qwen ํ์ด Apache 2.0 ๋ผ์ด์ ์ค๋ก Hugging Face์ ๊ณต๊ฐํ ์คํ ์จ์ดํธ ๋ชจ๋ธ์ ๋๋ค.
๋จผ์ ํ์ ํจ๋ฐ๋ฆฌ๋ฅผ ์ ํํ ๋ค์ VRAM์ ๋ง๋ ํฌ๊ธฐ๋ฅผ ๊ณ ๋ฅด์ญ์์ค. ํ์ ํจ๋ฐ๋ฆฌ๋ฅผ ํผํฉํด ์ฌ์ฉํ๋ ๊ฒ๋ ์ผ๋ฐ์ ์ ๋๋ค: ์ฝ๋ ์์ฑ์๋ Qwen3-Coder 14B๋ฅผ, ๋ฌธ์ ์์ฝ์๋ Qwen3 7B๋ฅผ ์ฌ์ฉํ์ญ์์ค.
| ํ์ ํจ๋ฐ๋ฆฌ | ์ ๊ณต ํฌ๊ธฐ | ์ฃผ์ ์ฉ๋ | Ollama ํ๊ทธ ์ ๋์ฌ |
|---|---|---|---|
| Qwen3 | 7B, 14B, 32B, 72B | ๋ฒ์ฉ ์ถ๋ก , ์ค๊ตญ์ด/๋ค๊ตญ์ด ์์ , RAG | qwen2.5: |
| Qwen3-Coder | 7B, 14B, 32B | ์ฝ๋ ์์ฑ, ๋๋ฒ๊น , HumanEval, SWE-bench | qwen2.5-coder: |
| Qwen2-VL | 2B, 7B, 72B | ๋ฌธ์ OCR, ์ด๋ฏธ์ง Q&A, CJK ํ ์คํธ ์ถ์ถ | qwen2-vl: |
Qwen3(2026๋ 1๋ถ๊ธฐ ์ถ์)๋ ์ฌ๊ณ ๋ชจ๋ ๋ชจ๋ธ์ ์ถ๊ฐํ์ง๋ง 2026๋ 5์ ๊ธฐ์ค Qwen3์ ๋นํด GGUF ๋น๋๊ฐ ์ ๊ณ Ollama ์ง์ ๋ฒ์๊ฐ ์ข์ต๋๋ค. ์ด ๊ฐ์ด๋๋ ๊ฐ์ฅ ํญ๋์ ํ๋์จ์ด ์ง์๊ณผ ํ ์คํธ๋ ์์ํ๋ฅผ ๊ฐ์ถ Qwen3์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ๋ ๋์ ๋ชจ๋ธ ๋น๊ต๋ 2026๋ ์ต๊ณ ์ ๋ก์ปฌ LLM์ ์ฐธ์กฐํ์ญ์์ค.
๋ชจ๋ธ ํฌ๊ธฐ๋ณ ํ๋์จ์ด ์๊ตฌ์ฌํญ
๋จผ์ VRAM ํฐ์ด๋ฅผ ๊ฒฐ์ ํ ๋ค์, ์ ํฉํ ์ต๋ ํฌ๊ธฐ์ Qwen3 ๋ชจ๋ธ์ ์ ํํ์ญ์์ค. ์๋ ์์น๋ ๋ชจ๋ ํ์ค ์์ํ์ธ Q4_K_M์ ๊ธฐ์ค์ผ๋ก ํ๋ฉฐ, Ollama์ LM Studio์์ ์ต๊ณ ์ ํฌ๊ธฐ ๋๋น ํ์ง ๋น์จ์ ์ ๊ณตํฉ๋๋ค.
| ๋ชจ๋ธ | VRAM | ์ต์ GPU | Apple Silicon | ์๋ (RTX 3060) |
|---|---|---|---|---|
| Qwen3 7B Q4_K_M | 5.5 GB | RTX 3060 6 GB, RTX 4060 | M1/M2 8 GB | ~57 tok/s |
| Qwen3-Coder 7B Q4_K_M | 5.5 GB | RTX 3060 6 GB, RTX 4060 | M1/M2 8 GB | ~55 tok/s |
| Qwen2-VL 7B Q4_K_M | 6.2 GB | RTX 3060 8 GB, RTX 4060 | M1/M2 16 GB | โ |
| Qwen3 14B Q4_K_M | 9.5 GB | RTX 4070 12 GB | M2 Pro 16 GB | โ |
| Qwen3-Coder 14B Q4_K_M | 9.5 GB | RTX 4070 12 GB | M2 Pro 16 GB | โ |
| Qwen3 32B Q4_K_M | 20.5 GB | RTX 3090 24 GB | M3 Max 48 GB | โ |
| Qwen3-Coder 32B Q4_K_M | 20.5 GB | RTX 3090 24 GB | M3 Max 48 GB | โ |
| Qwen3 72B Q4_K_M | 46 GB | 2ร RTX 3090 (48 GB) | M2 Ultra 64 GB | โ |
VRAM ์์น๋ Ollama ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ Q4_K_M GGUF ํ์ผ ๊ธฐ์ค์ ๋๋ค. 4K ์ปจํ ์คํธ์์ KV ์บ์๋ฅผ ์ํด 1โ2 GB๋ฅผ ์ถ๊ฐํ์ญ์์ค. GPU VRAM์ด ๋ชจ๋ธ ์๊ตฌ๋๋ณด๋ค ๋ถ์กฑํ ๊ฒฝ์ฐ Ollama๊ฐ ์๋์ผ๋ก ๋ ์ด์ด๋ฅผ ์์คํ RAM์ผ๋ก ์คํ๋ก๋ํฉ๋๋ค โ ๋์ํ์ง๋ง ์๋๊ฐ ํฌ๊ฒ ์ ํ๋ฉ๋๋ค.
Ollama๋ก ์ค์ ํ๊ธฐ
Ollama๋ Qwen3 ๋ชจ๋ธ์ ๋ก์ปฌ์์ ์คํํ๋ ๊ฐ์ฅ ๋น ๋ฅธ ๋ฐฉ๋ฒ์ ๋๋ค โ ๋ณ๋ ์ค์ ์์ด ๋ชจ๋ธ ๋ค์ด๋ก๋, GGUF ์์ํ ์ฒ๋ฆฌ, `localhost:11434`์ ๋ก์ปฌ API๋ฅผ ์๋์ผ๋ก ๊ด๋ฆฌํฉ๋๋ค. ollama.com์์ ์ค์นํ์ญ์์ค. Ollama๋ฅผ ์ฒ์ ์ฌ์ฉํ์ ๋ค๋ฉด ๋จผ์ Ollama ์ค์น ๋ฐฉ๋ฒ์ ์ฝ์ด๋ณด์ญ์์ค.
- 1Ollama ์ค์น
Why it matters: macOS, Linux(ํ ์ค ์ค์น), Windows์์ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค. GPU ๋๋ผ์ด๋ฒ๋ฅผ ๋ณ๋๋ก ์ค์ ํ ํ์๊ฐ ์์ต๋๋ค โ Ollama๊ฐ CUDA, ROCm, Metal์ ์๋์ผ๋ก ๊ฐ์งํฉ๋๋ค. - 2๋ช ์์ ํฌ๊ธฐ ํ๊ทธ๋ก ๋ชจ๋ธ Pull
Why it matters: ํญ์ ํฌ๊ธฐ๋ฅผ ๋ช ์ํ์ญ์์ค: `qwen2.5:7b`, `qwen2.5:14b`, `qwen2.5:32b`. ํ๊ทธ ์๋ `qwen2.5`๋ 7B ๋ชจ๋ธ๋ก ํด์๋์ง๋ง Ollama ๋ฆด๋ฆฌ์ฆ ๊ฐ์ ๋ณ๊ฒฝ๋ ์ ์์ต๋๋ค. - 3๋ชจ๋ธ ์คํ
Why it matters: `ollama run qwen2.5:7b`๋ฅผ ์คํํ๋ฉด ๋ํํ ์ฑํ ์ด ์์๋ฉ๋๋ค. ํ๋กฌํํธ๋ฅผ ์ ๋ ฅํ๊ณ Enter๋ฅผ ๋๋ฅด์ญ์์ค. `/bye`๋ก ์ข ๋ฃํฉ๋๋ค. - 4ํ์ ์ ์ปจํ ์คํธ ์ฐฝ ์ค์
Why it matters: Qwen3๋ Ollama์์ ๊ธฐ๋ณธ์ ์ผ๋ก 32K ์ปจํ ์คํธ๋ฅผ ์ง์ํฉ๋๋ค. 7B ๋ชจ๋ธ์์ 128K ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํ๋ ค๋ฉด `ollama run qwen2.5:7b --num-ctx 131072`๋ฅผ ์คํํ์ญ์์ค. ๊ธด ์ปจํ ์คํธ์๋ VRAM์ด ์ถ๊ฐ๋ก 2โ4 GB ํ์ํฉ๋๋ค. - 5API ์๋ํฌ์ธํธ ํ ์คํธ
Why it matters: Ollama๋ OpenAI ํธํ API๋ฅผ ์ ๊ณตํฉ๋๋ค. PromptQuorum, Continue.dev, Open WebUI ๊ฐ์ ์ ํ๋ฆฌ์ผ์ด์ ์ด `http://localhost:11434/v1`์ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
# Install Ollama (Linux)
curl -fsSL https://ollama.com/install.sh | sh
# macOS: download the .dmg from ollama.com or:
brew install ollama
# Pull models โ use explicit tags
ollama pull qwen2.5:7b # general 7B (~5.5 GB)
ollama pull qwen2.5:14b # general 14B (~9.5 GB)
ollama pull qwen2.5:32b # general 32B (~20.5 GB)
ollama pull qwen2.5-coder:32b # coding 32B (~20.5 GB)
ollama pull qwen2-vl:7b # vision 7B (~6.2 GB)
# Run interactively
ollama run qwen2.5:7b
# Test the OpenAI-compatible API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"Hello"}]}'LM Studio๋ก ์ค์ ํ๊ธฐ
LM Studio๋ ํฐ๋ฏธ๋ ๋ช ๋ น์ด ์์ด Qwen3๋ฅผ ์ํ GUI ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณตํฉ๋๋ค. lmstudio.ai์์ ๋ค์ด๋ก๋ํ๊ฑฐ๋ LM Studio ์ค์น ๋ฐฉ๋ฒ์ ์ฐธ์กฐํ์ญ์์ค. macOS, Windows, Linux์์ ์คํ๋ฉ๋๋ค.
- 1๋ชจ๋ธ ๋ธ๋ผ์ฐ์ ์ด๊ธฐ
Why it matters: "Qwen3" ๋๋ "Qwen Coder"๋ฅผ ๊ฒ์ํ์ฌ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ GGUF ๋น๋๋ฅผ ํ์ํ์ญ์์ค. ๊ถ์ฅ ํ์ง/ํฌ๊ธฐ ๋น์จ์ ์ํด Q4_K_M์ผ๋ก ํํฐ๋งํ์ญ์์ค. - 2GGUF ๋น๋ ๋ค์ด๋ก๋
Why it matters: Q4_K_M ๋ณํ์ ์ ํํ์ญ์์ค. LM Studio๋ ๋ค์ด๋ก๋ ์ ์ ํ์ผ ํฌ๊ธฐ๋ฅผ ํ์ํฉ๋๋ค โ ๋ณด์ ํ VRAM๊ณผ ์ผ์นํ๋์ง ํ์ธํ์ญ์์ค. - 3๋ชจ๋ธ ๋ก๋ ํ ์ฑํ ์์
Why it matters: ์ผ์ชฝ ์ฌ์ด๋๋ฐ์์ ๋ชจ๋ธ์ ํด๋ฆญํ์ฌ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํ์ญ์์ค. GPU ๋ ์ด์ด ํ ๋น์ ๊ฐ์ง๋ VRAM์ ๊ธฐ์ค์ผ๋ก ์๋์ผ๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค. - 4๋ก์ปฌ ์๋ฒ ์์
Why it matters: "Start Server"๋ฅผ ํด๋ฆญํ๋ฉด `localhost:1234`์ OpenAI ํธํ ์๋ํฌ์ธํธ๊ฐ ์ด๋ฆฝ๋๋ค. ์ฑ๊ณผ ์คํฌ๋ฆฝํธ๊ฐ OpenAI API์ฒ๋ผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ํ: ์ด๋ค ํ์์ ์ ํํ ๊น
Q4_K_M์ด ์๋น์ ํ๋์จ์ด์์ Qwen3๋ฅผ ์ํ ์ฌ๋ฐ๋ฅธ ๊ธฐ๋ณธ๊ฐ์ ๋๋ค. MMLU์ HumanEval์์ 1% ๋ฏธ๋ง์ ๋ฒค์น๋งํฌ ์ ํ๋ก FP16 ๋๋น VRAM์ ์ฝ 55โ60% ์ค์ ๋๋ค. ๋ค๋ฅธ ํ์์๋ ํน์ ์ฌ์ฉ ์ฌ๋ก๊ฐ ์์ต๋๋ค:
Q4_K_M์ ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ์ต๊ณ ์ Qwen3 ์์ํ์ ๋๋ค: FP16 ๋๋น VRAM์ 55% ์ ๊ฐํ๋ฉด์ ํ์ง ์์ค์ด 1% ๋ฏธ๋ง์ ๋๋ค.
์์ํ๋ ๋ชจ๋ธ ์์น๋ฅผ 16๋นํธ์์ 4๋นํธ๋ก ์์ถํ์ฌ ํ์ผ ํฌ๊ธฐ์ ํ์ํ VRAM์ ๋๋ต ์ ๋ฐ์ผ๋ก ์ค์ ๋๋ค. TIFF ์ด๋ฏธ์ง๋ฅผ ๊ณ ํ์ง JPEG๋ก ์ ์ฅํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค โ ํ์ผ์ด ์์์ง์ง๋ง ๋๋ถ๋ถ์ ์ฉ๋์์ ๊ฒฐ๊ณผ๋ ๊ฑฐ์ ๋์ผํฉ๋๋ค.
- Q4_K_M (๊ถ์ฅ): 7B ๊ธฐ์ค ์ฝ 5.5 GB. ์ต๊ณ ์ GB๋น ํ์ง ๋น์จ. ์ด๊ฒ์ ๋จผ์ ์ฌ์ฉํ์ญ์์ค.
- Q8_0: 7B ๊ธฐ์ค ์ฝ 8.5 GB. FP16์ ๊ฐ๊น์ด ํ์ง. ์ฌ์ VRAM์ด ์๊ณ ์ต๋ ์ ํ๋๋ฅผ ์ํ ๋ ์ฌ์ฉํ์ญ์์ค.
- Q5_K_M: 7B ๊ธฐ์ค ์ฝ 6.5 GB. Q4_K_M ๋๋น ๋ฏธ๋ฏธํ ๊ฐ์ โ Q4_K_M ์ถ๋ ฅ ํ์ง์ด ํน์ ์์ ์์ ๋์ ๋๊ฒ ์ ํ๋ ๋๋ง ์ ํํ์ญ์์ค.
- Q2_K: 7B ๊ธฐ์ค ์ฝ 3 GB. ๊ฐ์ฅ ์์ ํ์ผ์ด์ง๋ง ์ค๊ตญ์ด ์ถ๋ ฅ ํ์ง์ด ๋์ ๋๊ฒ ์ ํ๋ฉ๋๋ค โ ์ค๊ตญ์ด ํ ์คํธ๊ฐ ํฌํจ๋ ๊ฒฝ์ฐ Qwen3์์ ํผํ์ญ์์ค.
- IQ4_XS: 7B ๊ธฐ์ค ์ฝ 4.8 GB. ์ต์ imatrix ์์ํ๋ก Q4_K_M๋ณด๋ค ์ฝ๊ฐ ์์ ํฌ๊ธฐ์์ ๋ ๋์ ํ์ง์ ์ ๊ณตํฉ๋๋ค โ ์ต์ llama.cpp ๋ฆด๋ฆฌ์ฆ ๋ฐ LM Studio 0.3+์์ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
์๋น์ ํ๋์จ์ด์์์ ๋ฒค์น๋งํฌ ์ฑ๋ฅ
RTX 4090์์ Qwen3 32B Q4_K_M์ ์ด๋น 28 ํ ํฐ์ ์ฒ๋ฆฌํฉ๋๋ค โ ์ค์๊ฐ ์ฝ๋ฉ ์ง์์ ์ถฉ๋ถํ ์๋์ ๋๋ค. ์๋ ์ ์๋ Ollama์์ ํ ์คํธ๋ Q4_K_M GGUF ๋น๋ ๊ธฐ์ค์ ๋๋ค. ์ ์ฒด ์ ๋ฐ๋ FP16 ์ ์๋ 1โ2% ๋์ต๋๋ค.
| ๋ชจ๋ธ (Q4_K_M) | MMLU | Math | HumanEval | ์๋ (RTX 3060 12 GB) |
|---|---|---|---|---|
| Qwen3 7B | 74.2% | 58.8% | 57.3% | 57 tok/s |
| Qwen3 14B | 79.9% | 69.8% | 64.6% | โ |
| Qwen3 32B | 83.3% | 79.5% | 71.3% | โ |
| Qwen3 72B | 86.1% | 83.1% | 73.2% | โ |
| Qwen3-Coder 7B | โ | โ | 75.6% | 55 tok/s |
| Qwen3-Coder 14B | โ | โ | 85.2% | โ |
| Qwen3-Coder 32B | โ | โ | 92.7% | โ |
Qwen vs DeepSeek vs Llama: ๋ก์ปฌ ์คํ ์ ์ด๋ค ๊ฒ์ ์ ํํ ๊น
Qwen3๋ ์ค๊ตญ์ด ์์ ๊ณผ VRAM ํจ์จ์ฑ์์ ์ฐ์ํฉ๋๋ค. DeepSeek-V2.5๋ ๋๊ท๋ชจ ์ถ๋ก ์์ ์ฐ์ํ์ง๋ง ์๋น์ ํ๋์จ์ด์์๋ ๋น์ค์ฉ์ ์ ๋๋ค. Llama 3.3 70B๋ Meta์ ์คํ ๋ชจ๋ธ์ ์ ํธํ๋ค๋ฉด ๋จ์ผ GPU์ ๊ฐ์ฅ ์ ํฉํ ์ต์ ์ ๋๋ค. ์๋ ํ๋ ๊ฐ VRAM ํฐ์ด์์์ ์ค์ฉ์ ์ธ ์ต์ ์ ๋น๊ตํฉ๋๋ค.
| VRAM ํฐ์ด | ์ต๊ณ Qwen | ์ต๊ณ ๊ฒฝ์์ | ๊ฒฐ๋ก |
|---|---|---|---|
| 6 GB | Qwen3 7B | Llama 3.2 3B (๋ง์ง๋ง 3B) | Qwen3 7B ์ฐ์ โ ๊ฐ์ VRAM, ํจ์ฌ ํฐ ๋ชจ๋ธ |
| 12 GB | Qwen3-Coder 14B | Llama 3.3 8B Instruct | ์ฝ๋ฉ์ Qwen3-Coder 14B; ์ผ๋ฐ ์ฑํ ์ Llama 3.3 8B |
| 24 GB | Qwen3-Coder 32B | Llama 3.3 70B (์คํ๋ก๋) | ์ฝ๋๋ Qwen3-Coder 32B; ํ์ง > ์๋๋ฉด Llama 3.3 70B |
| 48 GB+ | Qwen3 72B | DeepSeek-V2.5 236B MoE | DeepSeek๋ ~130 GB RAM ํ์; Qwen3 72B๊ฐ 48 GB์์ ์ค์ฉ์ ์ ํ |
์ค๊ตญ ์ฌ์ฉ์: ๋ฐ์ดํฐ ์ฃผ๊ถ๊ณผ ๋ก์ปฌ ๋ฐฐํฌ
Qwen3๋ฅผ ๋ก์ปฌ์์ ์คํํ๋ฉด ๋ฐ์ดํฐ๊ฐ ์ธ๋ถ ๊ธฐ๊ธฐ๋ก ์ ํ ์ ์ก๋์ง ์์ต๋๋ค โ ์ค๊ตญ์ ๋ฐ์ดํฐ ๋ณด์๋ฒ(DSL) ๋๋ ์ฌ์ด๋ฒ๋ณด์๋ฒ์ ๋ฐ๋ฅธ ์ปดํ๋ผ์ด์ธ์ค ์ํ์ด ์์ต๋๋ค. ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ LLM API๋ ํ๋กฌํํธ๋ฅผ ํด์ธ ์๋ฒ๋ก ์ ์กํด์ผ ํ๋ฉฐ, ์ด๋ DSL ์ 31์กฐ์ ๋ฐ๋ฅธ ๊ตญ๊ฒฝ ๊ฐ ๋ฐ์ดํฐ ์ ์ก ์ํ์ ์ด๋ํฉ๋๋ค.
Qwen3๋ Alibaba์ Qwen ํ์ด ์ฃผ๋ก ์ค๊ตญ์ด ๋ฐ ๋ค๊ตญ์ด ์ฝํผ์ค๋ก ํ์ต์ํจ ๋ชจ๋ธ์ ๋๋ค. ์ด๋ก ์ธํด ๊ฐ์ฒด ์ค๊ตญ์ด, ๋ฒ์ฒด ์ค๊ตญ์ด, ๊ณ ์ ์ค๊ตญ์ด, ํผํฉ ์ธ์ด(์ค๊ตญ์ด/์์ด) ๋ฌธ์์์ ๋ก์ปฌ๋ก ๋ฐฐํฌ ๊ฐ๋ฅํ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ด ๋ฉ๋๋ค.
์ค๊ตญ ๋ด ์ํฐํ๋ผ์ด์ฆ ๋ฐฐํฌ์ ๊ฒฝ์ฐ: ์์ด๊ฐญ(์ธํฐ๋ท ์ฐจ๋จ) Qwen3 ์ค์ ์ ์์ฑํ AI์ ๊ดํ CAC ๊ท์ ์ ์์ ํ ์ค์ํฉ๋๋ค. ๋ชจ๋ธ์ ์ ์ ์ผ๋ก ๋ก์ปฌ ์ปดํจํ ์์ ์คํ๋ฉ๋๋ค โ ๊ท์ ๊ธฐ๊ด์ ๊ด์ฌ์ฌ๋ ํ์ต ๋ฐ์ดํฐ์ ์ถ๋ ฅ ๋ชจ๋๋ ์ด์ ์ด์ง, ์คํ๋ผ์ธ ํ๋์จ์ด์์์ ์ถ๋ก ์ด ์๋๋๋ค. ์์ ํ ์์ด๊ฐญ ์ค์ ๊ฐ์ด๋๋ ์์ ์คํ๋ผ์ธ AI ์คํ์ ์ฐธ์กฐํ์ญ์์ค.
Qwen3๋ ๋ค์ด๋ก๋ ํ ์์ ํ ์คํ๋ผ์ธ์ผ๋ก ์คํ๋ฉ๋๋ค โ ๋ฐ์ดํฐ๊ฐ ๊ธฐ๊ธฐ๋ฅผ ๋ ๋์ง ์์ ์ค๊ตญ์ ๋ฐ์ดํฐ ๋ณด์๋ฒ์ ๋ฐ๋ฅธ ๊ตญ๊ฒฝ ๊ฐ ๋ฐ์ดํฐ ์ ์ก ์ํ์ ์์ฑ๋๋ค.
Qwen3๋ฅผ ๋ก์ปฌ์์ ์คํํ๋ฉด ํ๋กฌํํธ์ ๋ฌธ์๊ฐ ์ ๋ ์ปดํจํฐ ๋ฐ์ผ๋ก ๋๊ฐ์ง ์์ต๋๋ค. ํด๋ผ์ฐ๋ API ํธ์ถ, ํด์ธ ์๋ฒ, ๊ท์ ๊ธฐ๊ด์ด ๊ฐ๋ก์ฑ๊ฑฐ๋ ๊ฐ์ฌํ ์ ์๋ ๋ฐ์ดํฐ๊ฐ ์์ต๋๋ค.
์์ฐ๋ณ ํ๋์จ์ด ์ถ์ฒ
RTX 3060 12 GB๋ โฌ300 ๋ฏธ๋ง์์ Qwen3 7B์ Qwen3-Coder 7B๋ฅผ ์ํ ์ต๊ณ ์ ์ง์ ์ ์ ๋๋ค. 14B ๋ชจ๋ธ์ ๊ฒฝ์ฐ RTX 4070 12 GB๊ฐ ์ฝ โฌ400์ 35% ์๋ ํฅ์์ ์ ๊ณตํฉ๋๋ค. ์๋๋ ์ด ๊ฐ์ด๋๋ฅผ ์ํด ์ฌ์ฉํ๊ณ ํ ์คํธํ ํ๋์จ์ด ์ต์ ์ ๋๋ค.
- ๋ณด๊ธํ (Qwen3 7B): NVIDIA RTX 4060 8 GB ๋๋ RTX 3060 12 GB. ๋ ๋ค 7B ๋ชจ๋ธ์ ์ด๋น 50โ57 ํ ํฐ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. RTX 3060 12 GB๋ ์ค๊ณ ๋ก ๋ ์ ๋ ดํ ๊ฒฝ์ฐ๊ฐ ๋ง๊ณ VRAM ์ฌ์ ๊ณต๊ฐ์ด ๋ ๋ง์ต๋๋ค.
- ์ค๊ธ (Qwen3 14B): RTX 4070 12 GB ๋๋ RTX 4070 Super 12 GB. 4070 Super๋ Qwen3-Coder 14B๋ฅผ ์ด๋น 38โ42 ํ ํฐ์ผ๋ก ์คํํ๋ฉฐ 2โ3 GB์ ์ฌ์ VRAM์ผ๋ก 14B ๋ชจ๋ธ์ ์ฒ๋ฆฌํฉ๋๋ค.
- ๊ณ ๊ธ (Qwen3 32B): RTX 4090 24 GB ๋๋ RTX 3090 24 GB. 4090์ Qwen3-Coder 32B์์ ์ด๋น 27โ28 ํ ํฐ์ ์ฒ๋ฆฌํฉ๋๋ค โ ์ค์๊ฐ ์ฝ๋ฉ ์๋์ ๋๋ค. 3090์ ์ค๊ณ ๋ก ํจ์ฌ ์ ๋ ดํ๊ณ ์ถ๋ก ์์ 4090์ 85% ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
- Apple Silicon (์ ํฌ๊ธฐ): Mac mini M4 Pro 48 GB๋ ๋ฎ์ ์์๊ณผ ์ ๋ ฅ ์๋น๋ก Qwen3 32B(~์ด๋น 22 ํ ํฐ)๋ฅผ ์คํํ๋ ์ต๊ณ ์ ๊ฐ์ฑ๋น ์ต์ ์ ๋๋ค. M2 Ultra 192 GB๋ Qwen3 72B๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
- ์์ ๊ฐ๋์ฉ ๋ฏธ๋ PC: MINISFORUM UM890 Pro ๋๋ ์ ์ฌํ AMD Ryzen AI PC. CPU+iGPU์์ Qwen3 7B๋ฅผ ์ด๋น ์ฝ 8โ12 ํ ํฐ์ผ๋ก ์คํํฉ๋๋ค โ ๋๋ฆฌ์ง๋ง 35W ๋ฏธ๋ง์ ์ ๋ ฅ์ผ๋ก 24์๊ฐ 365์ผ ๊ฐ๋ ๊ฐ๋ฅํฉ๋๋ค.
Qwen3 ๋ก์ปฌ ์คํ ์ ํํ ์ค์
- ํ๊ทธ ์๋ `ollama pull qwen2.5` ๋ช ๋ น์ด ์ฌ์ฉ. ๋ช ์์ ํฌ๊ธฐ ํ๊ทธ(`:7b`, `:14b` ๋ฑ) ์์ด๋ Ollama๊ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ ๋ฐ์ดํธ ์ฌ์ด์ ๋ณ๊ฒฝ๋ ์ ์๋ ๊ธฐ๋ณธ ํฌ๊ธฐ๋ก ํด์ํ ์ ์์ต๋๋ค. ํญ์ ๋ช ์์ ํ๊ทธ๋ฅผ ์ฌ์ฉํ์ญ์์ค: `ollama pull qwen2.5:14b`.
- ์ปจํ ์คํธ ์ฐฝ ํฌ๊ธฐ ๋ฌด์. Qwen3๋ 128K ์ปจํ ์คํธ๋ฅผ ์ง์ํ์ง๋ง Ollama๋ ๊ธฐ๋ณธ์ ์ผ๋ก `num_ctx`๋ฅผ 2K๋ก ์ค์ ํฉ๋๋ค. ๊ธด ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ ์คํ ๋ช ๋ น์ด์ `--num-ctx 8192`(๋๋ ๋ ๋์ ๊ฐ)๋ฅผ ์ถ๊ฐํ์ญ์์ค โ ๊ทธ๋ ์ง ์์ผ๋ฉด ๋ชจ๋ธ์ด ์๋์ผ๋ก ์ ๋ ฅ์ ์๋ผ๋ ๋๋ค.
- ์ค๊ตญ์ด ์ฉ๋์ Q2_K ์์ํ ์ ํ. 2๋นํธ ์ ๋ฐ๋์์ Qwen3์ ์ค๊ตญ์ด ์ถ๋ ฅ์ด ๋์ ๋๊ฒ ์ ํ๋ฉ๋๋ค โ ๋ฌธ์ ๋์ฒด๊ฐ ์ฆ๊ฐํฉ๋๋ค. ์ค๊ตญ์ด ์์ ์๋ Q4_K_M์ ์ต์๊ฐ์ผ๋ก ์ฌ์ฉํ์ญ์์ค.
- VRAM์ด ๋ถ์กฑํ ์ํ์์ 32B ๋ชจ๋ธ ์คํ. GPU์ 16 GB๊ฐ ์๊ณ ๋ชจ๋ธ์ 20.5 GB๊ฐ ํ์ํ ๊ฒฝ์ฐ Ollama๊ฐ ๋ ์ด์ด๋ฅผ ์์คํ RAM์ผ๋ก ์คํ๋ก๋ํฉ๋๋ค. ๋ชจ๋ธ์ ์คํ๋์ง๋ง ์ด๋น 3โ5 ํ ํฐ์ผ๋ก โ ๋ํํ ์ฌ์ฉ์๋ ์ ํฉํ์ง ์์ต๋๋ค. ์์ ํ๋์จ์ด ํ๋ฅผ ํ์ธํ๊ณ VRAM์ ๋ง๋ ๋ชจ๋ธ์ ์ ํํ์ญ์์ค.
- ์ฝ๋ฉ์ ์๋ชป๋ ํ์ ํจ๋ฐ๋ฆฌ ์ฌ์ฉ. Qwen3 7B(๋ฒ์ฉ)๋ HumanEval์์ 57.3%๋ฅผ ๊ธฐ๋กํฉ๋๋ค. Qwen3-Coder 7B๋ ๊ฐ์ ๋ฒค์น๋งํฌ์์ 75.6%๋ฅผ ๊ธฐ๋กํฉ๋๋ค โ ์๋์ ์ผ๋ก 32% ํฅ์์ ๋๋ค. ์ฝ๋ฉ์ด ๋ชฉ์ ์ด๋ผ๋ฉด ํญ์ ๊ฐ์ ํฌ๊ธฐ์ Coder ๋ณํ์ ์ฌ์ฉํ์ญ์์ค.
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
Qwen3 7B๋ฅผ ๋ก์ปฌ์์ ์คํํ๋ ค๋ฉด VRAM์ด ์ผ๋ง๋ ํ์ํฉ๋๊น?
Qwen3 7B Q4_K_M๋ 5.5 GB์ VRAM์ด ํ์ํฉ๋๋ค. RTX 3060 6 GB, RTX 4060, ๋๋ ํตํฉ ๋ฉ๋ชจ๋ฆฌ 8 GB์ Apple M ์๋ฆฌ์ฆ ์นฉ์์ ๋ชจ๋ ์คํ๋ฉ๋๋ค. VRAM์ด 8 GB์ด๋ฉด ์ปจํ ์คํธ ๋ฐ ์์คํ RAM์ ์ํ ์ฌ์ ๊ณต๊ฐ์ด ์๊น๋๋ค.
๋ก์ปฌ์์ ์ฝ๋ฉ์ ๊ฐ์ฅ ์ ํฉํ Qwen ๋ชจ๋ธ์ ๋ฌด์์ ๋๊น?
Qwen3-Coder 32B๋ ๋ก์ปฌ์์ ์คํ ๊ฐ๋ฅํ ์ต๊ณ ์ ์ฝ๋ฉ ๋ชจ๋ธ์ ๋๋ค โ HumanEval์์ 92.7%๋ฅผ ๊ธฐ๋กํ๋ฉฐ 24 GB GPU(RTX 3090 ๋๋ RTX 4090)๊ฐ ํ์ํฉ๋๋ค. VRAM์ด 12 GB ์ดํ์ธ ๊ฒฝ์ฐ Qwen3-Coder 14B(HumanEval 85.2%, 9.5 GB VRAM)๋ฅผ ์ฌ์ฉํ์ญ์์ค.
๋ก์ปฌ ๋ฐฐํฌ์์ Qwen์ DeepSeek์ ์ด๋ป๊ฒ ๋น๊ต๋ฉ๋๊น?
Qwen3 72B์ DeepSeek-V2.5๋ ์ผ๋ฐ ์์ ์์ ๊ฒฝ์๋ ฅ์ด ์์ง๋ง, Qwen์ ์๋น์ ํ๋์จ์ด์ ๋ง๋ ๋ฐ์ง ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํฉ๋๋ค. DeepSeek-V2.5๋ 236B MoE ๋ชจ๋ธ๋ก Q4์์ ์ฝ 130 GB RAM์ด ํ์ํ๋ฉฐ ์๋ฒ๊ธ ํ๋์จ์ด ์์ด๋ ๋๋ฌํ๊ธฐ ์ด๋ ต์ต๋๋ค. VRAM์ด 48 GB ๋ฏธ๋ง์ธ ๊ฒฝ์ฐ Qwen3๊ฐ ์ค์ฉ์ ์ธ ์ ํ์ ๋๋ค.
Mac์์ Qwen์ ์คํํ ์ ์์ต๋๊น?
๊ฐ๋ฅํฉ๋๋ค. Apple Silicon์ ํตํฉ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค โ M2 Pro 32 GB๋ Qwen3 14B๋ฅผ ์ด๋น ์ฝ 32 ํ ํฐ์ผ๋ก ์คํํฉ๋๋ค. M3 Max 64 GB๋ Qwen3 32B๋ฅผ ์ด๋น ์ฝ 22 ํ ํฐ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๊ฐ์ฅ ๊ฐ๋จํ ์ค์ ์ ์ํด Ollama macOS ์ฑ ๋๋ LM Studio๋ฅผ ์ฌ์ฉํ์ญ์์ค.
Qwen3์ ์ฌ์ฉํ Ollama ๋ช ๋ น์ด๋ ๋ฌด์์ ๋๊น?
7B๋ `ollama pull qwen2.5:7b`, 14B๋ `ollama pull qwen2.5:14b`, 32B๋ `ollama pull qwen2.5:32b`, ์ฝ๋ฉ ๋ณํ์ `ollama pull qwen2.5-coder:32b`๋ฅผ ์ฌ์ฉํ์ญ์์ค. ํญ์ ๋ช ์์ ํฌ๊ธฐ ํ๊ทธ๋ฅผ ์ฌ์ฉํ์ญ์์ค.
Qwen์ ์ค๊ตญ์ด ์์ ์ ์ ํฉํฉ๋๊น?
Qwen3๋ ๋๊ท๋ชจ ์ค๊ตญ์ด ์ฝํผ์ค๋ก ์ฌ์ ํ์ต๋์์ผ๋ฉฐ ๊ฐ์ฒด ์ค๊ตญ์ด, ๋ฒ์ฒด ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด, ์๋์ด ๋ฐ 24๊ฐ ์ธ์ด๋ฅผ ๊ธฐ๋ณธ ์ง์ํฉ๋๋ค. ์ค๊ตญ์ด ์ฝ๊ธฐ ์ดํด ๋ฐ ์์ฑ์์ Llama 3.3๊ณผ Mistral์ ์ง์์ ์ผ๋ก ๋ฅ๊ฐํฉ๋๋ค.
Qwen3์ ์ด๋ค ์์ํ๋ฅผ ์ฌ์ฉํด์ผ ํฉ๋๊น?
Q4_K_M์ด ๊ถ์ฅ ๊ธฐ๋ณธ๊ฐ์ ๋๋ค โ FP16 ๋๋น VRAM์ ์ฝ 55% ์ค์ด๋ฉด์ ๋ฒค์น๋งํฌ ํ์ง ์์ค์ด 1% ๋ฏธ๋ง์ ๋๋ค. ์ฌ์ VRAM์ด ์๊ณ FP16์ ๊ฐ๊น์ด ํ์ง์ ์ํ๋ค๋ฉด Q8_0์ ์ฌ์ฉํ์ญ์์ค. ์ค๊ตญ์ด ์ฉ๋์๋ Q2_K๋ฅผ ํผํ์ญ์์ค.
Qwen2-VL์ด ์ค๊ตญ์ด ๋ฌธ์ OCR์ ํจ๊ณผ์ ์ ๋๊น?
๊ทธ๋ ์ต๋๋ค โ Qwen2-VL 7B๋ CJK ๋ฌธ์ OCR์์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์ ๋๋ค. `ollama pull qwen2-vl:7b`๋ฅผ ํตํด ์ฝ 6 GB VRAM์ผ๋ก ์คํ๋๋ฉฐ 4096ร4096 ํด์๋์์ ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด ํ ์คํธ๋ฅผ ์ฝ์ต๋๋ค. ์ ์ฒด ๊ฐ์ด๋๋ /local-llms/run-qwen-vl-locally-2026์์ ํ์ธํ์ญ์์ค.