ํต์ฌ ์์
- Qwen3 7B์ 14B๋ ์๋น์์ฉ GPU ๋ชฉํ โ VRAM ๊ฐ๊ฐ 8 GB, 16 GB, Docker์์ Ollama๋ก ์คํ ๊ฐ๋ฅ
- Qwen3 32B๋ RTX 4090 24 GB๊ฐ ํ์ํ๋ฉฐ, ๋๋ถ๋ถ์ ํ์์ ๋จ์ผ ์นด๋ ํ๋ก๋์ ๋ฐฐํฌ ์ต๋ ๊ท๋ชจ์ ๋๋ค
- Qwen3 72B๋ RTX 4090 ๋ ์ฅ, ๋์ฉ๋ RAM(128 GB ์ด์ DDR5)์ CPU ๋น๋, ๋๋ ํด๋ผ์ฐ๋ ๋์ฌ๊ฐ ํ์ํฉ๋๋ค โ self-hosting ๋น์ฉ์ ๊ฐ๊ฐ์๊ฐ ๊ธฐ์ค ํ๋ฃจ ์ฝ $0.05~0.12
- Ollama + Open WebUI + Nginx๋ก ๊ตฌ์ฑ๋ Docker Compose ์คํ์ 10๋ถ ์ด๋ด์ OpenAI ํธํ API๋ฅผ ๋ ธ์ถํฉ๋๋ค
- Qwen ์์ ๊ฐ๋ ์๋ฒ: Minisforum UM890 Pro ($429, Qwen3 7B CPU ์คํ) ๋๋ AOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti 16 GB (์ด ์ฝ $800)
- ํด๋ผ์ฐ๋ ๋์: RunPod A40 48 GB ($0.44/์๊ฐ)์ผ๋ก Qwen3 72B ์ฒ๋ฆฌ ๊ฐ๋ฅ โ RTX 4090 ๋ ์ฅ ๊ตฌ๋งค๋ณด๋ค ๋น์ ๊ธฐ ์ฌ์ฉ ์ ์ ๋ ด
- ์ด ๊ฐ์ด๋๋ ํ๋ก๋์ ๋ฐฐํฌ๋ฅผ ๋ค๋ฃจ๋ฉฐ, Ollama ๊ธฐ์ด ์ค์ ์ Qwen ์ ๋ฌธ ๊ฐ์ด๋๋ฅผ ์ฐธ์กฐํ์ญ์์ค
๐ ํ ๋ฌธ์ฅ์ผ๋ก
Docker Compose ์คํ์ผ๋ก Qwen์ ํ๋ก๋์ ์ ๋ฐฐํฌํ๋ฉด Ollama๊ฐ ์ถ๋ก ๋ฐฑ์๋๋ก ๋์ํ๋ฉฐ OpenAI ํธํ API ์๋ํฌ์ธํธ๊ฐ ๋ ธ์ถ๋ฉ๋๋ค.
๐ฌ ์ฝ๊ฒ ๋งํ๋ฉด
๋งค๋ฒ ์๋์ผ๋ก Qwen์ ์คํํ๋ ๋์ , Docker๋ฅผ ์ฌ์ฉํ๋ฉด ํญ์ ์ผ์ ธ ์๊ณ ์์ฒญ์ ๋ฐ์ ์ ์๋ ์๊ตฌ ์๋ฒ๋ฅผ ๊ตฌ์ฑํ ์ ์์ต๋๋ค โ ChatGPT API๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋์ผํ์ง๋ง ์์ ์ ํ๋์จ์ด์์ ํ ํฐ ๋น์ฉ ์์ด ์ด์๋ฉ๋๋ค.
Qwen ๋ชจ๋ธ๋ณ ํ๋์จ์ด ์ฑ๋ฅ โ 2026๋ 5์
GPU ๋ธ๋๋๊ฐ ์๋๋ผ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ง๋ ํ๋์จ์ด๋ฅผ ์ ํํ์ญ์์ค. VRAM์ด ์ฃผ์ ์ ์ฝ์ ๋๋ค. ๋ชจ๋ธ์ด ๋ง์ง ์์ผ๋ฉด GPU ์๋๋ก ์คํ๋์ง ์์ต๋๋ค. ์๋ ํ๋ Ollama ๋ฐฐํฌ์ ์ต์ ํ์ง-ํฌ๊ธฐ ๋น์จ์ธ Q4_K_M ์์ํ๋ก ์ธก์ ํ ์ถ๋ก ์๋๋ฅผ ๋ํ๋ ๋๋ค.
| ๋ชจ๋ธ | VRAM (Q4_K_M) | ์ต์ GPU | ์๋ (tok/s) | CPU ๋์ฒด | ํ๋ก๋์ ์ค๋น |
|---|---|---|---|---|---|
| Qwen3 7B | 5.2 GB | RTX 3060 12 GB | 22โ28 tok/s | ๊ฐ๋ฅ (RAM 32 GB, ์ฝ 4 tok/s) | ๊ฐ๋ฅ โ ๋จ์ผ GPU |
| Qwen3 14B | 9.4 GB | RTX 4060 Ti 16 GB | 15โ20 tok/s | ๊ฐ๋ฅ (RAM 64 GB, ์ฝ 2.5 tok/s) | ๊ฐ๋ฅ โ ๋จ์ผ GPU |
| Qwen3 32B | 20.1 GB | RTX 4090 24 GB | 10โ14 tok/s | ์ ํ์ (RAM 128 GB, ์ฝ 1.2 tok/s) | ๊ฐ๋ฅ โ ๋จ์ผ GPU |
| Qwen3-Coder 32B | 19.8 GB | RTX 4090 24 GB | 10โ13 tok/s | ์ ํ์ (RAM 128 GB) | ๊ฐ๋ฅ โ ๋จ์ผ GPU |
| Qwen3 72B | 43.5 GB | RTX 4090 ๋ ์ฅ (ํฉ๊ณ 48 GB) | 5โ8 tok/s | ๋๋ฆผ (RAM 128 GB, ์ฝ 0.6 tok/s) | Multi-GPU ๋๋ ํด๋ผ์ฐ๋๋ง ๊ฐ๋ฅ |
PCIe Gen 4 ์์คํ ์ธก์ ๊ธฐ์ค. NVLink๋ ์ง์ ์นด๋์ ๋์ผ GPU ๊ตฌ์ฑ์์ ์ฑ๋ฅ์ ์ฝ 15% ํฅ์์ํต๋๋ค. RunPod A100 80 GB ๋จ์ผ ์นด๋์์ Qwen3 72B Q4_K_M: 18โ22 tok/s.
Docker API ์๋ฒ ์ค์ โ Ollama + Open WebUI + Nginx
๊ฐ์ฅ ๋น ๋ฅธ Qwen ํ๋ก๋์
์คํ์ ์ธ ๊ฐ์ง ์ปจํ
์ด๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: Ollama(์ถ๋ก ), Open WebUI(UI), Nginx(๋ฆฌ๋ฒ์ค ํ๋ก์ + ์ธ์ฆ). ์ด ์ค์ ์ 10๋ถ ์ด๋ด์ ์๋ฃ๋๋ฉฐ http://your-server:11434/v1์ ์๊ตฌ์ ์ธ OpenAI ํธํ API๋ฅผ ๋
ธ์ถํฉ๋๋ค.
- 1Docker ๋ฐ Docker Compose๋ฅผ ์ค์นํฉ๋๋ค
Why it matters: ์ปจํ ์ด๋๋ Qwen์ ์ด์ ์ฒด์ ์ ๊ฒฉ๋ฆฌํฉ๋๋ค โ Python ํ๊ฒฝ ์ถฉ๋ ์์, ์ ๋ฐ์ดํธ ์ฉ์ด. - 2Ollama + Open WebUI ์๋น์ค๊ฐ ํฌํจ๋ docker-compose.yml์ ์์ฑํฉ๋๋ค
Why it matters: Compose ํ์ผ์ GPU ํจ์ค์ค๋ฃจ, ํฌํธ ๋งคํ, ์ฌ์์ ์ ์ฑ ์ ํ ๊ณณ์์ ๊ด๋ฆฌํฉ๋๋ค. - 3Ollama ์ปจํ ์ด๋ ํ๊ฒฝ์์ OLLAMA_HOST=0.0.0.0์ ์ค์ ํฉ๋๋ค
Why it matters: ์ด ์ค์ ์์ด๋ Ollama๊ฐ localhost์์๋ง ์์ ํ๋ฉฐ ๋ค๋ฅธ ์ปจํ ์ด๋๋ ํธ์คํธ์ API ์์ฒญ์ ๋ฐ์ง ์์ต๋๋ค. - 4Qwen ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํฉ๋๋ค: docker exec ollama ollama pull qwen3:7b
Why it matters: ๋ชจ๋ธ์ Docker ๋ณผ๋ฅจ์ ์ ์ฅ๋์ด ์ปจํ ์ด๋ ์ฌ์์ ์์๋ ์ ์ง๋ฉ๋๋ค. - 5๊ณต๊ฐ ๋ฐฐํฌ๋ฅผ ์ํด ๊ธฐ๋ณธ ์ธ์ฆ์ด ํฌํจ๋ Nginx๋ฅผ API ๊ฒ์ดํธ์จ์ด๋ก ์ถ๊ฐํฉ๋๋ค
Why it matters: ์ธ์ฆ ์์ด Ollama๋ฅผ ์ธํฐ๋ท์ ์ง์ ๋ ธ์ถํ๋ฉด ๋๊ตฌ๋ ๊ทํ์ GPU์์ ์ถ๋ก ์ ์คํํ ์ ์์ต๋๋ค. - 6์ปจํ ์ด๋ ์ฌ์์ ์ ์ฑ ์ unless-stopped๋ก ์ค์ ํฉ๋๋ค
Why it matters: ์ด๋ฅผ ํตํด Qwen ์๋ฒ๊ฐ ์์คํ ์ฌ์์ ํ์๋ ์ ์ง๋ฉ๋๋ค โ ์์ ๊ฐ๋ mini PC ๋ฐฐํฌ์ ํ์์ ์ ๋๋ค.
version: "3.8"
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
restart: unless-stopped
ports:
- "11434:11434"
environment:
- OLLAMA_HOST=0.0.0.0
- OLLAMA_KEEP_ALIVE=-1
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
restart: unless-stopped
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- open_webui_data:/app/backend/data
depends_on:
- ollama
volumes:
ollama_data:
open_webui_data:Qwen3 72B๋ฅผ ์ํ Multi-GPU ๊ตฌ์ฑ
Q4_K_M์ Qwen3 72B๋ VRAM 43.5 GB๊ฐ ํ์ํฉ๋๋ค โ RTX 4090(24 GB) ํ ์ฅ์ผ๋ก๋ ๋ถ์กฑํฉ๋๋ค. RTX 4090 ๋ ์ฅ(ํฉ๊ณ 48 GB) ๋๋ ์ ๋ฌธ๊ฐ์ฉ ์นด๋(A100 80 GB, H100 80 GB)๊ฐ ํ์ํฉ๋๋ค. Ollama๋ Multi-GPU ๋ถ์ฐ์ ๋ค์ดํฐ๋ธ๋ก ์ฒ๋ฆฌํ๋ฉฐ ์ฝ๋ ๋ณ๊ฒฝ์ด ํ์ ์์ต๋๋ค.
- Ollama๋ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ GPU์ ์๋์ผ๋ก ๋ชจ๋ธ์ ๋ถ์ฐํฉ๋๋ค โ compose ํ๊ฒฝ์์ CUDA_VISIBLE_DEVICES=0,1๋ก ํน์ ์นด๋๋ฅผ ์ง์ ํ์ญ์์ค
- RTX 4090 ๋ ์ฅ์ ๊ฒฝ์ฐ, ๋ ์นด๋ ๋ชจ๋ ๋์ผํ PCIe ๋์ญํญ ๋ ๋ฒจ์ ์์ด์ผ ํฉ๋๋ค โ PCIe Gen 4 x8 ์ฌ๋กฏ ๋ ๊ฐ๊ฐ ์๋ B650 ๋๋ Z790 ๋ฉ์ธ๋ณด๋๊ฐ ์ต์ ์๊ตฌ์ฌํญ์ ๋๋ค
- RTX 4090 ๋ ์ฅ ๊ฐ์ NVLink๋ ์๋น์ ์นด๋์์ NVIDIA ๊ณต์ ์ง์์ด ์์ง๋ง, Founders Edition RTX 4090 ์์์ ์๋ํํฐ NVLink ๋ธ๋ฆฌ์ง๋ฅผ ํตํด ์๋ํฉ๋๋ค โ ์ฝ 15% ์ฑ๋ฅ ํฅ์
- vLLM์ ํ ์ ๋ณ๋ ฌ์ฑ์ ์ฌ์ฉํ๋ ๋์ฒด ์ถ๋ก ์์ง์ผ๋ก, Multi-GPU ํ์ฉ ํจ์จ์ด ๋ ๋์ต๋๋ค โ ๋์ ์์ฒญ 100๊ฐ ์ด์์ ์ง์ 70B ์ถ๋ก ๋ถํ์์๋ Ollama ๋์ vLLM์ ์ฌ์ฉํ์ญ์์ค
- Qwen3 72B๋ฅผ ๋น์ ๊ธฐ์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, RunPod A40 48 GB($0.44/์๊ฐ)๊ฐ RTX 4090 ๋ ์ฅ ๋น๋($3,800+)๋ณด๋ค ์ ๋ ดํฉ๋๋ค
# vLLM multi-GPU alternative (better for high-traffic 72B)
docker run --gpus all -p 8000:8000 -e VLLM_WORKER_MULTIPROC_METHOD=spawn vllm/vllm-openai:latest --model Qwen/Qwen3-72B-Instruct --tensor-parallel-size 2 --max-model-len 32768 --quantization awqํ๋ก๋์ API ์ค์
Ollama์ API๋ /v1์์ OpenAI์ ํธํ๋ฉ๋๋ค โ ChatGPT API๋ฅผ ํธ์ถํ๋ ๋ชจ๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ธฐ๋ณธ URL๋ง ๋ณ๊ฒฝํ๋ฉด ๋ก์ปฌ Qwen ๋ฐฐํฌ์์ ๋ฐ๋ก ๋์ํฉ๋๋ค. ํ๋ก๋์ ๋์์ ์ํฅ์ ๋ฏธ์น๋ ์ฃผ์ ํ๊ฒฝ ๋ณ์:
- OLLAMA_KEEP_ALIVE=-1 โ ๋นํ์ฑ ํ ๋ชจ๋ธ์ด ์ธ๋ก๋๋์ง ์๋๋ก ํฉ๋๋ค (๊ธฐ๋ณธ๊ฐ์ 5๋ถ์ผ๋ก, ์๋ฒ ๋ฐฐํฌ์์๋ ์น๋ช ์ )
- OLLAMA_NUM_PARALLEL=4 โ ์ต๋ 4๊ฐ์ ๋์ ์ถ๋ก ์์ฒญ์ ํ์ฉํฉ๋๋ค. VRAM ์ฌ์ ๊ฐ ์๋ค๋ฉด ๋๋ฆฌ์ญ์์ค
- OLLAMA_MAX_LOADED_MODELS=1 โ ์ํ GPU ๋น๋์์ ์ค๋์ฑ ๋ฐฉ์ง๋ฅผ ์ํด VRAM์ ๋ชจ๋ธ ํ๋๋ง ์ ์งํฉ๋๋ค
- OLLAMA_FLASH_ATTENTION=1 โ NVIDIA Ampere/Ada GPU(RTX 3060 ์ด์)์์ flash attention์ ํ์ฑํํ์ฌ 20โ30% ์๋ ํฅ์
- OLLAMA_GPU_OVERHEAD=512 โ OS ๋ฐ ๋๋ผ์ด๋ฒ ์ค๋ฒํค๋๋ฅผ ์ํด VRAM 512 MB๋ฅผ ์์ฝํฉ๋๋ค. ์ ํํ 8 GB ๋๋ 16 GB ์นด๋์์ OOM ํฌ๋์๋ฅผ ์ค์ฌ์ค๋๋ค
โ ๏ธWarning: OLLAMA_KEEP_ALIVE=0์ด๊ฑฐ๋ ์ค์ ํ์ง ์์ผ๋ฉด ๊ฐ ์์ฒญ ํ ๋ชจ๋ธ์ด ์ธ๋ก๋๋ฉ๋๋ค. ์ผ์ ์ค์ง ํ ์ฒซ ๋ฒ์งธ ์์ฒญ์ ๋ชจ๋ธ ์ฌ๋ก๋ฉ์ 10โ30์ด๊ฐ ์์๋ฉ๋๋ค. API ์๋ฒ ๋ฐฐํฌ์์๋ ํญ์ OLLAMA_KEEP_ALIVE=-1์ ์ค์ ํ์ญ์์ค.
๋น์ฉ ๋น๊ต: self-hosted vs Alibaba Cloud vs RunPod
ํ๋ฃจ 4์๊ฐ ์ด์์ ์ง์์ ์ธ ์ถ๋ก ๋ถํ์์๋ self-hosting์ด ํด๋ผ์ฐ๋๋ณด๋ค ์ ๋ฆฌํฉ๋๋ค. ํ๋ฃจ 4์๊ฐ ๋ฏธ๋ง์์๋ ํ๋์จ์ด ๊ฐ๊ฐ์๊ฐ ํ ํด๋ผ์ฐ๋ GPU ๋์ฌ๊ฐ ๋ ์ ๋ ดํฉ๋๋ค. ์๋ ํ๋ self-hosted ๋น๋์ 3๋ ํ๋์จ์ด ๊ฐ๊ฐ์๊ฐ์ ์ ์ฉํฉ๋๋ค.
| ์ต์ | Qwen3 7B ํ๋ฃจ ๋น์ฉ | Qwen3 72B ํ๋ฃจ ๋น์ฉ | ์ด๊ธฐ ๋น์ฉ | ์ต์ ์ฉ๋ |
|---|---|---|---|---|
| Self-hosted: mini PC RTX 3060 12 GB | $0.03 (์ ๊ธฐ๋ฃ๋ง) | ํด๋น ์์ (์ฉ๋ ๋ถ์กฑ) | ์์ ํ ๋น๋ $600โ900 | ์์ 7B ์ถ๋ก , ๊ฐ์ /์ฌ๋ฌด์ค ์๋ฒ |
| Self-hosted: ์ํฌ์คํ ์ด์ RTX 4090 | $0.05 | ํด๋น ์์ (๋จ์ผ GPU) | ์์ ํ ๋น๋ $2,500โ4,000 | ์ต๋ 32B ์ถ๋ก , ์ํฌ์คํ ์ด์ ์ ์ฉ ์ฌ์ฉ |
| Self-hosted: RTX 4090 ๋ ์ฅ | $0.08 | $0.12 | ์์ ํ ๋น๋ $5,000โ7,000 | 72B ์์ ๊ฐ๋, ์ํฌ์คํ ์ด์ ๋ณํ ์ฌ์ฉ |
| RunPod A40 48 GB ($0.44/์๊ฐ) | $0.44 (1์๊ฐ) | $0.44 (1์๊ฐ) | ์ด๊ธฐ ๋น์ฉ $0, ์๊ฐ์ ์ง๋ถ | ๋น์ ๊ธฐ 72B ์ฌ์ฉ, ํ ์คํธ, ํ๋์จ์ด ํฌ์ ์์ |
| Alibaba Cloud PAI (GPU A10) | $0.50โ0.80/์๊ฐ | $1.20โ2.00/์๊ฐ (A100) | ์ด๊ธฐ ๋น์ฉ $0 + ์ ๊ท ๊ณ์ ํฌ๋ ๋ง $50 | Qwen ์ต์ ํ ์ถ๋ก ํ๊ฒฝ, Alibaba Cloud ์ํ๊ณ |
| Vast.ai RTX 4090 ์คํ ($0.20โ0.35/์๊ฐ) | $0.20โ0.35/์๊ฐ | ํด๋น ์์ | ์ด๊ธฐ ๋น์ฉ $0 | ์ ๋ ดํ ๋น์ ๊ธฐ ์ฌ์ฉ, ์ค๋จ ์ํ ํ์ฉ ๊ฐ๋ฅ |
Qwen ์์ ๊ฐ๋ ์๋ฒ ํ๋์จ์ด ์ถ์ฒ
API ์๋ฒ๋ก Qwen3 7B๋ฅผ 24/7 ์คํํ๋ mini PC๋ ์ ๊ธฐ๋ฃ๊ฐ ์ $0.50โ1.50 โ ์ด๋ค ํด๋ผ์ฐ๋ ๋์๋ณด๋ค ํจ์ฌ ์ ๋ ดํฉ๋๋ค. ๋ ๊ฐ์ง mini PC ๋น๋๊ฐ ๋๋ถ๋ถ์ Qwen ์์ ๊ฐ๋ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์ปค๋ฒํฉ๋๋ค:
- ์ ๋ ดํ ์ต์ (Qwen3 7B CPU ์ถ๋ก ): Minisforum UM890 Pro โ AMD Ryzen 9 8945HS, 32 GB DDR5, 512 GB NVMe. ์ ํ ์ฝ $429. Qwen3 7B๋ Ollama CPU ๋ฐฑ์๋๋ก 3โ5 tok/s ์คํ. ๊ฐ์ธ ์ด์์คํดํธ ๋ฐ ๋ฌธ์ ์์ฝ์ ์ ํฉ. ์ ํด ์ 12W, ๋ถํ ์ 45W. ๋งค์ฐ ์กฐ์ฉํจ. ๋ฏธ๊ตญ/EU ์ฐฝ๊ณ ์์ ๋ฐฐ์ก ๊ฐ๋ฅ.
- ์ถ์ฒ ์ต์ (GPU Qwen3 14B): AOOSTAR GEM12 Pro OCuLink โ OCuLink ํฌํธ๋ฅผ ํตํด ์ธ๋ถ GPU ์ง์. eGPU ์ธํด๋ก์ ์ RTX 4060 Ti 16 GB์ ๊ฒฐํฉ (GPU ์ฝ $340 + ์ธํด๋ก์ $100). ์ด ์ฝ $800. Qwen3 14B๋ฅผ 16โ18 tok/s๋ก ์คํ. ์ธํฐ๋ํฐ๋ธ ์ฌ์ฉ ์ CPU ๋์ฒด๋ณด๋ค ํ์ ํ ์ฐ์.
- ๊ณ ๊ธ ์ฌ์ฉ์ (Qwen3 32B): RTX 4090์ด ์ฅ์ฐฉ๋ ์ปดํฉํธ ATX ๋ฐ์คํฌํฑ PC โ ์์: Fractal Node 804 ์ผ์ด์ค ($90), RTX 4090 (ํ์ฌ ๊ฐ๊ฒฉ ์ฝ $1,900), Ryzen 9 7950X (์ฝ $600), DDR5 64 GB (์ฝ $180). ์ด ์ฝ $2,800. Qwen3 32B๋ฅผ ๋ฌด๊ธฐํ 10โ14 tok/s๋ก ์คํ.
ํ์ : ๋ชจ๋ธ ํฌ๊ธฐ๋ณ ๋ฐฐํฌ ๋ฐฉ๋ฒ ์ ํ
ํ๋์จ์ด์ ์ธ์์ ์ธ ์ฌ์์ด ์๋๋ผ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ๋ฃจ ์ฌ์ฉ ์๊ฐ์ ๋ฐ๋ผ Qwen ๋ฐฐํฌ ๋ฐฉ์์ ์ ํํ์ญ์์ค.
Qwen ๋ฐฐํฌ ๊ฒฐ์
Use a local LLM if:
- โขQwen3 7B ๋๋ 14B๋ฅผ ํ๋ฃจ 4์๊ฐ ์ด์ ์ฌ์ฉ โ mini PC ๋๋ GPU ๊ตฌ๋งค ๊ถ์ฅ; ํด๋ผ์ฐ๋๊ฐ ๋ ๋น์
- โข์ธํฐ๋ํฐ๋ธ ์ฝ๋ ๋๋ ๋ฌธ์ ์ํฌํ๋ก์์ ์ง์ฐ ์๊ฐ 80ms ๋ฏธ๋ง ํ์
- โข๋คํธ์ํฌ ์ธ๋ถ๋ก ๋๊ฐ์๋ ์ ๋๋ ๊ฐ์ธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ
- โข์ด๋ฏธ 12 GB ์ด์ VRAM์ ๋ฐ์คํฌํฑ GPU๋ฅผ ์ ํด ์ํ๋ก ๋ณด์
Use a cloud model if:
- โขQwen3 72B ๋น์ ๊ธฐ ์ฌ์ฉ (ํ๋ฃจ 4์๊ฐ ๋ฏธ๋ง) โ RunPod A40 48 GB $0.44/์๊ฐ์ด ๋์ผ GPU ๋น๋๋ณด๋ค ํจ์ฌ ์ ๋ ด
- โขํ๋์จ์ด ๊ตฌ๋งค ์ Qwen3 72B๋ฅผ ํ ์คํธํด์ผ ํ๋ ๊ฒฝ์ฐ
- โข์ฌ์ฉ ํจํด์ด ๋ถ๊ท์นํ๊ณ ์์ธก ๋ถ๊ฐ๋ฅ โ ํด๋ผ์ฐ๋๋ ๋ฏธ์ฌ์ฉ ์ ๋น์ฉ์ด 0์ผ๋ก ์ค์ด๋ฆ
- โข๋ฏธ๊ตญ/EU ์ธ ์ง์ญ์ ์๊ณ ๋ฐฐ์ก๋น ๋๋ ์์ ๊ด์ธ๋ก ํ๋์จ์ด ๋น์ฉ์ด ์ฆ๊ฐํ๋ ๊ฒฝ์ฐ
Quick decision:
- โ๋งค์ผ Qwen3 7B: Minisforum UM890 Pro ($429)
- โ๋งค์ผ Qwen3 14B: AOOSTAR + RTX 4060 Ti (์ฝ $800)
- โ๋งค์ผ Qwen3 32B: ์ปดํฉํธ ATX + RTX 4090 (์ฝ $2,800)
- โ๋น์ ๊ธฐ Qwen3 72B: RunPod A40 48 GB ($0.44/์๊ฐ)
๊ด๋ จ ๊ฐ์ด๋
- Ollama ๊ธฐ์ด Qwen ์ค์ (์ ๋ฌธ): /ko/power-local-llm/run-qwen-locally-guide-2026
- ๋ก์ปฌ LLM์ฉ GPU ๊ตฌ๋งค ๊ฐ์ด๋: /ko/power-local-llm/best-gpu-buying-guide-local-llm-2026
- ๋ชจ๋ธ ํ์ผ์ฉ NAS ์คํ ๋ฆฌ์ง: /ko/power-local-llm/best-nas-storage-local-ai-models-2026
- ํด๋ผ์ฐ๋ GPU ๋น๊ต (์๊ตฌ ๊ณต๊ธ์ ์ฒด): /ko/power-local-llm/cloud-gpu-rental-guide-2026
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
RTX 4090 ํ ์ฅ์ผ๋ก Qwen3 72B๋ฅผ ์คํํ ์ ์์ต๋๊น?
์๋์. Q4_K_M ์์ํ์ Qwen3 72B๋ VRAM 43.5 GB๊ฐ ํ์ํฉ๋๋ค. RTX 4090์ 24 GB์ ๋๋ค. RTX 4090 ๋ ์ฅ(ํฉ๊ณ 48 GB), A100 80 GB, ๋๋ ํด๋ผ์ฐ๋ GPU ๋์ฌ๊ฐ ํ์ํฉ๋๋ค. RTX 4090 ํ ์ฅ์ผ๋ก๋ Q4_K_M์ Qwen3 32B(20.1 GB)๋ฅผ ์ฌ์ ์๊ฒ ์คํํ ์ ์์ต๋๋ค.
ํ๋ก๋์ Qwen ๋ฐฐํฌ์์ Ollama์ vLLM์ ์ฐจ์ด์ ์ ๋ฌด์์ ๋๊น?
Ollama๋ ์ค์ ์ด ์ฝ๊ณ Multi-GPU ๋ถ์ฐ์ ์๋์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค โ ๊ฐ์ธ ์๋ฒ ๋ฐ ๋์ ์ฌ์ฉ์ 20๋ช ๋ฏธ๋ง์ ํ์ ์ต์ ์ ๋๋ค. vLLM์ ํ ์ ๋ณ๋ ฌ์ฑ๊ณผ ์ฐ์ ๋ฐฐ์นญ์ ์ฌ์ฉํ์ฌ ๋์ ๋ถํ์์ 2โ4๋ฐฐ ํจ์จ์ โ ์๊ฐ๋น 100๊ฐ ์ด์์ ์์ฒญ์ด๋ ๋ค์ ์ฌ์ฉ์๋ฅผ ์ํ ํ๋ก๋์ API์ ์ต์ ์ ๋๋ค.
Ollama๋ Qwen์ Multi-GPU ์ถ๋ก ์ ๋ค์ดํฐ๋ธ๋ก ์ง์ํฉ๋๊น?
์, Ollama 0.3.0(2025)๋ถํฐ ์ง์ํฉ๋๋ค. CUDA_VISIBLE_DEVICES=0,1๋ก ์ฌ์ฉํ GPU๋ฅผ ์ง์ ํ์ญ์์ค. Ollama๊ฐ ์๋์ผ๋ก ๋ชจ๋ธ์ ๋ถ์ฐํฉ๋๋ค. RTX 4090 ๋ ์ฅ์ Qwen3 72B์์ 5โ8 tok/s๋ฅผ ์์ํ์ญ์์ค โ ์๋น์ ๊ตฌ์ฑ์์๋ NVLink ๋์ PCIe๋ฅผ ํตํด ๋ชจ๋ธ์ด ๋ถ์ฐ๋๋ฏ๋ก A100 80 GB ๋จ์ผ ์นด๋๋ณด๋ค ๋๋ฆฝ๋๋ค.
Qwen ์ถ๋ก ์์ Alibaba Cloud๊ฐ RunPod๋ณด๋ค ์ ๋ ดํฉ๋๊น?
Alibaba Cloud PAI๋ GPU ๋ฑ๊ธ ๋ฐ ์ง์ญ์ ๋ฐ๋ผ ์๊ฐ๋น $0.50โ2.00์ ๋๋ค. RunPod A40 48 GB๋ ์๊ฐ๋น $0.44์ ๋๋ค. Alibaba Cloud๋ ์ผ๋ฐ Ollama๋ณด๋ค 20โ30% ๋น ๋ฅผ ์ ์๋ Qwen ์ฌ์ ๊ตฌ์ฑ ์ถ๋ก ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค โ ์ด๋ฏธ Alibaba Cloud ์ํ๊ณ๋ฅผ ์ฌ์ฉํ๊ณ ์๋ค๋ฉด ์๋ํด๋ณผ ๋งํฉ๋๋ค. ์์ ๋น์ฉ ์ธก๋ฉด์์๋ RunPod ์คํ ์ธ์คํด์ค๊ฐ ๋ ์ ๋ ดํฉ๋๋ค.
์์ ๊ฐ๋ Qwen ์๋ฒ๋ ์ ๊ธฐ๋ฅผ ์ผ๋ง๋ ์ฌ์ฉํฉ๋๊น?
CPU๋ก Qwen3 7B๋ฅผ ์คํํ๋ Minisforum UM890 Pro๋ ์ ํด ์ 12W, ๋ถํ ์ 45W๋ฅผ ์๋นํฉ๋๋ค. ๋ฏธ๊ตญ ํ๊ท ์ ๊ธฐ์๊ธ($0.16/kWh)์ผ๋ก 24/7 ์ด์ ๋น์ฉ์ ์ ์ฝ $0.70โ1.80์ ๋๋ค. RTX 4060 Ti 16 GB๋ ๋ถํ ์ 165W โ ์ฌ๊ธฐ์ mini PC ์ ํด ์๋น๋(์ฝ 25W)์ ํฉ์น๋ฉด ์ด ์ฝ 190W๋ก, 24/7 ์ต๋ ๋ถํ ๊ธฐ์ค ์ ์ฝ $7โ8์ ๋๋ค.
Self-hosted Qwen API๋ฅผ ChatGPT ํธํ ์ ํ๋ฆฌ์ผ์ด์ ๊ณผ ํจ๊ป ์ฌ์ฉํ ์ ์์ต๋๊น?
์. Ollama๋ http://your-server:11434/v1์์ OpenAI ํธํ API๋ฅผ ๋ ธ์ถํฉ๋๋ค. ์ ํ๋ฆฌ์ผ์ด์ ์์ OPENAI_API_BASE=http://your-server:11434/v1 ๋ฐ OPENAI_API_KEY=any-value๋ฅผ ์ค์ ํ์ญ์์ค. OpenAI Chat Completions API๋ฅผ ํธ์ถํ๋ ๋ชจ๋ ๋๊ตฌ โ Continue.dev, Cursor(๋ก์ปฌ ๋ชจ๋), LangChain, AutoGen โ ๋ ์์ ์์ด ๋์ํฉ๋๋ค.
์ ๋ฐ์ดํธ ๊ธฐ๋ก
- 2026-05-26: ์ต์ด ๊ฒ์. 2026๋ 5์ ํ๋์จ์ด ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ. Newegg, Amazon ๋ฐ GPU ์์ฅ ์ถ์ ๊ธฐ์์ ๊ฐ๊ฒฉ ๊ฒ์ฆ.
- ๋ค์ ๊ฒํ ์์ : 2026-11-26