70B๊ฐ ์ค์ํ ์ด์ : 8B์์์ ํ์ง ๋์ฝ
8B์์ 70B ํ๋ผ๋ฏธํฐ๋ก์ ๋์ฝ์ ๋ก์ปฌ AI์์ ๊ฐ์ฅ ์ค์ํ ํ์ง ์๊ณ์ ์ ๋๋ค. ์ฐ์ ๋ฒค์น๋งํฌ ์ ์:
| ๋ฒค์น๋งํฌ | Llama 3.3 8B | Llama 3.3 70B Q5 | GPT-5.5 |
|---|---|---|---|
| MMLU (์ผ๋ฐ ์ง์) | 73.0 | 86.1 | 88.7 |
| HumanEval (์ฝ๋) | 72.6 | 80.5 | 90.2 |
| GSM8K (์ํ) | 84.5 | 95.1 | 95.8 |
| BBH (์ถ๋ก ) | 71.0 | 85.3 | 88.9 |
| ํ๊ท | 75.3 | 86.8 | 90.9 |
70B Q5๋ 8B์ GPT-5.5 ์ฌ์ด์ ํ์ง ๊ฒฉ์ฐจ๋ฅผ 75% ์ขํ๋๋ค โ ์ $0์ผ๋ก ๋ก์ปฌ์์ ์คํํ๋ฉด์.
70B ๋ชจ๋ธ์ ์คํํ ์ ์๋ ํ๋์จ์ด
| ํ๋์จ์ด | ์์ํ | ๋ชจ๋ธ ํฌ๊ธฐ | tok/s | ํ์ง | ์ ํฉ ์ฌ๋ถ |
|---|---|---|---|---|---|
| M3 Max 96GB | Q4_K_M | 42 GB | 9โ13 | ์ํธ | โ ๊ฐ๋ฅ |
| M3 Max 128GB | Q5_K_M | 49 GB | 8โ12 | ๋งค์ฐ ์ํธ | โ ๊ฐ๋ฅ |
| M4 Max 128GB | Q5_K_M | 49 GB | 10โ14 | ๋งค์ฐ ์ํธ | โ ๊ฐ๋ฅ |
| M5 Max 128GB | Q4_K_M | 42 GB | 15โ20 | ์ํธ | โ ๊ฐ๋ฅ |
| M5 Max 128GB | Q5_K_M | 49 GB | 12โ16 | ๋งค์ฐ ์ํธ | โ ๊ฐ๋ฅ |
| M5 Max 128GB | Q8_0 | 74 GB | 8โ12 | ๋ฌด์์ค | โ ๊ฐ๋ฅ |
| M5 Ultra 256GB (์์) | FP16 | 140 GB | 14โ18 | ์๋ฒฝ | โ ๊ฐ๋ฅ |
| RTX 4090 24GB | ๋ชจ๋ | 42 GB+ | โ | โ | โ OOM |
| Dual RTX 3090 48GB | Q4_K_M | 42 GB | 12โ15 | ์ํธ | โ ๊ฐ๋ฅ(๋ณต์ก) |
| Dual RTX 4090 48GB | Q5_K_M | 49 GB | 18โ25 | ๋งค์ฐ ์ํธ | โ ๊ฐ๋ฅ($5,000+) |
| 4ร RTX 3090 96GB | Q8_0 | 74 GB | 12โ16 | ๋ฌด์์ค | โ ๊ฐ๋ฅ(๊ณ ๋น์ฉ) |
M5 Max 128GB๋ ๋ณต์กํ ๋ฉํฐ GPU ์ค์ ์์ด 70B ๋ชจ๋ธ์ ์คํํ ์ ์๋ ์ ์ผํ ์๋น์์ฉ ํ๋์จ์ด์ ๋๋ค. $4,000์ง๋ฆฌ Mac Studio ๊ตฌ์ฑ์ $5,000โ8,000์ง๋ฆฌ NVIDIA ๋ฉํฐ GPU ์ฅ๋น๋ฅผ ๋์ฒดํฉ๋๋ค.
๋จ๊ณ๋ณ ๊ฐ์ด๋: M5 Max 128GB์์ 70B ์คํํ๊ธฐ
1๋จ๊ณ: ํ๋์จ์ด๋ฅผ ํ์ธํ์ญ์์ค. 2๋จ๊ณ: Ollama๋ฅผ ์ค์นํ๊ณ ๊ตฌ์ฑํ์ญ์์ค.
# 1๋จ๊ณ: ํตํฉ ๋ฉ๋ชจ๋ฆฌ ํ์ธ (128 GB๋ก ํ์๋์ด์ผ ํจ)
system_profiler SPHardwareDataType | grep Memory
# โ Memory: 128 GB
# 2๋จ๊ณ: Ollama ์ค์น
brew install ollama
brew services start ollama
# 3๋จ๊ณ: 70B์ฉ ๊ตฌ์ฑ (๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์งํ์ฌ ๊ฐ ์์ฒญ ์ 60์ด ์๋ฐ์
๋ฐฉ์ง)
echo 'export OLLAMA_KEEP_ALIVE=1h' >> ~/.zshrc
echo 'export OLLAMA_NUM_PARALLEL=1' >> ~/.zshrc
source ~/.zshrc
brew services restart ollama3๋จ๊ณ: 70B ๋ชจ๋ธ ๋ค์ด๋ก๋
100 Mbps ์ฐ๊ฒฐ์์ ๋ค์ด๋ก๋ ์๊ฐ: 45โ90๋ถ. 1 Gbps์์: 5โ10๋ถ.
# ๊ถ์ฅ: Q5_K_M โ ์ต๊ณ ์ ํ์ง/์๋ ๊ท ํ (49 GB ๋ค์ด๋ก๋)
ollama pull llama3.1:70b-instruct-q5_K_M
# ๋์: Q4 โ ์ต๋ ์๋, 42 GB ๋ค์ด๋ก๋
ollama pull llama3.1:70b-instruct-q4_K_M
# ๋์: Q8 โ ๋ฌด์์ค ํ์ง, 74 GB ๋ค์ด๋ก๋
ollama pull llama3.1:70b-instruct-q8_04โ6๋จ๊ณ: ์ฒซ ์คํ, Metal ํ์ธ, ๋ฉ๋ชจ๋ฆฌ ์ฒดํฌ
์ฒซ ๋ฒ์งธ ์์ฒญ์ 49 GB๋ฅผ ํตํฉ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํ๋ ๋ฐ 30โ60์ด๊ฐ ๊ฑธ๋ฆฝ๋๋ค. ์ดํ ์์ฒญ์ ์ฆ์ ์ฒ๋ฆฌ๋ฉ๋๋ค.
# 4๋จ๊ณ: ์ฒซ ์คํ (๋ชจ๋ธ ๋ก๋์ 30-60์ด ๋๊ธฐ)
ollama run llama3.1:70b-instruct-q5_K_M "Write a 200-word essay on local AI"
# 5๋จ๊ณ: Metal GPU ๊ฐ์์ด ํ์ฑํ๋์ด ์๋์ง ํ์ธ
ollama run llama3.1:70b-instruct-q5_K_M --verbose
# ์์ ์ถ๋ ฅ: ggml_metal_init: found device: Apple M5 Max
# 6๋จ๊ณ: ์ ํ๋ฆฌ์ผ์ด์
์ ์ํ API ์ ๊ทผ
curl http://localhost:11434/api/chat -d '{
"model": "llama3.1:70b-instruct-q5_K_M",
"messages": [{"role": "user", "content": "Explain quantum computing"}]
}'ํ์ง ๋น๊ต: 8B vs 70B vs GPT-5.5
์คํ ์ค๋ฒํ๋ก์ฐ๋ ๋๋ฌด ๋ง์ ํจ์ ํธ์ถ์ด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ด๊ณผํ ๋ ๋ฐ์ํฉ๋๋ค.
ํ๋กฌํํธ: "์ฌ๊ท ํจ์์์ ์คํ ์ค๋ฒํ๋ก์ฐ๊ฐ ๋ฐ์ํ๋ ์ด์ ๋ฅผ ์ค๋ช ํ๊ณ , ์ถฉ๋ ์ ์ ๋ฌดํ ์ฌ๊ท๋ฅผ ๊ฐ์งํ๋ Python ํจ์๋ฅผ ์์ฑํ์ญ์์ค."
Llama 3.3 8B Q4 ์๋ต (16GB+ Mac์์ ์คํ ๊ฐ๋ฅ):
def detect_recursion(func):
count = 0
try:
func()
except RecursionError:
count += 1
return count > 0Llama 3.3 70B Q5 ์๋ต (M5 Max 128GB)
์ฌ๊ท์์์ ์คํ ์ค๋ฒํ๋ก์ฐ๋ ํธ์ถ ์คํ์ด OS๊ฐ ๋ถ๊ณผํ ์ ํ(์ผ๋ฐ์ ์ผ๋ก 1MBโ8MB)์ ์ด๊ณผํ ๋ ๋ฐ์ํฉ๋๋ค. ๊ฐ ์ฌ๊ท ํธ์ถ์ ์ง์ญ ๋ณ์์ ๋ฐํ ์ฃผ์๋ฅผ ํฌํจํ๋ ์คํ ํ๋ ์์ ์ถ๊ฐํฉ๋๋ค. Python์ ๊ธฐ๋ณธ ์ ํ์ 1000๋ฒ์ ํธ์ถ์ ๋๋ค.
import sys
import functools
def detect_recursion(threshold=900):
def decorator(func):
depth = 0
@functools.wraps(func)
def wrapper(*args, **kwargs):
nonlocal depth
depth += 1
try:
if depth > threshold:
raise RecursionError(
f"Detected potential infinite recursion at depth {depth}"
)
return func(*args, **kwargs)
finally:
depth -= 1
return wrapper
return decorator70B ๋ชจ๋ธ์ ์์ํ ์ฌ์ธต ๋ถ์
- Q4 vs Q5 ํ์ง ์ฐจ์ด๋ 8B๋ณด๋ค 70B์์ ๋ ํฝ๋๋ค. Q4: ์ฝ 3โ5% ํ์ง ์์ค. Q5: FP16 ๋๋น ์ฝ 0.5โ1% ์์ค.
- 8B ๋ชจ๋ธ์์๋ Q4 vs Q8์ ์ฐจ์ด๊ฐ ๊ฑฐ์ ๋๊ปด์ง์ง ์์ต๋๋ค. 70B์์๋ ๋ณต์กํ ์ถ๋ก ๊ณผ ์ฝ๋์์ Q4 vs Q8์ ์ฐจ์ด๊ฐ ์๋นํฉ๋๋ค.
- ๊ถ์ฅ์ฌํญ: Q5_K_M์ด ์ต์ ์ ๊ท ํ์ ์ ๋๋ค. ์๋๊ฐ ์ค์ํ ๊ฒฝ์ฐ(์ฑํ , ์๋์์ฑ)์๋ Q4๋ฅผ, ์ถ๋ ฅ ํ์ง์ด ์ค์ํ ๊ฒฝ์ฐ(๋ฒ๋ฅ , ์ฝ๋ ๋ฆฌ๋ทฐ)์๋ Q8์ ์ฌ์ฉํ์ญ์์ค.
- ๋ฉ๋ชจ๋ฆฌ: Q4 = 42 GB, Q5 = 49 GB, Q8 = 74 GB. ๋ชจ๋ M5 Max 128GB์ ๋ง์ต๋๋ค. OS(์ฝ 8 GB) ๋ฐ ์ฑ์ ์ํ ์ฌ์ ๊ณต๊ฐ์ ๋จ๊ฒจ ๋์ญ์์ค.
- ์ค์ tok/s: Q4 = 15โ20, Q5 = 12โ16, Q8 = 8โ12. 12 tok/s์์ 500๋จ์ด ์๋ต์ ์ฝ 40์ด๊ฐ ๊ฑธ๋ฆฝ๋๋ค.
Apple Silicon์ ์ํ ๋์ 70B+ ๋ชจ๋ธ
| ๋ชจ๋ธ | ํฌ๊ธฐ (Q5) | ์ต์ ์ฉ๋ | M5 Max tok/s |
|---|---|---|---|
| Llama 3.3 70B Instruct | 49 GB | ๋ฒ์ฉ, ์ถ๋ก | 12โ16 |
| Qwen3 72B Instruct | 51 GB | ๋ค๊ตญ์ด, ์ํ, ์ฝ๋ | 11โ15 |
| DeepSeek 67B | 47 GB | ์ฝ๋ฉ ์ฐ์์ฑ | 12โ16 |
| Llama 3.3 70B Coder | 49 GB | ์์ ์ฝ๋ฉ ์์ | 13โ17 |
| Mixtral 8x22B (MoE) | โ | ๊ณ ํ์ง ์ถ๋ก | 18โ22 |
| Cohere Command R+ 104B | โ | RAG, 128K ์ปจํ ์คํธ | 8โ12 |
์ฉ๋๋ณ ๊ถ์ฅ์ฌํญ: ๋ฒ์ฉ ์ถ๋ก โ Llama 3.3 70B Q5. ์ฝ๋ โ DeepSeek 67B. ๋น์์ด๊ถ โ Qwen3 72B. ๋ฌธ์ Q&A โ Command R+. ์ต๋ ์๋ โ Mixtral 8x22B (MoE๋ ๋ ์ ์ ํ์ฑ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉ).
๋์ ๋ชจ๋ธ ๋ค์ด๋ก๋
ollama pull qwen2.5:72b-instruct-q5_K_M
ollama pull deepseek-coder:67b-q5_K_M
ollama pull mixtral:8x22b70B ๋ก์ปฌ vs ํด๋ผ์ฐ๋ API โ ์์ธ ๋น๊ต
| ์งํ | 70B Q5 ๋ก์ปฌ (M5 Max) | GPT-5.5 API | Claude Sonnet 3.5 | Gemini 3.5 Pro |
|---|---|---|---|---|
| ํ์ง (MMLU) | 86.1 | 88.7 | 88.7 | 85.9 |
| ์๋ (tok/s) | 12โ16 | 50โ80 | 50โ80 | 60โ100 |
| ์ฒซ ํ ํฐ ์ง์ฐ | 1โ2์ด | 0.3โ0.8์ด | 0.4โ0.9์ด | 0.5โ1์ด |
| 1M ํ ํฐ๋น ๋น์ฉ | $0 | $2.50/$10.00 | $3.00/$15.00 | $1.25/$5.00 |
| ์ ๋น์ฉ (5M ํ ํฐ) | $0 | $50โ150 | $75โ200 | $30โ80 |
| ๊ฐ์ธ์ ๋ณด ๋ณดํธ | 100% ๋ก์ปฌ | OpenAI๋ก ์ ์ก | Anthropic์ผ๋ก ์ ์ก | Google๋ก ์ ์ก |
| ์ธํฐ๋ท ํ์ | ์๋์ค | ์ | ์ | ์ |
| ์๋ ์ ํ | ์์ | ํฐ์ด ๊ธฐ๋ฐ | ํฐ์ด ๊ธฐ๋ฐ | ํฐ์ด ๊ธฐ๋ฐ |
| ์ปค์คํฐ๋ง์ด์ ์ด์ | ์์ ์ง์ (๋ก์ปฌ ํ์ธํ๋) | ์ ํ๋จ | ์ ํ๋จ | ์ ํ๋จ |
70B Q5 ๋ก์ปฌ์ MMLU์์ ํด๋ผ์ฐ๋ ํ์ง์ 3% ์ด๋ด์ ๋๋ค. $4,000 ํ๋์จ์ด ๋น์ฉ๊ณผ ์ $50โ150 ํด๋ผ์ฐ๋ ์ ๊ฐ์ ๊ณ ๋ คํ๋ฉด, ์ฌ์ฉ๋์ ๋ฐ๋ผ ํฌ์ ํ์ ๊ธฐ๊ฐ์ 27โ80๊ฐ์์ ๋๋ค. ์๋ฃ, ๋ฒ๋ฅ , ๊ธ์ต ๋ฑ ๊ฐ์ธ์ ๋ณด ๋ณดํธ๊ฐ ํ์ํ ์์ ์์๋ ํด๋ผ์ฐ๋ ๋์์ด ์์ต๋๋ค.
70B ๋ก์ปฌ ์ถ๋ก ์ ์ค์ ํ์ฉ ์ฌ๋ก
- 1๊ธฐ๋ฐ ๋ฌธ์ ๋ถ์
Why it matters: ๋ฒ์ ๊ณ์ฝ์, ์๋ฃ ๊ธฐ๋ก, ์ฌ๋ฌด์ ํ, M&A ์ค์ฌ. HIPAA, GDPR ๋๋ NDA ํ์์ ํด๋ผ์ฐ๋ API๋ ํ์ฉ๋์ง ์์ต๋๋ค. M5 Max์์์ 70B Q5๋ ๋ฐ์ดํฐ ์ ์ถ ์์ด ํด๋ผ์ฐ๋ ์์ค์ ๋ถ์์ ์ ๊ณตํฉ๋๋ค. - 2๋์ฉ๋ ์ฝ๋ฉ ์ง์
Why it matters: Copilot์ ํ๋ฃจ 8์๊ฐ ์ฌ์ฉํ๋ ๊ฐ์ธ ๊ฐ๋ฐ์: ์ ์ฝ $10. 10๋ช ํ์ด 70B Coder๋ฅผ ๋ก์ปฌ๋ก ์ฌ์ฉ: ์ $0. ์ฝ๋๋ ํ์ฌ ๋คํธ์ํฌ๋ฅผ ๋ฒ์ด๋์ง ์์ต๋๋ค. ๊ณต์ ์ถ๋ก ์๋ฒ๋ก์์ M5 Max๋ 10์ธ ํ์์ 3๊ฐ์ ์์ ๋น์ฉ์ ํ์ํฉ๋๋ค. - 3์ฅ๋ฌธ ์ฝํ ์ธ ์์ฑ
Why it matters: 5,000๋จ์ด ๋ธ๋ก๊ทธ ํฌ์คํธ, ๊ธฐ์ ๋ฌธ์. 70B๋ 8B๋ณด๋ค ํจ์ฌ ์ฐ์ํ ์ฅ๋ฌธ ์ฝํ ์ธ ๋ฅผ ์์ฑํฉ๋๋ค. ๋ก์ปฌ: ํ ํฐ ์ ํ ์์, ์๋ ์ ํ ์์. API ๋น์ฉ $50โ100 ๋๋น $0์ผ๋ก ํ๋ฃจ 50,000๋จ์ด๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. - 4์ฐ๊ตฌ ๋ฐ ํ์ ์ฉ๋
Why it matters: ๋ฌธํ ๊ฒํ ๋ฅผ ์ํ ์์ฒ ํธ์ ๋ ผ๋ฌธ ์ฒ๋ฆฌ, ๋ค์ํ ๋ถ์ผ์ ๊ฑธ์น ๊ฐ์ค ์์ฑ. 70B ์ถ๋ก ํ์ง์ด ํ์ํฉ๋๋ค. ํ์ ๋ฐ ๋ฐ์ฌํ ์ฐ๊ตฌ์์ ์์ฐ์๋ ํด๋ผ์ฐ๋ ๋น์ฉ์ด ๋ถ๋ด์ค๋ฝ์ต๋๋ค. - 5๊ฐ์ธ์ ๋ณด ๋ณดํธ ์ฐ์ ๊ฐ์ธ AI
Why it matters: ๊ฐ์ธ ์ผ๊ธฐ ๋ถ์, ๊ฐ์กฑ ์ฌ์ ๊ณํ, ๊ฐ์ธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๊ฑด๊ฐ ์ฑ์ฐฐ. ์ ๊ฐ์กฑ์ ์ํด ChatGPT Plus๋ฅผ ๋์ฒดํฉ๋๋ค. ์ 3์์๊ฒ ๋ฐ์ดํฐ๊ฐ ์ ์ก๋์ง ์์ต๋๋ค. - 6์คํ๋ผ์ธ ์ค์ ์ํฌํ๋ก์ฐ
Why it matters: ์ ํ์ ์ธ ์ง์ญ์ ํ์ฅ ์ธ๋ก ์ธ, ์ค์ง์ ์๋ฃ ์ ๋ฌธ๊ฐ, ์์ ์ ์ธ ์ธํฐ๋ท ์๋ ์ฌํ, ์ธ๋ถ ๋คํธ์ํฌ ์ ๊ทผ์ด ์๋ ๋ณด์ ์์ค.
์๋ ์ต์ ํ: MLX vs Ollama
MLX๋ Apple์ ๋ค์ดํฐ๋ธ ML ํ๋ ์์ํฌ๋ก, ๋์ผํ ๋ชจ๋ธ์์ Ollama๋ณด๋ค 15โ25% ๋น ๋ฆ ๋๋ค. M5 Max์์ 70B Q5: Ollama = 12โ16 tok/s, MLX = 18โ22 tok/s.
from mlx_lm import load, generate
# 70B Q5 ๋ชจ๋ธ ๋ก๋ (Hugging Face์ MLX ๋ณํ ๋ฒ์ )
model, tokenizer = load("mlx-community/Llama-3.1-70B-Instruct-Q5")
# ์คํธ๋ฆฌ๋ฐ ์์ฑ โ ์ฌ์ฉ์๊ฐ 1-2์ด ์์ ์ฒซ ๋จ์ด๋ฅผ ๋ณผ ์ ์์
from mlx_lm import stream_generate
for chunk in stream_generate(model, tokenizer, "Explain quantum computing", max_tokens=500):
print(chunk, end="", flush=True)์ถ๊ฐ ์๋ ํ
- ๋ชจ๋ธ ์ ์ ์ง: OLLAMA_KEEP_ALIVE=1h(๋๋ ํญ์ ์ผ์ ธ ์๋ Mac Mini์ ๊ฒฝ์ฐ 24h)๋ฅผ ์ค์ ํ์ฌ ๊ฐ ์์ฒญ ์ 30โ60์ด์ ์ฌ๋ก๋๋ฅผ ๋ฐฉ์งํ์ญ์์ค.
- ์คํธ๋ฆฌ๋ฐ ์ฌ์ฉ: ์ ์ฒด ์๋ต์ ์ํด 25โ40์ด๋ฅผ ๊ธฐ๋ค๋ฆฌ๋ ๋์ 1โ2์ด ์์ ์ฒซ ํ ํฐ์ ๋ณผ ์ ์์ต๋๋ค.
- max_tokens ๋ฎ์ถ๊ธฐ: 200๋จ์ด ๋ต๋ณ์ด ํ์ํ ๊ฒฝ์ฐ max_tokens=200์ผ๋ก ์ค์ ํ์ญ์์ค. 14 tok/s์์: 200ํ ํฐ = 14์ด vs 500ํ ํฐ = 36์ด.
- Q4 vs Q5 ์๋ ํธ๋ ์ด๋์คํ: Q4 = 15โ20 tok/s (Q5๋ณด๋ค 25% ๋น ๋ฆ). ๋๋ถ๋ถ์ ์์ ์์ ํ์ง ์ฐจ์ด๋ ์ฝ 2โ3%์ ๋๋ค. ์ฑํ ์๋ Q4๋ฅผ, ์ค์ํ ์ถ๋ก ์๋ Q5๋ฅผ ์ฌ์ฉํ์ญ์์ค.
- ์ถ๋ก ์ค์๋ ๋ค๋ฅธ GPU ์ง์ค ์ฑ ์คํ์ ํผํ์ญ์์ค โ Activity Monitor GPU History์์ ๋ค๋ฅธ ํ๋ก์ธ์ค๊ฐ Metal ๋์ญํญ์ ๊ฒฝ์ํ๋์ง ํ์ธํ ์ ์์ต๋๋ค.
M5 Ultra ๋ฏธ๋ฆฌ๋ณด๊ธฐ: ๋ค์ ์ฑ๋ฅ ๋จ๊ณ (2026๋ ์ค๋ฐ ์์)
Apple์ ์ด์ Ultra ํจํด(2ร Max ์ฌ์)์ ๊ธฐ๋ฐ์ผ๋ก ํ M5 Ultra ์์ ์ฌ์: 256 GB ํตํฉ ๋ฉ๋ชจ๋ฆฌ, ์ฝ 1,200 GB/s ๋์ญํญ, ์ฝ 80๊ฐ GPU ์ฝ์ด. Mac Studio Ultra ์ ์ฉ์ผ๋ก ์์๋ฉ๋๋ค.
| ๋ชจ๋ธ | M5 Max 128GB | M5 Ultra 256GB (์์) |
|---|---|---|
| Llama 3.3 70B Q5 | 12โ16 tok/s | 24โ32 tok/s |
| Llama 3.3 70B Q8 | 8โ12 tok/s | 16โ24 tok/s |
| Llama 3.3 70B FP16 (๋ฌด์์ค) | โ ์ฉ๋ ๋ถ์กฑ | 14โ18 tok/s |
| Qwen3 72B Q8 | 8โ12 tok/s | 16โ24 tok/s |
| Mixtral 8x22B Q5 | 14โ18 tok/s | 28โ36 tok/s |
| Llama 3.3 405B Q3 | โ ์ฉ๋ ๋ถ์กฑ | 4โ6 tok/s |
| Llama 3.3 405B Q4 (~200 GB) | โ ์ฉ๋ ๋ถ์กฑ | 3โ5 tok/s |
M5 Ultra์ ํํ: (1) ์๋น์ ํ๋์จ์ด ์ต์ด์ ๋ฌด์์ค 70B FP16. (2) 405B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ. (3) ๋ ๊ฐ์ ๋์ 70B ๋ชจ๋ธ. ์์ ๊ฐ๊ฒฉ: $5,500โ7,000 (Mac Studio Ultra). ๋๊ธฐํด์ผ ํ ๋: 405B ๋ชจ๋ธ, 70B FP16์ด ํ์ํ๊ฑฐ๋ ์ด๋ฏธ M3/M4 Max๋ฅผ ๋ณด์ ํ๊ณ ์๋ ๊ฒฝ์ฐ.
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
70B Q4๋ ๋๋ถ๋ถ์ ์์ ์ ์ถฉ๋ถํฉ๋๊น?
๋ค. Q4๋ ์ ๊ณ ํ์ค ์์ํ์ ๋๋ค. Q5 ๋๋น ์ฝ 3โ5%์ ํ์ง ์์ค์ ๋๋ถ๋ถ์ ์ฑํ , ๊ธ์ฐ๊ธฐ, ๋ฒ์ฉ ์์ ์์ ๊ฑฐ์ ๋๊ปด์ง์ง ์์ต๋๋ค. Q5 ๋๋ Q8์ ์ถ๋ ฅ ํ์ง์ด ์ค์ํ ๊ฒฝ์ฐ(๋ฒ๋ฅ ๋ถ์, ์ฝ๋ ๋ฆฌ๋ทฐ, ์๋ฃ ์ฉ๋)์๋ง ์ฌ์ฉํ์ญ์์ค.
70B Q5์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋์์ ์คํํ ์ ์์ต๋๊น?
๋ค, ๋ ์์ ๋ชจ๋ธ ํ๋์ ํจ๊ป ๊ฐ๋ฅํฉ๋๋ค. 70B Q5 = 49 GB. 128 GB์์ OS ์ค๋ฒํค๋ 8 GB๋ฅผ ๋บ 120 GB. 70B Q5(49 GB) + 7โ8B ๋ชจ๋ธ(5 GB) = ์ด 54 GB โ ์ฌ์ ๋กญ๊ฒ ๊ฐ๋ฅํฉ๋๋ค. ๋ ๊ฐ์ ๋์ 70B ๋ชจ๋ธ์ M5 Ultra 256 GB๊ฐ ํ์ํฉ๋๋ค.
์ง๊ธ M5 Max๋ฅผ ์ฌ๋ ๊ฒ์ด ๋์๊น์, M5 Ultra๋ฅผ ๊ธฐ๋ค๋ ค์ผ ํ ๊น์?
M5 Ultra๋ฅผ ๊ธฐ๋ค๋ ค์ผ ํ๋ ๊ฒฝ์ฐ: (1) 70B FP16(๋ฌด์์ค ํ์ง)์ด ํ์ํ ๊ฒฝ์ฐ, (2) 405B ๋ชจ๋ธ์ด ํ์ํ ๊ฒฝ์ฐ, (3) ์ด๋ฏธ M3 Max ๋๋ M4 Max๋ฅผ ๋ณด์ ํ๊ณ ์๋ ๊ฒฝ์ฐ(M5 Max๋ ๊ฑด๋๋ฐ์ญ์์ค). ์ง๊ธ M5 Max๋ฅผ ๊ตฌ๋งคํด์ผ ํ๋ ๊ฒฝ์ฐ: ์ค๋ ๋น์ฅ 70B ๊ธฐ๋ฅ์ด ํ์ํ๊ณ ์์ฐ์ด $5,000 ๋ฏธ๋ง์ธ ๊ฒฝ์ฐ.
M5 Ultra์์ 70B๊ฐ M5 Max๋ณด๋ค ์ผ๋ง๋ ๋ ๋น ๋ฆ ๋๊น?
๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ๋ ๋ฐฐ(์ฝ 1,200 GB/s vs 614 GB/s)๋ก ํฅ์๋์ด ์ฝ 2๋ฐฐ ๋น ๋ฆ ๋๋ค. M5 Max๋ 70B Q5๋ฅผ 12โ16 tok/s๋ก ์คํํ๋ฉฐ, M5 Ultra๋ 24โ32 tok/s๋ก ์์๋ฉ๋๋ค. M5 Ultra๋ ๋ํ M5 Max์์ ์ฉ๋์ด ๋ถ์กฑํ 70B FP16(๋ฌด์์ค ํ์ง)๋ ์คํํ ์ ์์ต๋๋ค.
M5 Max 128GB์์ ๋ ๊ฐ์ 70B ๋ชจ๋ธ์ ๋์์ ์คํํ ์ ์์ต๋๊น?
์๋์, ๋ ๊ฐ์ ์ ์ฒด 70B ๋ชจ๋ธ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ๋ ๊ฐ์ 70B Q4 ๋ชจ๋ธ = 84 GB์ OS ์ค๋ฒํค๋๋ฅผ ๋ํ๋ฉด ์ฝ 95 GB๋ก, 128 GB์์ ๋น ๋ฏํฉ๋๋ค. M5 Ultra 256 GB๋ ๋ ๊ฐ์ ๋์ 70B ๋ชจ๋ธ์ด๋ 70B ํ๋์ 34B ํ๋๋ฅผ ์ฝ๊ฒ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
70B ๋ชจ๋ธ์ ํ์ํ ๋์คํฌ ๊ณต๊ฐ์ ์ผ๋ง์ ๋๊น?
๊ฐ 70B ๋ชจ๋ธ์ ๋์คํฌ์์ 42 GB(Q4), 49 GB(Q5), ๋๋ 74 GB(Q8)๋ฅผ ์ฐจ์งํฉ๋๋ค. ๋น๊ต๋ฅผ ์ํด ํ ๋ชจ๋ธ์ 3๊ฐ์ง ์์ํ๋ฅผ ์ ์งํ๋ค๋ฉด: 165 GB. ์ฌ๋ฌ ๋ชจ๋ธ๋ก ์ง์งํ๊ฒ 70B ์์ ์ ํ๋ ค๋ฉด Mac Studio์์ 1 TB ๋๋ 2 TB SSD๋ฅผ ์ฌ์ฉํ์ญ์์ค.
70B ๋ก์ปฌ์ด ์ ํน์ ์ฌ์ฉ ์ฌ๋ก์์ GPT-5.5๋งํผ ์ข์ต๋๊น?
70B Q5๋ MMLU์์ 86.1์ ์ ๊ธฐ๋กํ์ฌ GPT-5.5์ 88.7์ ๊ณผ 3% ์ฐจ์ด์ ๋๋ค. ๋ณต์กํ ์ถ๋ก ๊ณผ ์ฌ์ธํ ๊ธ์ฐ๊ธฐ์์๋ GPT-5.5๊ฐ ์ฌ์ ํ ์ฝ๊ฐ ์์ญ๋๋ค. ๊ฐ์ธ์ ๋ณด ๋ณดํธ๊ฐ ํ์ํ ์์ , ๋์ฉ๋ ์ฌ์ฉ($50+/์), ๋๋ ์คํ๋ผ์ธ ์ฌ์ฉ์ ๊ฒฝ์ฐ ๋ก์ปฌ์ด ์๋์ผ๋ก ์ ๋ฆฌํฉ๋๋ค. ๋ณธ์ธ์ ์ํฌํ๋ก์ฐ์์ ์ง์ ํ๋กฌํํธ๋ฅผ ํ ์คํธํ์ฌ ํ์ธํ์ญ์์ค.
Llama 4 ๋๋ ์ต์ 70B ๋ชจ๋ธ์ด M5 Max์์ ์๋ํฉ๋๊น?
๋ค. M5 Max 128 GB๋ ์ํคํ ์ฒ์ ๊ด๊ณ์์ด Q4/Q5/Q8 ์์ํ์ ๋ชจ๋ 70B ๋ชจ๋ธ์ ๋ง์ต๋๋ค. ์๋ก์ด 70B ๋ฆด๋ฆฌ์ค(Llama 4, Qwen3 ๋ฑ)๋ ์ผ๋ฐ์ ์ผ๋ก ์ถ์ ํ ๋ฉฐ์น ์์ Ollama์ ๋ฑ์ฅํฉ๋๋ค. ์ ๋ชจ๋ธ ์ด๋ฆ์ผ๋ก ollama pull์ ์คํํ์ญ์์ค.