Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Apple Silicon M5 Max์—์„œ 70B+ ๋ชจ๋ธ ์‹คํ–‰ํ•˜๊ธฐ 2026: ์™„์ „ ๊ฐ€์ด๋“œ
Hardware & Performance

Apple Silicon M5 Max์—์„œ 70B+ ๋ชจ๋ธ ์‹คํ–‰ํ•˜๊ธฐ 2026: ์™„์ „ ๊ฐ€์ด๋“œ

ยท16๋ถ„ ์ฝ๊ธฐยทBy Hans Kuepper ยท Founder of PromptQuorum, multi-model AI dispatch tool ยท PromptQuorum

M5 Max 128GB๋Š” Llama 3.3 70B๋ฅผ 15โ€“20 tok/s(Q4_K_M) ๋˜๋Š” 12โ€“16 tok/s(Q5_K_M)๋กœ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. 70B Q5๋Š” MMLU์—์„œ 86.1์ ์„ ๊ธฐ๋กํ•˜์—ฌ GPT-5.5(88.7)์™€ 3% ์ด๋‚ด์˜ ์ฐจ์ด๋ฅผ ๋ณด์ด๋ฉฐ, ์›” $0์œผ๋กœ ๋กœ์ปฌ์—์„œ ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ GPU ์„ค์ • ์—†์ด 70B๋ฅผ ์ˆ˜์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์ผํ•œ ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์ž…๋‹ˆ๋‹ค. Ollama๋กœ ์„ค์ •ํ•˜๋Š” ๋ฐ 10๋ถ„๋„ ๊ฑธ๋ฆฌ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

Apple Silicon M5 Max(128GB)์—์„œ 70B ์ด์ƒ์˜ LLM์„ ๋กœ์ปฌ๋กœ ์‹คํ–‰ํ•˜์‹ญ์‹œ์˜ค. Ollama์™€ MLX๋ฅผ ์‚ฌ์šฉํ•œ ์™„์ „ํ•œ ์„ค์ • ๊ฐ€์ด๋“œ, ์–‘์žํ™” ๋น„๊ต(Q4/Q5/Q8), 8B ๋Œ€ 70B ํ’ˆ์งˆ ๋ฒค์น˜๋งˆํฌ, ์‹ค์ œ tok/s ์ˆ˜์น˜, 70B ๋Œ€ ํด๋ผ์šฐ๋“œ API ๋น„์šฉ ๋ถ„์„, ๋Œ€์•ˆ 70B+ ๋ชจ๋ธ, ์†๋„ ์ตœ์ ํ™”, ๊ทธ๋ฆฌ๊ณ  2026๋…„ M5 Ultra ์ „๋ง์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

70B๊ฐ€ ์ค‘์š”ํ•œ ์ด์œ : 8B์—์„œ์˜ ํ’ˆ์งˆ ๋„์•ฝ

8B์—์„œ 70B ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ์˜ ๋„์•ฝ์€ ๋กœ์ปฌ AI์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํ’ˆ์งˆ ์ž„๊ณ„์ ์ž…๋‹ˆ๋‹ค. ์‚ฐ์—… ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜:

๋ฒค์น˜๋งˆํฌLlama 3.3 8BLlama 3.3 70B Q5GPT-5.5
MMLU (์ผ๋ฐ˜ ์ง€์‹)73.086.188.7
HumanEval (์ฝ”๋“œ)72.680.590.2
GSM8K (์ˆ˜ํ•™)84.595.195.8
BBH (์ถ”๋ก )71.085.388.9
ํ‰๊ท 75.386.890.9

70B Q5๋Š” 8B์™€ GPT-5.5 ์‚ฌ์ด์˜ ํ’ˆ์งˆ ๊ฒฉ์ฐจ๋ฅผ 75% ์ขํž™๋‹ˆ๋‹ค โ€” ์›” $0์œผ๋กœ ๋กœ์ปฌ์—์„œ ์‹คํ–‰ํ•˜๋ฉด์„œ.

70B ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ํ•˜๋“œ์›จ์–ด

ํ•˜๋“œ์›จ์–ด์–‘์žํ™”๋ชจ๋ธ ํฌ๊ธฐtok/sํ’ˆ์งˆ์ ํ•ฉ ์—ฌ๋ถ€
M3 Max 96GBQ4_K_M42 GB9โ€“13์–‘ํ˜ธโœ“ ๊ฐ€๋Šฅ
M3 Max 128GBQ5_K_M49 GB8โ€“12๋งค์šฐ ์–‘ํ˜ธโœ“ ๊ฐ€๋Šฅ
M4 Max 128GBQ5_K_M49 GB10โ€“14๋งค์šฐ ์–‘ํ˜ธโœ“ ๊ฐ€๋Šฅ
M5 Max 128GBQ4_K_M42 GB15โ€“20์–‘ํ˜ธโœ“ ๊ฐ€๋Šฅ
M5 Max 128GBQ5_K_M49 GB12โ€“16๋งค์šฐ ์–‘ํ˜ธโœ“ ๊ฐ€๋Šฅ
M5 Max 128GBQ8_074 GB8โ€“12๋ฌด์†์‹คโœ“ ๊ฐ€๋Šฅ
M5 Ultra 256GB (์˜ˆ์ƒ)FP16140 GB14โ€“18์™„๋ฒฝโœ“ ๊ฐ€๋Šฅ
RTX 4090 24GB๋ชจ๋‘42 GB+โ€”โ€”โœ— OOM
Dual RTX 3090 48GBQ4_K_M42 GB12โ€“15์–‘ํ˜ธโœ“ ๊ฐ€๋Šฅ(๋ณต์žก)
Dual RTX 4090 48GBQ5_K_M49 GB18โ€“25๋งค์šฐ ์–‘ํ˜ธโœ“ ๊ฐ€๋Šฅ($5,000+)
4ร— RTX 3090 96GBQ8_074 GB12โ€“16๋ฌด์†์‹คโœ“ ๊ฐ€๋Šฅ(๊ณ ๋น„์šฉ)

M5 Max 128GB๋Š” ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ GPU ์„ค์ • ์—†์ด 70B ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์ผํ•œ ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์ž…๋‹ˆ๋‹ค. $4,000์งœ๋ฆฌ Mac Studio ๊ตฌ์„ฑ์€ $5,000โ€“8,000์งœ๋ฆฌ NVIDIA ๋ฉ€ํ‹ฐ GPU ์žฅ๋น„๋ฅผ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๊ฐ€์ด๋“œ: M5 Max 128GB์—์„œ 70B ์‹คํ–‰ํ•˜๊ธฐ

1๋‹จ๊ณ„: ํ•˜๋“œ์›จ์–ด๋ฅผ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค. 2๋‹จ๊ณ„: Ollama๋ฅผ ์„ค์น˜ํ•˜๊ณ  ๊ตฌ์„ฑํ•˜์‹ญ์‹œ์˜ค.

bash
# 1๋‹จ๊ณ„: ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ ํ™•์ธ (128 GB๋กœ ํ‘œ์‹œ๋˜์–ด์•ผ ํ•จ)
system_profiler SPHardwareDataType | grep Memory
# โ†’ Memory: 128 GB

# 2๋‹จ๊ณ„: Ollama ์„ค์น˜
brew install ollama
brew services start ollama

# 3๋‹จ๊ณ„: 70B์šฉ ๊ตฌ์„ฑ (๋ชจ๋ธ์„ ๋ฉ”๋ชจ๋ฆฌ์— ์œ ์ง€ํ•˜์—ฌ ๊ฐ ์š”์ฒญ ์‹œ 60์ดˆ ์›Œ๋ฐ์—… ๋ฐฉ์ง€)
echo 'export OLLAMA_KEEP_ALIVE=1h' >> ~/.zshrc
echo 'export OLLAMA_NUM_PARALLEL=1' >> ~/.zshrc
source ~/.zshrc
brew services restart ollama

3๋‹จ๊ณ„: 70B ๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ

100 Mbps ์—ฐ๊ฒฐ์—์„œ ๋‹ค์šด๋กœ๋“œ ์‹œ๊ฐ„: 45โ€“90๋ถ„. 1 Gbps์—์„œ: 5โ€“10๋ถ„.

bash
# ๊ถŒ์žฅ: Q5_K_M โ€” ์ตœ๊ณ ์˜ ํ’ˆ์งˆ/์†๋„ ๊ท ํ˜• (49 GB ๋‹ค์šด๋กœ๋“œ)
ollama pull llama3.1:70b-instruct-q5_K_M

# ๋Œ€์•ˆ: Q4 โ€” ์ตœ๋Œ€ ์†๋„, 42 GB ๋‹ค์šด๋กœ๋“œ
ollama pull llama3.1:70b-instruct-q4_K_M

# ๋Œ€์•ˆ: Q8 โ€” ๋ฌด์†์‹ค ํ’ˆ์งˆ, 74 GB ๋‹ค์šด๋กœ๋“œ
ollama pull llama3.1:70b-instruct-q8_0

4โ€“6๋‹จ๊ณ„: ์ฒซ ์‹คํ–‰, Metal ํ™•์ธ, ๋ฉ”๋ชจ๋ฆฌ ์ฒดํฌ

์ฒซ ๋ฒˆ์งธ ์š”์ฒญ์€ 49 GB๋ฅผ ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ์— ๋กœ๋“œํ•˜๋Š” ๋ฐ 30โ€“60์ดˆ๊ฐ€ ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค. ์ดํ›„ ์š”์ฒญ์€ ์ฆ‰์‹œ ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.

bash
# 4๋‹จ๊ณ„: ์ฒซ ์‹คํ–‰ (๋ชจ๋ธ ๋กœ๋“œ์— 30-60์ดˆ ๋Œ€๊ธฐ)
ollama run llama3.1:70b-instruct-q5_K_M "Write a 200-word essay on local AI"

# 5๋‹จ๊ณ„: Metal GPU ๊ฐ€์†์ด ํ™œ์„ฑํ™”๋˜์–ด ์žˆ๋Š”์ง€ ํ™•์ธ
ollama run llama3.1:70b-instruct-q5_K_M --verbose
# ์˜ˆ์ƒ ์ถœ๋ ฅ: ggml_metal_init: found device: Apple M5 Max

# 6๋‹จ๊ณ„: ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•œ API ์ ‘๊ทผ
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:70b-instruct-q5_K_M",
  "messages": [{"role": "user", "content": "Explain quantum computing"}]
}'

ํ’ˆ์งˆ ๋น„๊ต: 8B vs 70B vs GPT-5.5

์Šคํƒ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ๋Š” ๋„ˆ๋ฌด ๋งŽ์€ ํ•จ์ˆ˜ ํ˜ธ์ถœ์ด ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ดˆ๊ณผํ•  ๋•Œ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ: "์žฌ๊ท€ ํ•จ์ˆ˜์—์„œ ์Šคํƒ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ๊ฐ€ ๋ฐœ์ƒํ•˜๋Š” ์ด์œ ๋ฅผ ์„ค๋ช…ํ•˜๊ณ , ์ถฉ๋Œ ์ „์— ๋ฌดํ•œ ์žฌ๊ท€๋ฅผ ๊ฐ์ง€ํ•˜๋Š” Python ํ•จ์ˆ˜๋ฅผ ์ž‘์„ฑํ•˜์‹ญ์‹œ์˜ค."

Llama 3.3 8B Q4 ์‘๋‹ต (16GB+ Mac์—์„œ ์‹คํ–‰ ๊ฐ€๋Šฅ):

python
def detect_recursion(func):
    count = 0
    try:
        func()
    except RecursionError:
        count += 1
    return count > 0

Llama 3.3 70B Q5 ์‘๋‹ต (M5 Max 128GB)

์žฌ๊ท€์—์„œ์˜ ์Šคํƒ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ๋Š” ํ˜ธ์ถœ ์Šคํƒ์ด OS๊ฐ€ ๋ถ€๊ณผํ•œ ์ œํ•œ(์ผ๋ฐ˜์ ์œผ๋กœ 1MBโ€“8MB)์„ ์ดˆ๊ณผํ•  ๋•Œ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์žฌ๊ท€ ํ˜ธ์ถœ์€ ์ง€์—ญ ๋ณ€์ˆ˜์™€ ๋ฐ˜ํ™˜ ์ฃผ์†Œ๋ฅผ ํฌํ•จํ•˜๋Š” ์Šคํƒ ํ”„๋ ˆ์ž„์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Python์˜ ๊ธฐ๋ณธ ์ œํ•œ์€ 1000๋ฒˆ์˜ ํ˜ธ์ถœ์ž…๋‹ˆ๋‹ค.

python
import sys
import functools

def detect_recursion(threshold=900):
    def decorator(func):
        depth = 0
        @functools.wraps(func)
        def wrapper(*args, **kwargs):
            nonlocal depth
            depth += 1
            try:
                if depth > threshold:
                    raise RecursionError(
                        f"Detected potential infinite recursion at depth {depth}"
                    )
                return func(*args, **kwargs)
            finally:
                depth -= 1
        return wrapper
    return decorator

70B ๋ชจ๋ธ์˜ ์–‘์žํ™” ์‹ฌ์ธต ๋ถ„์„

  • Q4 vs Q5 ํ’ˆ์งˆ ์ฐจ์ด๋Š” 8B๋ณด๋‹ค 70B์—์„œ ๋” ํฝ๋‹ˆ๋‹ค. Q4: ์•ฝ 3โ€“5% ํ’ˆ์งˆ ์†์‹ค. Q5: FP16 ๋Œ€๋น„ ์•ฝ 0.5โ€“1% ์†์‹ค.
  • 8B ๋ชจ๋ธ์—์„œ๋Š” Q4 vs Q8์˜ ์ฐจ์ด๊ฐ€ ๊ฑฐ์˜ ๋А๊ปด์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค. 70B์—์„œ๋Š” ๋ณต์žกํ•œ ์ถ”๋ก ๊ณผ ์ฝ”๋“œ์—์„œ Q4 vs Q8์˜ ์ฐจ์ด๊ฐ€ ์ƒ๋‹นํ•ฉ๋‹ˆ๋‹ค.
  • ๊ถŒ์žฅ์‚ฌํ•ญ: Q5_K_M์ด ์ตœ์„ ์˜ ๊ท ํ˜•์ ์ž…๋‹ˆ๋‹ค. ์†๋„๊ฐ€ ์ค‘์š”ํ•œ ๊ฒฝ์šฐ(์ฑ„ํŒ…, ์ž๋™์™„์„ฑ)์—๋Š” Q4๋ฅผ, ์ถœ๋ ฅ ํ’ˆ์งˆ์ด ์ค‘์š”ํ•œ ๊ฒฝ์šฐ(๋ฒ•๋ฅ , ์ฝ”๋“œ ๋ฆฌ๋ทฐ)์—๋Š” Q8์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.
  • ๋ฉ”๋ชจ๋ฆฌ: Q4 = 42 GB, Q5 = 49 GB, Q8 = 74 GB. ๋ชจ๋‘ M5 Max 128GB์— ๋งž์Šต๋‹ˆ๋‹ค. OS(์•ฝ 8 GB) ๋ฐ ์•ฑ์„ ์œ„ํ•œ ์—ฌ์œ  ๊ณต๊ฐ„์„ ๋‚จ๊ฒจ ๋‘์‹ญ์‹œ์˜ค.
  • ์‹ค์ œ tok/s: Q4 = 15โ€“20, Q5 = 12โ€“16, Q8 = 8โ€“12. 12 tok/s์—์„œ 500๋‹จ์–ด ์‘๋‹ต์€ ์•ฝ 40์ดˆ๊ฐ€ ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค.

Apple Silicon์„ ์œ„ํ•œ ๋Œ€์•ˆ 70B+ ๋ชจ๋ธ

๋ชจ๋ธํฌ๊ธฐ (Q5)์ตœ์  ์šฉ๋„M5 Max tok/s
Llama 3.3 70B Instruct49 GB๋ฒ”์šฉ, ์ถ”๋ก 12โ€“16
Qwen3 72B Instruct51 GB๋‹ค๊ตญ์–ด, ์ˆ˜ํ•™, ์ฝ”๋“œ11โ€“15
DeepSeek 67B47 GB์ฝ”๋”ฉ ์šฐ์ˆ˜์„ฑ12โ€“16
Llama 3.3 70B Coder49 GB์ˆœ์ˆ˜ ์ฝ”๋”ฉ ์ž‘์—…13โ€“17
Mixtral 8x22B (MoE)โ€”๊ณ ํ’ˆ์งˆ ์ถ”๋ก 18โ€“22
Cohere Command R+ 104Bโ€”RAG, 128K ์ปจํ…์ŠคํŠธ8โ€“12

์šฉ๋„๋ณ„ ๊ถŒ์žฅ์‚ฌํ•ญ: ๋ฒ”์šฉ ์ถ”๋ก  โ†’ Llama 3.3 70B Q5. ์ฝ”๋“œ โ†’ DeepSeek 67B. ๋น„์˜์–ด๊ถŒ โ†’ Qwen3 72B. ๋ฌธ์„œ Q&A โ†’ Command R+. ์ตœ๋Œ€ ์†๋„ โ†’ Mixtral 8x22B (MoE๋Š” ๋” ์ ์€ ํ™œ์„ฑ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉ).

๋Œ€์•ˆ ๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ

bash
ollama pull qwen2.5:72b-instruct-q5_K_M
ollama pull deepseek-coder:67b-q5_K_M
ollama pull mixtral:8x22b

70B ๋กœ์ปฌ vs ํด๋ผ์šฐ๋“œ API โ€” ์ƒ์„ธ ๋น„๊ต

์ง€ํ‘œ70B Q5 ๋กœ์ปฌ (M5 Max)GPT-5.5 APIClaude Sonnet 3.5Gemini 3.5 Pro
ํ’ˆ์งˆ (MMLU)86.188.788.785.9
์†๋„ (tok/s)12โ€“1650โ€“8050โ€“8060โ€“100
์ฒซ ํ† ํฐ ์ง€์—ฐ1โ€“2์ดˆ0.3โ€“0.8์ดˆ0.4โ€“0.9์ดˆ0.5โ€“1์ดˆ
1M ํ† ํฐ๋‹น ๋น„์šฉ$0$2.50/$10.00$3.00/$15.00$1.25/$5.00
์›” ๋น„์šฉ (5M ํ† ํฐ)$0$50โ€“150$75โ€“200$30โ€“80
๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ100% ๋กœ์ปฌOpenAI๋กœ ์ „์†กAnthropic์œผ๋กœ ์ „์†กGoogle๋กœ ์ „์†ก
์ธํ„ฐ๋„ท ํ•„์š”์•„๋‹ˆ์˜ค์˜ˆ์˜ˆ์˜ˆ
์†๋„ ์ œํ•œ์—†์Œํ‹ฐ์–ด ๊ธฐ๋ฐ˜ํ‹ฐ์–ด ๊ธฐ๋ฐ˜ํ‹ฐ์–ด ๊ธฐ๋ฐ˜
์ปค์Šคํ„ฐ๋งˆ์ด์ œ์ด์…˜์™„์ „ ์ง€์› (๋กœ์ปฌ ํŒŒ์ธํŠœ๋‹)์ œํ•œ๋จ์ œํ•œ๋จ์ œํ•œ๋จ

70B Q5 ๋กœ์ปฌ์€ MMLU์—์„œ ํด๋ผ์šฐ๋“œ ํ’ˆ์งˆ์˜ 3% ์ด๋‚ด์ž…๋‹ˆ๋‹ค. $4,000 ํ•˜๋“œ์›จ์–ด ๋น„์šฉ๊ณผ ์›” $50โ€“150 ํด๋ผ์šฐ๋“œ ์ ˆ๊ฐ์„ ๊ณ ๋ คํ•˜๋ฉด, ์‚ฌ์šฉ๋Ÿ‰์— ๋”ฐ๋ผ ํˆฌ์ž ํšŒ์ˆ˜ ๊ธฐ๊ฐ„์€ 27โ€“80๊ฐœ์›”์ž…๋‹ˆ๋‹ค. ์˜๋ฃŒ, ๋ฒ•๋ฅ , ๊ธˆ์œต ๋“ฑ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์—์„œ๋Š” ํด๋ผ์šฐ๋“œ ๋Œ€์•ˆ์ด ์—†์Šต๋‹ˆ๋‹ค.

70B ๋กœ์ปฌ ์ถ”๋ก ์˜ ์‹ค์ œ ํ™œ์šฉ ์‚ฌ๋ก€

  1. 1
    ๊ธฐ๋ฐ€ ๋ฌธ์„œ ๋ถ„์„
    Why it matters: ๋ฒ•์  ๊ณ„์•ฝ์„œ, ์˜๋ฃŒ ๊ธฐ๋ก, ์žฌ๋ฌด์ œํ‘œ, M&A ์‹ค์‚ฌ. HIPAA, GDPR ๋˜๋Š” NDA ํ•˜์—์„œ ํด๋ผ์šฐ๋“œ API๋Š” ํ—ˆ์šฉ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. M5 Max์—์„œ์˜ 70B Q5๋Š” ๋ฐ์ดํ„ฐ ์œ ์ถœ ์—†์ด ํด๋ผ์šฐ๋“œ ์ˆ˜์ค€์˜ ๋ถ„์„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. 2
    ๋Œ€์šฉ๋Ÿ‰ ์ฝ”๋”ฉ ์ง€์›
    Why it matters: Copilot์„ ํ•˜๋ฃจ 8์‹œ๊ฐ„ ์‚ฌ์šฉํ•˜๋Š” ๊ฐœ์ธ ๊ฐœ๋ฐœ์ž: ์›” ์•ฝ $10. 10๋ช… ํŒ€์ด 70B Coder๋ฅผ ๋กœ์ปฌ๋กœ ์‚ฌ์šฉ: ์›” $0. ์ฝ”๋“œ๋Š” ํšŒ์‚ฌ ๋„คํŠธ์›Œํฌ๋ฅผ ๋ฒ—์–ด๋‚˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ณต์œ  ์ถ”๋ก  ์„œ๋ฒ„๋กœ์„œ์˜ M5 Max๋Š” 10์ธ ํŒ€์—์„œ 3๊ฐœ์›” ์•ˆ์— ๋น„์šฉ์„ ํšŒ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค.
  3. 3
    ์žฅ๋ฌธ ์ฝ˜ํ…์ธ  ์ƒ์„ฑ
    Why it matters: 5,000๋‹จ์–ด ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ, ๊ธฐ์ˆ  ๋ฌธ์„œ. 70B๋Š” 8B๋ณด๋‹ค ํ›จ์”ฌ ์šฐ์ˆ˜ํ•œ ์žฅ๋ฌธ ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋กœ์ปฌ: ํ† ํฐ ์ œํ•œ ์—†์Œ, ์†๋„ ์ œํ•œ ์—†์Œ. API ๋น„์šฉ $50โ€“100 ๋Œ€๋น„ $0์œผ๋กœ ํ•˜๋ฃจ 50,000๋‹จ์–ด๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. 4
    ์—ฐ๊ตฌ ๋ฐ ํ•™์ˆ  ์šฉ๋„
    Why it matters: ๋ฌธํ—Œ ๊ฒ€ํ† ๋ฅผ ์œ„ํ•œ ์ˆ˜์ฒœ ํŽธ์˜ ๋…ผ๋ฌธ ์ฒ˜๋ฆฌ, ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ๊ฑธ์นœ ๊ฐ€์„ค ์ƒ์„ฑ. 70B ์ถ”๋ก  ํ’ˆ์งˆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•™์ƒ ๋ฐ ๋ฐ•์‚ฌํ›„ ์—ฐ๊ตฌ์›์˜ ์˜ˆ์‚ฐ์—๋Š” ํด๋ผ์šฐ๋“œ ๋น„์šฉ์ด ๋ถ€๋‹ด์Šค๋Ÿฝ์Šต๋‹ˆ๋‹ค.
  5. 5
    ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ ์šฐ์„  ๊ฐœ์ธ AI
    Why it matters: ๊ฐœ์ธ ์ผ๊ธฐ ๋ถ„์„, ๊ฐ€์กฑ ์žฌ์ • ๊ณ„ํš, ๊ฐœ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ๊ฑด๊ฐ• ์„ฑ์ฐฐ. ์ „ ๊ฐ€์กฑ์„ ์œ„ํ•ด ChatGPT Plus๋ฅผ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค. ์ œ3์ž์—๊ฒŒ ๋ฐ์ดํ„ฐ๊ฐ€ ์ „์†ก๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
  6. 6
    ์˜คํ”„๋ผ์ธ ์ค‘์š” ์›Œํฌํ”Œ๋กœ์šฐ
    Why it matters: ์ œํ•œ์ ์ธ ์ง€์—ญ์˜ ํ˜„์žฅ ์–ธ๋ก ์ธ, ์˜ค์ง€์˜ ์˜๋ฃŒ ์ „๋ฌธ๊ฐ€, ์•ˆ์ •์ ์ธ ์ธํ„ฐ๋„ท ์—†๋Š” ์—ฌํ–‰, ์™ธ๋ถ€ ๋„คํŠธ์›Œํฌ ์ ‘๊ทผ์ด ์—†๋Š” ๋ณด์•ˆ ์‹œ์„ค.

์†๋„ ์ตœ์ ํ™”: MLX vs Ollama

MLX๋Š” Apple์˜ ๋„ค์ดํ‹ฐ๋ธŒ ML ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋™์ผํ•œ ๋ชจ๋ธ์—์„œ Ollama๋ณด๋‹ค 15โ€“25% ๋น ๋ฆ…๋‹ˆ๋‹ค. M5 Max์—์„œ 70B Q5: Ollama = 12โ€“16 tok/s, MLX = 18โ€“22 tok/s.

python
from mlx_lm import load, generate

# 70B Q5 ๋ชจ๋ธ ๋กœ๋“œ (Hugging Face์˜ MLX ๋ณ€ํ™˜ ๋ฒ„์ „)
model, tokenizer = load("mlx-community/Llama-3.1-70B-Instruct-Q5")

# ์ŠคํŠธ๋ฆฌ๋ฐ ์ƒ์„ฑ โ€” ์‚ฌ์šฉ์ž๊ฐ€ 1-2์ดˆ ์•ˆ์— ์ฒซ ๋‹จ์–ด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Œ
from mlx_lm import stream_generate
for chunk in stream_generate(model, tokenizer, "Explain quantum computing", max_tokens=500):
    print(chunk, end="", flush=True)

์ถ”๊ฐ€ ์†๋„ ํŒ

  • ๋ชจ๋ธ ์›œ ์œ ์ง€: OLLAMA_KEEP_ALIVE=1h(๋˜๋Š” ํ•ญ์ƒ ์ผœ์ ธ ์žˆ๋Š” Mac Mini์˜ ๊ฒฝ์šฐ 24h)๋ฅผ ์„ค์ •ํ•˜์—ฌ ๊ฐ ์š”์ฒญ ์‹œ 30โ€“60์ดˆ์˜ ์žฌ๋กœ๋“œ๋ฅผ ๋ฐฉ์ง€ํ•˜์‹ญ์‹œ์˜ค.
  • ์ŠคํŠธ๋ฆฌ๋ฐ ์‚ฌ์šฉ: ์ „์ฒด ์‘๋‹ต์„ ์œ„ํ•ด 25โ€“40์ดˆ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ๋Œ€์‹  1โ€“2์ดˆ ์•ˆ์— ์ฒซ ํ† ํฐ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • max_tokens ๋‚ฎ์ถ”๊ธฐ: 200๋‹จ์–ด ๋‹ต๋ณ€์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ max_tokens=200์œผ๋กœ ์„ค์ •ํ•˜์‹ญ์‹œ์˜ค. 14 tok/s์—์„œ: 200ํ† ํฐ = 14์ดˆ vs 500ํ† ํฐ = 36์ดˆ.
  • Q4 vs Q5 ์†๋„ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„: Q4 = 15โ€“20 tok/s (Q5๋ณด๋‹ค 25% ๋น ๋ฆ„). ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ํ’ˆ์งˆ ์ฐจ์ด๋Š” ์•ฝ 2โ€“3%์ž…๋‹ˆ๋‹ค. ์ฑ„ํŒ…์—๋Š” Q4๋ฅผ, ์ค‘์š”ํ•œ ์ถ”๋ก ์—๋Š” Q5๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.
  • ์ถ”๋ก  ์ค‘์—๋Š” ๋‹ค๋ฅธ GPU ์ง‘์ค‘ ์•ฑ ์‹คํ–‰์„ ํ”ผํ•˜์‹ญ์‹œ์˜ค โ€” Activity Monitor GPU History์—์„œ ๋‹ค๋ฅธ ํ”„๋กœ์„ธ์Šค๊ฐ€ Metal ๋Œ€์—ญํญ์„ ๊ฒฝ์Ÿํ•˜๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

M5 Ultra ๋ฏธ๋ฆฌ๋ณด๊ธฐ: ๋‹ค์Œ ์„ฑ๋Šฅ ๋‹จ๊ณ„ (2026๋…„ ์ค‘๋ฐ˜ ์˜ˆ์ƒ)

Apple์˜ ์ด์ „ Ultra ํŒจํ„ด(2ร— Max ์‚ฌ์–‘)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ M5 Ultra ์˜ˆ์ƒ ์‚ฌ์–‘: 256 GB ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ, ์•ฝ 1,200 GB/s ๋Œ€์—ญํญ, ์•ฝ 80๊ฐœ GPU ์ฝ”์–ด. Mac Studio Ultra ์ „์šฉ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธM5 Max 128GBM5 Ultra 256GB (์˜ˆ์ƒ)
Llama 3.3 70B Q512โ€“16 tok/s24โ€“32 tok/s
Llama 3.3 70B Q88โ€“12 tok/s16โ€“24 tok/s
Llama 3.3 70B FP16 (๋ฌด์†์‹ค)โœ— ์šฉ๋Ÿ‰ ๋ถ€์กฑ14โ€“18 tok/s
Qwen3 72B Q88โ€“12 tok/s16โ€“24 tok/s
Mixtral 8x22B Q514โ€“18 tok/s28โ€“36 tok/s
Llama 3.3 405B Q3โœ— ์šฉ๋Ÿ‰ ๋ถ€์กฑ4โ€“6 tok/s
Llama 3.3 405B Q4 (~200 GB)โœ— ์šฉ๋Ÿ‰ ๋ถ€์กฑ3โ€“5 tok/s

M5 Ultra์˜ ํ˜œํƒ: (1) ์†Œ๋น„์ž ํ•˜๋“œ์›จ์–ด ์ตœ์ดˆ์˜ ๋ฌด์†์‹ค 70B FP16. (2) 405B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ. (3) ๋‘ ๊ฐœ์˜ ๋™์‹œ 70B ๋ชจ๋ธ. ์˜ˆ์ƒ ๊ฐ€๊ฒฉ: $5,500โ€“7,000 (Mac Studio Ultra). ๋Œ€๊ธฐํ•ด์•ผ ํ•  ๋•Œ: 405B ๋ชจ๋ธ, 70B FP16์ด ํ•„์š”ํ•˜๊ฑฐ๋‚˜ ์ด๋ฏธ M3/M4 Max๋ฅผ ๋ณด์œ ํ•˜๊ณ  ์žˆ๋Š” ๊ฒฝ์šฐ.

์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ

70B Q4๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์— ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๊นŒ?

๋„ค. Q4๋Š” ์—…๊ณ„ ํ‘œ์ค€ ์–‘์žํ™”์ž…๋‹ˆ๋‹ค. Q5 ๋Œ€๋น„ ์•ฝ 3โ€“5%์˜ ํ’ˆ์งˆ ์†์‹ค์€ ๋Œ€๋ถ€๋ถ„์˜ ์ฑ„ํŒ…, ๊ธ€์“ฐ๊ธฐ, ๋ฒ”์šฉ ์ž‘์—…์—์„œ ๊ฑฐ์˜ ๋А๊ปด์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค. Q5 ๋˜๋Š” Q8์€ ์ถœ๋ ฅ ํ’ˆ์งˆ์ด ์ค‘์š”ํ•œ ๊ฒฝ์šฐ(๋ฒ•๋ฅ  ๋ถ„์„, ์ฝ”๋“œ ๋ฆฌ๋ทฐ, ์˜๋ฃŒ ์šฉ๋„)์—๋งŒ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

70B Q5์™€ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ๋™์‹œ์— ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

๋„ค, ๋” ์ž‘์€ ๋ชจ๋ธ ํ•˜๋‚˜์™€ ํ•จ๊ป˜ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. 70B Q5 = 49 GB. 128 GB์—์„œ OS ์˜ค๋ฒ„ํ—ค๋“œ 8 GB๋ฅผ ๋บ€ 120 GB. 70B Q5(49 GB) + 7โ€“8B ๋ชจ๋ธ(5 GB) = ์ด 54 GB โ€” ์—ฌ์œ ๋กญ๊ฒŒ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๊ฐœ์˜ ๋™์‹œ 70B ๋ชจ๋ธ์€ M5 Ultra 256 GB๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

์ง€๊ธˆ M5 Max๋ฅผ ์‚ฌ๋Š” ๊ฒƒ์ด ๋‚˜์„๊นŒ์š”, M5 Ultra๋ฅผ ๊ธฐ๋‹ค๋ ค์•ผ ํ• ๊นŒ์š”?

M5 Ultra๋ฅผ ๊ธฐ๋‹ค๋ ค์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ: (1) 70B FP16(๋ฌด์†์‹ค ํ’ˆ์งˆ)์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ, (2) 405B ๋ชจ๋ธ์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ, (3) ์ด๋ฏธ M3 Max ๋˜๋Š” M4 Max๋ฅผ ๋ณด์œ ํ•˜๊ณ  ์žˆ๋Š” ๊ฒฝ์šฐ(M5 Max๋Š” ๊ฑด๋„ˆ๋›ฐ์‹ญ์‹œ์˜ค). ์ง€๊ธˆ M5 Max๋ฅผ ๊ตฌ๋งคํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ: ์˜ค๋Š˜ ๋‹น์žฅ 70B ๊ธฐ๋Šฅ์ด ํ•„์š”ํ•˜๊ณ  ์˜ˆ์‚ฐ์ด $5,000 ๋ฏธ๋งŒ์ธ ๊ฒฝ์šฐ.

M5 Ultra์—์„œ 70B๊ฐ€ M5 Max๋ณด๋‹ค ์–ผ๋งˆ๋‚˜ ๋” ๋น ๋ฆ…๋‹ˆ๊นŒ?

๋ฉ”๋ชจ๋ฆฌ ๋Œ€์—ญํญ์ด ๋‘ ๋ฐฐ(์•ฝ 1,200 GB/s vs 614 GB/s)๋กœ ํ–ฅ์ƒ๋˜์–ด ์•ฝ 2๋ฐฐ ๋น ๋ฆ…๋‹ˆ๋‹ค. M5 Max๋Š” 70B Q5๋ฅผ 12โ€“16 tok/s๋กœ ์‹คํ–‰ํ•˜๋ฉฐ, M5 Ultra๋Š” 24โ€“32 tok/s๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. M5 Ultra๋Š” ๋˜ํ•œ M5 Max์—์„œ ์šฉ๋Ÿ‰์ด ๋ถ€์กฑํ•œ 70B FP16(๋ฌด์†์‹ค ํ’ˆ์งˆ)๋„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

M5 Max 128GB์—์„œ ๋‘ ๊ฐœ์˜ 70B ๋ชจ๋ธ์„ ๋™์‹œ์— ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์•„๋‹ˆ์š”, ๋‘ ๊ฐœ์˜ ์ „์ฒด 70B ๋ชจ๋ธ์€ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๊ฐœ์˜ 70B Q4 ๋ชจ๋ธ = 84 GB์— OS ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋”ํ•˜๋ฉด ์•ฝ 95 GB๋กœ, 128 GB์—์„œ ๋น ๋“ฏํ•ฉ๋‹ˆ๋‹ค. M5 Ultra 256 GB๋Š” ๋‘ ๊ฐœ์˜ ๋™์‹œ 70B ๋ชจ๋ธ์ด๋‚˜ 70B ํ•˜๋‚˜์™€ 34B ํ•˜๋‚˜๋ฅผ ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

70B ๋ชจ๋ธ์— ํ•„์š”ํ•œ ๋””์Šคํฌ ๊ณต๊ฐ„์€ ์–ผ๋งˆ์ž…๋‹ˆ๊นŒ?

๊ฐ 70B ๋ชจ๋ธ์€ ๋””์Šคํฌ์—์„œ 42 GB(Q4), 49 GB(Q5), ๋˜๋Š” 74 GB(Q8)๋ฅผ ์ฐจ์ง€ํ•ฉ๋‹ˆ๋‹ค. ๋น„๊ต๋ฅผ ์œ„ํ•ด ํ•œ ๋ชจ๋ธ์˜ 3๊ฐ€์ง€ ์–‘์žํ™”๋ฅผ ์œ ์ง€ํ•œ๋‹ค๋ฉด: 165 GB. ์—ฌ๋Ÿฌ ๋ชจ๋ธ๋กœ ์ง„์ง€ํ•˜๊ฒŒ 70B ์ž‘์—…์„ ํ•˜๋ ค๋ฉด Mac Studio์—์„œ 1 TB ๋˜๋Š” 2 TB SSD๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

70B ๋กœ์ปฌ์ด ์ œ ํŠน์ • ์‚ฌ์šฉ ์‚ฌ๋ก€์—์„œ GPT-5.5๋งŒํผ ์ข‹์Šต๋‹ˆ๊นŒ?

70B Q5๋Š” MMLU์—์„œ 86.1์ ์„ ๊ธฐ๋กํ•˜์—ฌ GPT-5.5์˜ 88.7์ ๊ณผ 3% ์ฐจ์ด์ž…๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ์ถ”๋ก ๊ณผ ์„ฌ์„ธํ•œ ๊ธ€์“ฐ๊ธฐ์—์„œ๋Š” GPT-5.5๊ฐ€ ์—ฌ์ „ํžˆ ์•ฝ๊ฐ„ ์•ž์„ญ๋‹ˆ๋‹ค. ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…, ๋Œ€์šฉ๋Ÿ‰ ์‚ฌ์šฉ($50+/์›”), ๋˜๋Š” ์˜คํ”„๋ผ์ธ ์‚ฌ์šฉ์˜ ๊ฒฝ์šฐ ๋กœ์ปฌ์ด ์ž๋™์œผ๋กœ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋ณธ์ธ์˜ ์›Œํฌํ”Œ๋กœ์šฐ์—์„œ ์ง์ ‘ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ…Œ์ŠคํŠธํ•˜์—ฌ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค.

Llama 4 ๋˜๋Š” ์ตœ์‹  70B ๋ชจ๋ธ์ด M5 Max์—์„œ ์ž‘๋™ํ•ฉ๋‹ˆ๊นŒ?

๋„ค. M5 Max 128 GB๋Š” ์•„ํ‚คํ…์ฒ˜์— ๊ด€๊ณ„์—†์ด Q4/Q5/Q8 ์–‘์žํ™”์˜ ๋ชจ๋“  70B ๋ชจ๋ธ์— ๋งž์Šต๋‹ˆ๋‹ค. ์ƒˆ๋กœ์šด 70B ๋ฆด๋ฆฌ์Šค(Llama 4, Qwen3 ๋“ฑ)๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ถœ์‹œ ํ›„ ๋ฉฐ์น  ์•ˆ์— Ollama์— ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. ์ƒˆ ๋ชจ๋ธ ์ด๋ฆ„์œผ๋กœ ollama pull์„ ์‹คํ–‰ํ•˜์‹ญ์‹œ์˜ค.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each providerโ€™s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

M5 Max์—์„œ Llama 3.3 70B๋ฅผ ๋กœ์ปฌ๋กœ ์‹คํ–‰ํ•˜๊ณ  ๊ณ„์‹ญ๋‹ˆ๊นŒ? PromptQuorum์„ ํ†ตํ•ด ๋กœ์ปฌ ์‘๋‹ต์„ GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Pro ๋ฐ 22๊ฐœ์˜ ๋‹ค๋ฅธ ํด๋ผ์šฐ๋“œ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜์‹ญ์‹œ์˜ค. $4,000 ํ•˜๋“œ์›จ์–ด ํˆฌ์ž๊ฐ€ ํŠน์ • ์ถ”๋ก , ์ฝ”๋”ฉ, ๊ธ€์“ฐ๊ธฐ ์ž‘์—…์—์„œ ํด๋ผ์šฐ๋“œ ํ’ˆ์งˆ๊ณผ ์ผ์น˜ํ•˜๋Š”์ง€ ๊ฒ€์ฆํ•˜์‹ญ์‹œ์˜ค. ๋ชจ๋‘ ํ•˜๋‚˜์˜ ๋””์ŠคํŒจ์น˜์—์„œ.

Join the PromptQuorum Waitlist โ†’

โ† Back to Local LLMs

M5 Max 128GB์—์„œ 70B ๋ชจ๋ธ: 12โ€“20 tok/s, GPT-5.5 ์ˆ˜์ค€์˜ ํ’ˆ์งˆ