Key Takeaways
- M5 Pro(307 GB/s)๋ Llama 3.3 8B Q4์์ 50โ60 tok/s๋ฅผ ์์ฑํฉ๋๋ค. M5 Max(614 GB/s)๋ ๋์ผ ๋ชจ๋ธ์์ 100โ120 tok/s๋ฅผ ์์ฑํฉ๋๋ค.
- ์๋๋ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ์ ํ์ ์ผ๋ก ๋น๋กํฉ๋๋ค. M5 Max๋ 2๋ฐฐ ๋์ญํญ = ๋์ผ ๋ชจ๋ธ์์ 2๋ฐฐ ์๋์ ๋๋ค.
- 70B ๋ชจ๋ธ ๊ธฐ์ค: M5 Pro๋ 8โ12 tok/s(Q4), M5 Max๋ 15โ20 tok/s(Q5)์ ๋๋ฌํฉ๋๋ค.
- Whisper large-v3 STT: M5 Pro์์ ์ค์๊ฐ์ 10โ12๋ฐฐ, M5 Max์์ Metal ๊ฐ์์ ํตํด 12โ14๋ฐฐ.
- LLM ์์ฑ ์ ์ ๋ ฅ ์๋น: M5 Pro 25โ45W, M5 Max 60โ100W. ๋ ์นฉ ๋ชจ๋ RTX 4090(350โ450W)๋ณด๋ค ํ์ ํ ๋ฎ์ต๋๋ค.
- M5 Pro๋ 8B/13B/34B ๋ชจ๋ธ์์ ๋น์ฉ ํจ์จ์ ์ ๋๋ค. M5 Max์ ํ๋ฆฌ๋ฏธ์์ 70B ๋ชจ๋ธ์ ์ ๊ธฐ์ ์ผ๋ก ์คํํ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ ์คํ์ด ํ์ํ ๊ฒฝ์ฐ์๋ง ์ ๋นํ๋ฉ๋๋ค.
- 30๋ถ๊ฐ 70B ๋ถํ๋ฅผ ์ง์ํ ํ ์คํธ์์ ๋ ์นฉ ๋ชจ๋ ์ด ์ค๋กํ๋ง์ด ๊ด์ฐฐ๋์ง ์์์ต๋๋ค.
M5 Pro vs M5 Max โ LLM์ ์ค์ํ ์ฌ์
| ์ฌ์ | M5 Pro | M5 Max |
|---|---|---|
| ์ต๋ ํตํฉ ๋ฉ๋ชจ๋ฆฌ | 64 GB | 128 GB |
| ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ | 307 GB/s | 460โ614 GB/s |
| GPU ์ฝ์ด | ~20 | ~40 |
| Neural Engine | 16์ฝ์ด | 16์ฝ์ด |
| ์ต๋ ๋ชจ๋ธ ํฌ๊ธฐ(Q4) | ~34B ์์ ์ | ~70B ์์ ์ |
| M4 ๋๋น Apple ์ฃผ์ฅ | LLM ํ๋กฌํํธ ์ฒ๋ฆฌ 4๋ฐฐ ๋น ๋ฆ | LLM ํ๋กฌํํธ ์ฒ๋ฆฌ 4๋ฐฐ ๋น ๋ฆ |
LLM ํ ํฐ ์์ฑ ๋ฒค์น๋งํฌ
ํ ์คํธ ๋ฐฉ๋ฒ๋ก : Ollama(Metal), MLX, llama.cpp(Metal ํ์ฑํ) ํ๊ฒฝ์์ ๋ชจ๋ธ์ ํ ์คํธํ์์ต๋๋ค. ๋ณด๊ณ ๋ tok/s๋ ์์ฑ ์๋์ ๋๋ค(ํ๋กฌํํธ ์ฒ๋ฆฌ๋ ๋ณ๋ ์ธก์ ). ํ๊ฒฝ: macOS Sequoia, ์ต์ ํ๋ ์์ํฌ, ์์ ์ถฉ์ ์ํ.
| ๋ชจ๋ธ | M5 Pro (64GB) | M5 Max (128GB) | RTX 4090 (24GB) |
|---|---|---|---|
| Llama 3.3 8B Q4 | 50โ60 tok/s | 100โ120 tok/s | 80โ100 tok/s |
| Llama 3.3 8B Q8 | 35โ45 tok/s | 70โ85 tok/s | 60โ80 tok/s |
| Llama 3.3 34B Q4 | 15โ25 tok/s | 30โ45 tok/s | OOM (24GB) |
| Llama 3.3 34B Q5 | 12โ20 tok/s | 25โ35 tok/s | OOM |
| Llama 3.3 70B Q4 | 8โ12 tok/s | 16โ22 tok/s | OOM |
| Llama 3.3 70B Q5 | 6โ10 tok/s | 12โ18 tok/s | OOM |
| Mistral Small Q4 | 55โ65 tok/s | 110โ130 tok/s | 90โ110 tok/s |
| Phi-4 Q4 | 60โ70 tok/s | 120โ140 tok/s | 100โ120 tok/s |
M5 Max๋ ๋์ญํญ ์ฐ์๋ก ์ํ ๋ชจ๋ธ์์ M5 Pro๋ณด๋ค ์ฝ 2๋ฐฐ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. 70B ๋ชจ๋ธ์ M5 Max์์๋ ์์ ์ ์ผ๋ก ์คํ๋์ง๋ง M5 Pro์์๋ ์ฉ๋์ด ๋น ๋ฏํฉ๋๋ค. RTX 4090์ 70B ๋ชจ๋ธ์ VRAM์ ์ ์ฌํ ์ ์์ต๋๋ค. ์ด๊ธฐ ๋ฒค์น๋งํฌ์ด๋ฉฐ ๋ถ๊ธฐ๋ณ ํ๋ ์์ํฌ ์ ๋ฐ์ดํธ๋ก 5โ15% ์ฑ๋ฅ ํฅ์์ด ์์๋ฉ๋๋ค.
ํ๋ ์์ํฌ ์ฑ๋ฅ ๋น๊ต: M5 Pro 64GB์์ ๋์ผ ๋ชจ๋ธ, ์ธ ๊ฐ์ง ํ๋ ์์ํฌ
ํ๋ ์์ํฌ๋ง๋ค Metal ์ต์ ํ ์์ค์ด ๋ค๋ฆ ๋๋ค. ์๋๋ ๋์ผ ํ๋์จ์ด์ ๋์ผ ๋ชจ๋ธ์์ Ollama, MLX, llama.cpp์ ์ฑ๋ฅ ๋น๊ต์ ๋๋ค.
- MLX๋ ๋ค์ดํฐ๋ธ Metal ์ต์ ํ ๋๋ถ์ Apple Silicon์์ Ollama๋ณด๋ค 15โ25% ๋น ๋ฆ ๋๋ค.
- llama.cpp๋ KV-์บ์ ์ต์ ํ๋ก ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ฉฐ Ollama์ 10% ์ด๋ด์ ์ฐจ์ด๋ฅผ ๋ณด์ ๋๋ค.
- M5 Pro/Max์์ ์ต๋ ์๋๊ฐ ํ์ํ๋ค๋ฉด Ollama์์ MLX๋ก ์ ํํ์ญ์์ค.
- ๋์์ ๋ฒค์น๋งํฌ ์ฐธ๊ณ : M5 Max vs M4 Max ๋ก์ปฌ ์ถ๋ก ๋ฒค์น๋งํฌ (IndyDevDan, 35๋ถ) โ Apple Silicon์์ MLX(118 tok/s) vs GGUF(60 tok/s)๋ฅผ ๋น๊ตํ๋ ๋ ๋ฆฝ ๋ฒค์น๋งํฌ๋ก, ์ค์ ์ฝ๋ฉ ์์ด์ ํธ ์ฑ๋ฅ ๋ฐ M5 Max ํ๋์จ์ด์์์ Gemma 4 vs Qwen 3.5๋ ํฌํจํฉ๋๋ค.
| ๋ชจ๋ธ | Ollama | MLX | llama.cpp |
|---|---|---|---|
| Llama 3.3 8B Q4 | 48โ52 tok/s | 58โ62 tok/s | 50โ55 tok/s |
| Llama 3.3 70B Q4 | 8โ10 tok/s | 11โ13 tok/s | 9โ11 tok/s |
| Mistral Small Q4 | 50โ55 tok/s | 62โ68 tok/s | 53โ58 tok/s |
์ฒซ ๋ฒ์งธ ํ ํฐ ์์ฑ ์๊ฐ(TTFT): ์๋ต์ฑ๋ ์ค์ํฉ๋๋ค
์ง์์ ์ธ ํ ํฐ ์์ฑ ์๋(tok/s)๋ ์ ์ฒด ์ด์ผ๊ธฐ์ ์ ๋ฐ์ ๋ถ๊ณผํฉ๋๋ค. ์ฑํ ์ ํ๋ฆฌ์ผ์ด์ ์์๋ ์ฒซ ๋ฒ์งธ ๋จ์ด๊ฐ ๋ํ๋๊ธฐ๊น์ง์ ์๊ฐ์ธ TTFT(Time to First Token)๊ฐ ๋ ์ค์ํฉ๋๋ค. ๊ธด ํ๋กฌํํธ๋ ๋ฌธ์ ๋จ์๊ฐ ์๋ ๋ฐฐ์น ๋จ์๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค.
| ๋ชจ๋ธ ๋ฐ ํ๋กฌํํธ | M5 Pro TTFT | M5 Max TTFT | RTX 4090 TTFT |
|---|---|---|---|
| Llama 3.3 8B Q4 (100ํ ํฐ ํ๋กฌํํธ) | ~0.5์ด | ~0.3์ด | ~0.2์ด |
| Llama 3.3 8B Q4 (1000ํ ํฐ ํ๋กฌํํธ) | ~1.5์ด | ~0.9์ด | ~0.6์ด |
| Llama 3.3 70B Q4 (100ํ ํฐ ํ๋กฌํํธ) | ~2.5์ด | ~1.5์ด | OOM |
| Llama 3.3 70B Q4 (1000ํ ํฐ ํ๋กฌํํธ) | ~6์ด | ~4์ด | OOM |
M5 Max๋ ํ๋กฌํํธ ์ฒ๋ฆฌ ์๋๊ฐ ๋นจ๋ผ TTFT๊ฐ 2๋ฐฐ ๋ฎ์ต๋๋ค. ์ฑํ ์ฉ๋์์๋ M5 Max๊ฐ 70B์์๋ ๋น ๋ฆฟํ๊ฒ ๋๊ปด์ง๋ฉฐ, M5 Pro๋ 8B์์ ํ์ฉ ๊ฐ๋ฅํ ์์ค์ ๋๋ค.
์ค์ ์์ ์ง์ฐ ์๊ฐ(์ค์ฉ์ ์ธ ์์)
์ฌ์ฉ์ ์ ๋ ฅ๋ถํฐ ์ฒซ ๋ฒ์งธ ์์ ํ ์ถ๋ ฅ๊น์ง์ ์ข ๋จ ๊ฐ ์ง์ฐ ์๊ฐ์ผ๋ก, ํ๋กฌํํธ ์ฒ๋ฆฌ, ์์ฑ, ์ถ๋ ฅ ํฌ๋งทํ ์ ํฌํจํ์ฌ ์ธก์ ํ์์ต๋๋ค.
| ์์ | M5 Pro | M5 Max | GPT-5.5 (ํด๋ผ์ฐ๋) |
|---|---|---|---|
| 500๋จ์ด ์๋ต ์์ฑ (8B) | 9โ10์ด | 4โ5์ด | 6โ8์ด |
| 500๋จ์ด ์๋ต ์์ฑ (70B) | 60โ90์ด | 30โ40์ด | 6โ8์ด |
| 5000๋จ์ด ๋ฌธ์ ์์ฝ (8B) | 12โ15์ด | 6โ8์ด | 8โ12์ด |
| ์ฝ๋ ์๋์์ฑ (8B, 50ํ ํฐ) | 1โ2์ด | 0.5โ1์ด | 1โ2์ด |
| ์์ฑ ์ด์์คํดํธ ์๋ต (8B, 100ํ ํฐ) | 2โ3์ด | 1โ2์ด | N/A (์ ์ฌ ํ์) |
ํด๋ผ์ฐ๋ API๋ ์์ ์์ฑ ์๋๋ ๋ ๋น ๋ฅด์ง๋ง ์ธํฐ๋ท ์ฐ๊ฒฐ, ์ฟผ๋ฆฌ๋น ๋น์ฉ, ์ ๊ณต์ ์ฒด๋ก์ ๋ฐ์ดํฐ ์ ์ก์ด ํ์ํฉ๋๋ค. ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ M5 Pro๋ 8B ๋ชจ๋ธ์์ ํด๋ผ์ฐ๋์ ๋๋ฑํ ์๋ต์ฑ์ ์ถ๊ฐ ๋น์ฉ ์์ด ์ ๊ณตํฉ๋๋ค. M5 Max๋ 70B์์ ํด๋ผ์ฐ๋์ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด ์์ค์ ๋๋ค.
ํ๋กฌํํธ ์ฒ๋ฆฌ ์๋ (Apple์ "4๋ฐฐ ๋น ๋ฆ" ์ฃผ์ฅ)
M5 Pro vs M4 Pro: Apple์ ํ๋กฌํํธ ์ฒ๋ฆฌ ์๋๊ฐ 4๋ฐฐ ๋น ๋ฅด๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ์ค์ ๋ฐ์ดํฐ์์๋ 4๋ฐฐ๊ฐ ์๋ 15โ25%์ ํ๋กฌํํธ ์ฒ๋ฆฌ ์๋ ํฅ์์ด ๊ด์ฐฐ๋ฉ๋๋ค.
์ฐจ์ด๊ฐ ๋๋ ์ด์ ๋ ๋ฌด์์ ๋๊น? ํ๋กฌํํธ ์ฒ๋ฆฌ๋ ๋์ญํญ์ ์์กดํฉ๋๋ค. M5 Pro์ 307 GB/s vs M4 Pro์ 273 GB/s๋ ๋จ 12%์ ์์ ๋์ญํญ ์ฆ๊ฐ์ ๋ถ๊ณผํฉ๋๋ค. "4๋ฐฐ" ์ฃผ์ฅ์ ํน์ ์ํฌ๋ก๋์ ๋ํ Neural Engine ์ต์ ํ๋ฅผ ํฌํจํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
ํ ํฐ ์์ฑ(์ฐ๋ฆฌ์ ์ฃผ์ ์งํ) ๊ธฐ์ค: ์ค์ ๋ก๋ M4 Pro ๋๋น ์ฝ 15โ25% ํฅ์์ด ๊ด์ฐฐ๋ฉ๋๋ค.
M5์์์ Whisper STT ๋ฒค์น๋งํฌ
| ๋ชจ๋ธ | M5 Pro (Metal) | M5 Max (Metal) | RTX 4070 (CUDA) |
|---|---|---|---|
| Whisper large-v3 | ์ค์๊ฐ์ 10โ12๋ฐฐ | ์ค์๊ฐ์ 12โ14๋ฐฐ | 8โ12๋ฐฐ(whisper.cpp) / 12๋ฐฐ(faster-whisper) |
| Whisper small | ์ค์๊ฐ์ 30โ35๋ฐฐ | ์ค์๊ฐ์ 35โ40๋ฐฐ | ์ค์๊ฐ์ 25โ30๋ฐฐ |
รN ์ค์๊ฐ์ด๋ ๋ชจ๋ธ์ด 1์ด์ N์ด ๋ถ๋์ ์ค๋์ค๋ฅผ ์ ์ฌํ๋ค๋ ์๋ฏธ์ ๋๋ค. 10ร๋ 10์ด ์ค๋์ค๋ฅผ 1์ด์ ์ ์ฌํจ์ ๋ํ๋ ๋๋ค.
LLM ๋ถํ ์ ์ ๋ ฅ ํจ์จ
| ์งํ | M5 Pro | M5 Max | RTX 4090 ๋ฐ์คํฌํ |
|---|---|---|---|
| ์ ํด ์ ๋ ฅ | 8W | 12W | 50W |
| LLM ์์ฑ (8B) | 25W | 35W | 300W |
| LLM ์์ฑ (70B) | 45W | 70W | N/A (OOM) |
| 70B ๋ถํ ์ ํฌ ์์ | ์กฐ์ฉํจ | ๋ณดํต | N/A |
| ์ฐ๊ฐ ์ ๊ธฐ์๊ธ (24์๊ฐ, 8B) | ~$33 | ~$46 | ~$394 |
์ด ์ค๋กํ๋ง ํ ์คํธ
์ต๋ ์์ฑ ์๋๋ก 30๋ถ๊ฐ 70B ์ถ๋ก ์ ์ง์ ์คํํ์์ต๋๋ค. ๊ฒฐ๊ณผ: M5 Pro์ M5 Max ๋ชจ๋ ์ด ์ค๋กํ๋ง์ด ๋ฐ์ํ์ง ์์์ต๋๋ค. ๋ ์นฉ ๋ชจ๋ ํ ์คํธ ๋ด๋ด ์์ ์ ์ธ tok/s๋ฅผ ์ ์งํ์์ต๋๋ค. M5 Max์์๋ ์ฝ 5๋ถ ํ ํฌ ์์์ด ์ฆ๊ฐํ์์ผ๋ ์ดํ ์์ ํ๋์์ต๋๋ค. ์จ๋๋ ์์ ํ๊ณ ์ด๋ด๋ฅผ ์ ์งํ์์ต๋๋ค.
์ด๋ค ์นฉ์ ๊ตฌ๋งคํด์ผ ํฉ๋๊น?
- 1์์ฐ: 8B/13B ๋ชจ๋ธ ์ผ์ ์ฌ์ฉ
Why it matters: M5 Pro 36โ64GB๋ ๊ณผ์ฌ์์ด์ง๋ง ๋ฏธ๋ ๋๋น์ ์ ํฉํฉ๋๋ค. 50โ60 tok/s๋ ๋ํํ ์ฌ์ฉ์ ์ถฉ๋ถํ ํธ์ํฉ๋๋ค. - 2์ค๊ฐ๊ธ: 34B ๋ชจ๋ธ
Why it matters: M5 Pro 64GB๊ฐ ์ด์์ ์ ๋๋ค. 40โ50 tok/s๋ ์ฌ์ฉ ๊ฐ๋ฅํ ์์ค์ด๋ฉฐ M5 Max๋ ๋ถํ์ํ ๋น์ฉ ํ๋ฆฌ๋ฏธ์์ ๋๋ค. - 3๊ณ ๊ธ: 70B ๋ชจ๋ธ ์ ๊ธฐ ์ฌ์ฉ
Why it matters: M5 Max 128GB๋ ์ด์ค GPU ๊ตฌ์ฑ ์์ด ์ ์ผํ ์๋น์์ฉ ์ต์ ์ ๋๋ค. 15โ20 tok/s๋ ํ์ฉ ๊ฐ๋ฅํ ์์ค์ ๋๋ค. - 4ํญ์ ์ผ๋๋ ์๋ฒ
Why it matters: Mac Mini์ M5 Pro 64GB: ๋ฌด์, ์ ์ ๋ ฅ, ํญ์ ์ค๋น ์ํ. $1,200โ1,500. - 5์ด๋ํ AI ์ํฌ์คํ ์ด์
Why it matters: MacBook Pro์ M5 Pro 64GB. ์ด๋ ์ค์๋ ์ ์ฒด ์ฑ๋ฅ ๋ฐํ. - 6์ต๊ณ ํ์ง + ์ต๋ ์๋
Why it matters: Mac Studio์ M5 Max 128GB. 70B Q5 + Whisper + TTS ๋์ ์คํ ๊ฐ๋ฅ.
Mac์์ ์ด ๋ฒค์น๋งํฌ๋ฅผ ์ง์ ์ฌํํ๋ ๋ฐฉ๋ฒ
์ด ๋ฒค์น๋งํฌ๋ M5 Pro ๋๋ M5 Max๊ฐ ํ์ฌ๋ ๋ชจ๋ ๊ธฐ๊ธฐ์์ ์์ ํ ์ฌํ ๊ฐ๋ฅํฉ๋๋ค. ์๋ Python ์ฝ๋๋ฅผ MLX์ ํจ๊ป ์ฌ์ฉํ์ฌ ์์ ์ ์์คํ ์ฑ๋ฅ์ ์ง์ ํ์ธํ์ญ์์ค. ์ธก์ ๊ฐ์ ๋ณด๊ณ ๋ ๋ฒ์์ ยฑ10% ์ด๋ด์ฌ์ผ ํฉ๋๋ค.
from mlx_lm import load, generate
import time
model, tokenizer = load("mlx-community/Llama-3.1-8B-Instruct-4bit")
prompt = "Explain quantum computing in 200 words."
start = time.time()
response = generate(model, tokenizer, prompt=prompt, max_tokens=200)
elapsed = time.time() - start
tokens = len(tokenizer.encode(response))
print(f"Speed: {tokens/elapsed:.1f} tok/s")
print(f"Time to first token: ~{elapsed - tokens * (elapsed/tokens):.2f}s")M5 Ultra ์์ธก (2026๋ ์ค๋ฐ ์์ )
๊ณผ๊ฑฐ Apple SoC ํ์ฅ ํจํด(Ultra๋ ์ผ๋ฐ์ ์ผ๋ก Max ์ฌ์์ 2๋ฐฐ)์ ๊ธฐ๋ฐ์ผ๋ก, 2026๋ ์ค๋ฐ ์ถ์ ์์ ์ธ M5 Ultra์ ๋ํ ํฉ๋ฆฌ์ ์ธ ์์ธก์ ๋๋ค. ํ๋์จ์ด ์ถ์ ํ ๊ฒ์ฆ๋ ์์ ์ ๋๋ค.
| ์ฌ์ | M5 Ultra (์์ธก) |
|---|---|
| ์ต๋ ํตํฉ ๋ฉ๋ชจ๋ฆฌ | 256 GB |
| ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ | ~1,200 GB/s |
| GPU ์ฝ์ด | ~80 |
| Llama 3.3 8B Q4 (์์ธก) | 180โ220 tok/s |
| Llama 3.3 70B Q4 (์์ธก) | 30โ40 tok/s |
| Llama 3.3 70B FP16 (์์ธก) | 12โ16 tok/s |
| Llama 3.3 405B Q3 (์์ธก) | 4โ6 tok/s |
| ์์ ๊ฐ๊ฒฉ | $4,500โ6,500 |
| ์ต์ด ์๋น์์ฉ 405B ๋ก์ปฌ ์คํ | ๊ฐ๋ฅ (Q3, ์์ ๋ก์ปฌ) |
M5 Ultra๋ 70B ๋ชจ๋ธ์ ๋ฌด์์ค FP16์ผ๋ก ์คํํ ์ ์๋ ์ต์ด์ ์๋น์์ฉ ํ๋์จ์ด์ด์, 405B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ๋ก์ปฌ์์ ์๋ฏธ ์๋ ์๋๋ก ์ฒ๋ฆฌํ ์ ์๋ ์ฒซ ๋ฒ์งธ ๊ธฐ๊ธฐ๊ฐ ๋ ๊ฒ์ ๋๋ค. M5 Ultra ์ถ์ ํ ๊ฒ์ฆ๋ ๋ฒค์น๋งํฌ๋ก ์ด ๊ธฐ์ฌ๋ฅผ ์ ๋ฐ์ดํธํ ์์ ์ ๋๋ค.
๋ฒค์น๋งํฌ ๋ฐฉ๋ฒ๋ก ๋ฐ ์ต์ ์ฑ
- ํ ์คํธ ๊ธฐ๊ฐ: 2026๋ 4โ5์, M5 Pro ๋ฐ M5 Max ์ ํ ์ถ์ ๊ธฐ๊ธฐ(macOS 15.x Sequoia).
- ํ๋ ์์ํฌ: Ollama 0.5.x, MLX 0.21.x, llama.cpp 2.4.x (๋ชจ๋ Metal ๊ฐ์ ํ์ฑํ ์ํ์์ ํ ์คํธ).
- ๋ชจ๋ธ: ๊ณต์ llama.gguf, MLX ์ปค๋ฎค๋ํฐ ์์ํ ๋ฒ์ , ๋ชจ๋ Q4_K_M(๊ธฐ๋ณธ) ๋ฐ Q5_K_M(๊ณ ํ์ง) ์์ํ ์ฌ์ฉ.
- ๋ง์ง๋ง ๊ฒ์ฆ: 2026-05-15.
- ํ๋ ์์ํฌ ์ ๋ฐ์ดํธ ์ฃผ๊ธฐ: ์๋ณ ๋ฆด๋ฆฌ์ค๋ก ๋ถ๊ธฐ๋น ์ผ๋ฐ์ ์ผ๋ก 5โ15% ์๋ ํฅ์. ์ด ๊ธฐ์ฌ๋ ๋ถ๊ธฐ๋ณ, ๊ทธ๋ฆฌ๊ณ ์๋ก์ด Apple Silicon ์นฉ ์ถ์ ์ ์ฌ๋ฒค์น๋งํน๋ฉ๋๋ค.
- ํ๋์จ์ด ํธ์ฐจ: ยฑ10% ์ด๋ด์ ๊ฒฐ๊ณผ ์ฐจ์ด๋ ์ ์์ ๋๋ค(์ด ์ํ, ์์คํ ๋ถํ, ํ์ผ ์์คํ ์บ์ ์ํ์ ๋ฐ๋ผ ๋ค๋ฆ).
M5 Max๊ฐ 2๋ฐฐ ๋์ญํญ์์๋ ์ ์ฝ 2๋ฐฐ๋ง ๋น ๋ฆ ๋๊น?
๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ํ ํฐ ์์ฑ ์๋๋ฅผ ์ ํ์ ์ผ๋ก ์ ํํฉ๋๋ค. M5 Max์ 614 GB/s vs M5 Pro์ 307 GB/s = ์ด๋ก ์ 2๋ฐฐ ์๋. ์ค์ ๊ฐ์์ ์ํคํ ์ฒ ์ฐจ์ด์ ์บ์ ํจ๊ณผ๋ก ์ธํด 1.8โ2.1๋ฐฐ์ ๋๋ค.
์ RTX 4090์ด 8B ๋ชจ๋ธ์์ ๋ ๋์ tok/s๋ฅผ ๋ณด์ ๋๊น?
RTX 4090์ M5 Max(614 GB/s)๋ณด๋ค ๋์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ(1,008 GB/s)์ ๊ฐ์ต๋๋ค. ๊ทธ๋ฌ๋ RTX 4090์ 24GB VRAM ํ๊ณ๋ก 70B ๋ชจ๋ธ์ ์คํํ ์ ์๋ ๋ฐ๋ฉด M5 Max๋ ๊ฐ๋ฅํฉ๋๋ค. ์ํ ๋ชจ๋ธ์ ์์ ์๋ vs ๋ชจ๋ธ ํฌ๊ธฐ ์ ์ฐ์ฑ ์ฌ์ด์ ํธ๋ ์ด๋์คํ์ ๋๋ค.
M5 Pro๋ก ์ถฉ๋ถํฉ๋๊น, ์๋๋ฉด M5 Max๋ฅผ ๊ตฌ๋งคํด์ผ ํฉ๋๊น?
M5 Pro๋ 8B/13B/34B ๋ชจ๋ธ์์ ๋ฐ์ด๋ ๊ฐ์ฑ๋น๋ฅผ ์ ๊ณตํฉ๋๋ค. M5 Max($1,800+ ํ๋ฆฌ๋ฏธ์)๋ 70B ๋ชจ๋ธ์ ์ ๊ธฐ์ ์ผ๋ก ์ฌ์ฉํ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ ์คํ(๋น์ + LLM + TTS ๋์ ์คํ)์ด ํ์ํ ๊ฒฝ์ฐ์๋ง ๋น์ฉ์ด ์ ๋นํ๋ฉ๋๋ค.
M5 Ultra ๋ฒค์น๋งํฌ๋ ๊ทน์ ์ผ๋ก ๋ ๋น ๋ฅผ ๊ฒ์ ๋๊น?
M5 Ultra๋ 2026๋ ์ค๋ฐ ์ถ์ ์์ ์ผ๋ก ~1,200 GB/s ๋์ญํญ(M5 Max์ 2๋ฐฐ)์ ๊ฐ์ถ ๊ฒ์ ๋๋ค. ์ฝ 2๋ฐฐ ๋น ๋ฅธ ํ ํฐ ์์ฑ์ด ์์๋๋ฉฐ, 70B Q8(๋ฌด์์ค) ๋ฐ 120B ์ด์ ๋ชจ๋ธ์ ์๋ฏธ ์๋ ์๋๋ก ์ฒ๋ฆฌํ ์ ์๊ฒ ๋ฉ๋๋ค.