ํต์ฌ ์์
- ๋์ผ VRAM: 7B ๋ชจ๋ธ ๋ชจ๋ Q4_K_M ๊ธฐ์ค 5.5 GB; 32B ๋ชจ๋ธ ๋ชจ๋ 20.5 GB ํ์
- ์ํ: DeepSeek-R1-Distill-Qwen-32B ์ฐ์ธ (MATH-500 94% vs 90.3%)
- ์ฝ๋ฉ: Qwen3-Coder 32B ์ฐ์ธ (HumanEval 91.5% vs 83%)
- ์ค๊ตญ์ด ํ ์คํธ: Qwen3 ์ฐ์ธ โ ๋ค์ดํฐ๋ธ ํ ํฌ๋์ด์ ๋ก CJK ํ ์คํธ 30โ40% ๋ ํจ์จ์
- ์ถ๋ก ์ฒด์ธ: DeepSeek-R1 ์ฆ๋ฅ ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ธด ์ฌ๊ณ ์ฒด์ธ์ ์์ฑํฉ๋๋ค
- ๋ฒ์ฉ ์ด์์คํดํธ: Qwen3 14B๊ฐ ๋ค์ ๋ ์ ์ฐฝํ๋ฉฐ, DeepSeek ์ฆ๋ฅ 14B๋ ๋จ์ ์์ ์์ ๊ณผ๋ํ ์ถ๋ก ๊ฒฝํฅ์ด ์์ต๋๋ค
๋ฒค์น๋งํฌ ์ง์ ๋น๊ตํ
๋ชจ๋ ๊ฒฐ๊ณผ๋ Q4_K_M ์์ํ ๊ธฐ์ค์ ๋๋ค. GPU ํ์ ์๋๋ NVIDIA RTX 4090 (24 GB VRAM), Mac ํ์ Apple M3 Max 48 GB์์ ์ธก์ ํ์ต๋๋ค.
| ๋ชจ๋ธ | VRAM | MMLU (%) | MATH-500 (%) | HumanEval (%) | ์๋ (ํ ํฐ/์ด) |
|---|---|---|---|---|---|
| Qwen3 7B | 5.5 GB | 72.5 | 62.5 | 74.6 | 50โ80 |
| DS-R1-Distill-Qwen 7B | 5.5 GB | 70.1 | 88.0 | 68.4 | 50โ80 |
| Qwen3 14B | 9.5 GB | 79.2 | 76.1 | 82.1 | 30โ50 |
| DS-R1-Distill-Qwen 14B | 9.5 GB | 75.8 | 90.0 | 75.5 | 30โ50 |
| Qwen3 32B | 20.5 GB | 83.4 | 90.3 | 91.5 | 15โ30 |
| DS-R1-Distill-Qwen 32B | 20.5 GB | 80.6 | 94.0 | 83.2 | 15โ30 |
ํ๋์จ์ด ๋ฑ๊ธ๋ณ ๊ถ์ฅ ๋ชจ๋ธ
VRAM ์๊ตฌ์ฌํญ์ ๋์ผํ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์์ ๋ ๊ณ์ด ๋ชจ๋ ๋์ผํฉ๋๋ค. DeepSeek์ Qwen ์ค ์ ํ์ ํ๋์จ์ด ์ ์ฝ์ด ์๋ ์์ ์ ํธ๋์ ๋ฐ๋ฆ ๋๋ค.
- 8 GB VRAM (RTX 3060 / M2 16 GB): ์ฝ๋ฉ/์ฑํ ์๋ Qwen3 7B; ์ํ ํํฐ๋ง์๋ DS-R1-Distill-Qwen-7B
- 12 GB VRAM (RTX 3080 / M2 Pro 24 GB): ๋ฒ์ฉ ์ฌ์ฉ์๋ Qwen3 14B; ์ถ๋ก ์ฒด์ธ์๋ DS-R1-Distill-Qwen-14B
- 24 GB VRAM (RTX 4090 / M3 Max 48 GB): Qwen3-Coder 32B ๋๋ Qwen3 32B โ ์ด ๋ฑ๊ธ์์ ์ต๊ณ ์ ๋ฒ์ฉ ๋ก์ปฌ ๋ชจ๋ธ
- 48 GB+ (M2/M3 Ultra / RTX 4090 ๋์ผ): Qwen3 72B (MMLU 86.1%, HumanEval 97%) โ GPT-4์ ๊ทผ์ ํ ์ฑ๋ฅ
- CPU ์ ์ฉ (32+ GB RAM): Qwen3 7B ๋๋ DS-R1-Distill 7B โ ์ต์ ๋ ธํธ๋ถ CPU์์ ๋ถ๋น 3โ8 ํ ํฐ์ผ๋ก ๋์
DeepSeek ๋ก์ปฌ ๋ชจ๋ธ ์ค๋ช
DeepSeek๋ ์ถ๋ก ๋ชจ๋ธ R1์ ์๋ฒ ์์ค ํ๋์จ์ด๊ฐ ํ์ํ 671B MoE(์ ๋ฌธ๊ฐ ํผํฉ) ์ํคํ ์ฒ๋ก ์ถ์ํ์ต๋๋ค. ์๋น์ ํ๋์จ์ด์์ ๋ก์ปฌ๋ก ์ฌ์ฉํ๊ธฐ ์ํ ์ค์ฉ์ ์ธ ์ ํ์ ์ฆ๋ฅ ๋ฒ์ ์ ๋๋ค โ R1์ ์ฒด์ธ ์ถ๋ก ๋ฐฉ์์ ๋ณต์ ํ๋๋ก ํ๋ จ๋ ์ํ ๋ฐ์ง ๋ชจ๋ธ์ ๋๋ค.
- DeepSeek-R1-Distill-Qwen-7B: Q4_K_M ๊ธฐ์ค 5.5 GB VRAM. 7B ๋ฑ๊ธ์์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ์ํ ๋ชจ๋ธ (MATH-500 88%). ๊ธด ์ถ๋ก ์ฒด์ธ์ ์์ฑํ๋ฉฐ, ๋น ๋ฅธ ์ฑํ ์ ์ํด์๋ ์์คํ ํ๋กฌํํธ๋ก ์ฌ๊ณ ์ฒด์ธ์ ๋นํ์ฑํํ ์ ์์ต๋๋ค.
- DeepSeek-R1-Distill-Qwen-14B: 9.5 GB VRAM. 14B ๋ฑ๊ธ์์ VRAM๋น ์ต๊ณ ์ ์ถ๋ก ์ฑ๋ฅ. ์ํ ํํฐ๋ง, ๋ ผ๋ฆฌ ํผ์ฆ, ๊ตฌ์กฐํ๋ ๋ถ์ ์์ ์ ์ด์์ ์ ๋๋ค.
- DeepSeek-R1-Distill-Qwen-32B: 20.5 GB VRAM. ์๋น์ ํ๋์จ์ด์์ ์คํ ๊ฐ๋ฅํ ๋ชจ๋ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋์ MATH-500 ์ ์: 94%. ์ฝ๋ฉ๋ณด๋ค ์ํ์ ์ ํ๋๊ฐ ์ฐ์ ์ผ ๋ ์ฌ์ฉํ์ญ์์ค.
- DeepSeek-V3 (์ ์ฒด): 671B MoE โ Q4 ํ์์ผ๋ก 400 GB+ RAM ํ์ โ ์๋น์ ํ๋์จ์ด์์๋ ์ค์ฉ์ ์ด์ง ์์ต๋๋ค. ๋์ ์ฆ๋ฅ ๋ฒ์ ์ ์ฌ์ฉํ์ญ์์ค.
- Ollama ๋ช
๋ น์ด:
ollama run deepseek-r1:7b(๊ธฐ๋ณธ์ ์ผ๋ก Q4_K_M ์ฆ๋ฅ ๋ฒ์ ์ ๋ค์ด๋ก๋)
Qwen3 ๋ก์ปฌ ๋ชจ๋ธ ์ค๋ช
Qwen3๋ ์๋ฆฌ๋ฐ๋ฐ์ 2025๋ 10์ ์ถ์ ์ ํ์ผ๋ก ๋ฒ ์ด์ค, Coder, Vision-Language ๋ณํ์ ํฌํจํฉ๋๋ค. ๋ชจ๋ ๋ฒ ์ด์ค ๋ชจ๋ธ์ 128K ์ปจํ ์คํธ ์ฐฝ๊ณผ Apache 2.0 ๋ผ์ด์ ์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Qwen3 7B: 5.5 GB VRAM. ์ฝ๋ฉ ๋ฐ ์ค๊ตญ์ด ํ ์คํธ์ ๊ฐ์ฅ ์ ํฉํ 7B ๋ฒ์ฉ ๋ชจ๋ธ. HumanEval 74.6%๋ ์ฝ๋ ๋ถ์ผ์์ ๋ชจ๋ 7B ๊ฒฝ์ ๋ชจ๋ธ์ ๋ฅ๊ฐํฉ๋๋ค.
- Qwen3 14B: 9.5 GB VRAM. ํ์ง๊ณผ ์๋์ ์ต์ ๊ท ํ์ . HumanEval 82.1%, MMLU 79.2%. 12 GB VRAM ์ค์ ๋๋ถ๋ถ์์ ์ต์ ์ ์ ํ์ ๋๋ค.
- Qwen3 32B: 20.5 GB VRAM. HumanEval 91.5% โ 48 GB VRAM ๋ฏธ๋ง์์ ์ต๊ณ ์ ์ฝ๋ฉ ๋ฒค์น๋งํฌ ์ ์.
- Qwen3-Coder 32B: ๋ฒ ์ด์ค 32B์ ๋์ผํ VRAM์ผ๋ก ์ฝ๋ ์์ฑ ๋ฐ ๋ฆฌ๋ทฐ์ ํนํ ๋ฏธ์ธ ์กฐ์ ๋จ. ์ฝ๋ฉ์ด ์ฃผ์ ์์ ์ผ ๋ ๋ฒ ์ด์ค ๋์ ์ฌ์ฉํ์ญ์์ค.
- Qwen3 72B: 46 GB VRAM. MMLU 86.1%, HumanEval 97%. 48 GB+ ํตํฉ ๋ฉ๋ชจ๋ฆฌ(M2/M3 Ultra) ๋๋ ๋ฉํฐ GPU ์ค์ ์์๋ง ์คํ ๊ฐ๋ฅํฉ๋๋ค.
- Ollama ๋ช
๋ น์ด:
ollama run qwen2.5:14b-instruct-q4_K_M
Apple Silicon vs NVIDIA: ๋ ๊ณ์ด ์คํ
DeepSeek ์ฆ๋ฅ ๋ชจ๋ธ๊ณผ Qwen3 ๋ชจ๋ Ollama ๋๋ llama.cpp๋ฅผ ํตํด Metal ๊ฐ์์ผ๋ก Apple Silicon์์ ์ ๋์ํฉ๋๋ค. ํต์ฌ ์ฐจ์ด๋ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ๋๋ค.
| ํ๋์จ์ด | ์ต์ ๋ชจ๋ธ ๋ฑ๊ธ | ์๋ (7B) | ์๋ (32B) | ๋น๊ณ |
|---|---|---|---|---|
| M2/M3 16 GB | 7B ์ ์ฉ | 30โ50 ํ ํฐ/์ด | N/A | ๋ 7B ๋ชจ๋ธ ๋ชจ๋ ์ ํฉ; 14B๋ ์ค์ ์ฌ์ฉ |
| M3 Pro 36 GB | 14B ์ต์ | 60โ90 ํ ํฐ/์ด | N/A | 14B ์ ์๋ ฅ; 32B๋ ์ค์ ์ฌ์ฉ |
| M3 Max 48 GB | 32B ์พ์ | 80โ120 ํ ํฐ/์ด | 15โ25 ํ ํฐ/์ด | 32B ์คํ ์ต๊ณ ์ ์๋น์๊ธ Apple Silicon |
| RTX 4060 8 GB | 7B ์ ์ฉ | 50โ80 ํ ํฐ/์ด | N/A (๋ถ๋ถ ์คํ๋ก๋) | 7B ์์ ์ ํฉ; 14B๋ CPU ์คํ๋ก๋ ํ์ |
| RTX 4090 24 GB | 32B | 100โ150 ํ ํฐ/์ด | 18โ28 ํ ํฐ/์ด | 32B ์คํ ์ต๊ณ ์ ๋จ์ผ GPU |
์ฌ์ฉ ์ฌ๋ก๋ณ ํ์
์ผ๋ฐ์ ์ธ ๋ก์ปฌ LLM ์ฌ์ฉ ์ฌ๋ก๋ณ ํ ๋ฌธ์ฅ ๋ต๋ณ:
- ์ํ ๊ณผ์ธ/ํํฐ๋ง: DS-R1-Distill-Qwen-7B โ MATH-500 88%๋ก ๋์ผ VRAM์ Qwen3 7B(62.5%)๋ฅผ ์๋
- ์ฝ๋ ์์ฑ/๊ฒํ : Qwen3-Coder 32B โ HumanEval 91.5%, ์๋น์ ํ๋์จ์ด์์ ์คํ ๊ฐ๋ฅํ ๋ชจ๋ธ ์ค ์ต๊ณ
- ์ค๊ตญ์ด ์ฑํ : Qwen3 7B โ ๋ค์ดํฐ๋ธ CJK ํ ํฌ๋์ด์ ๋ก ์ค๊ตญ์ด ํ ์คํธ๋ฅผ 30โ40% ๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌ
- ๋จ๊ณ๋ณ ๋ถ์/์ถ๋ก ์ฒด์ธ: DS-R1-Distill-Qwen-14B โ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ช ์์ ์ธ ์ฌ๊ณ ์ฒด์ธ์ ์์ฑ
- ์ผ์ ๋ฒ์ฉ ์ด์์คํดํธ (8 GB VRAM): Qwen3 7B โ ๋ ์ ์ฐฝํ ๋ํ, ๋จ์ ์์ ์์ DeepSeek์ ๊ณผ๋ํ ์ถ๋ก ๋ฐฉ์ง
- ๊ธฐ์ ํ๋ผ์ด๋น ๋ฐฐํฌ (ํ๊ตญ): ๋ ๋ชจ๋ธ ๋ชจ๋ ๋ก์ปฌ ์คํ ์ ๋ฐ์ดํฐ๊ฐ ๊ธฐ๊ธฐ๋ฅผ ๋ฒ์ด๋์ง ์์ PIPA(๊ฐ์ธ์ ๋ณด๋ณดํธ๋ฒ) ๋ฐ์ดํฐ ๊ฑฐ์ฃผ ์๊ฑด์ ์ถฉ์กฑ
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
DeepSeek-R1๊ณผ ์ฆ๋ฅ ๋ชจ๋ธ์ ๊ฐ์ ๊ฒ์ธ๊ฐ์?
์๋๋๋ค. DeepSeek-R1์ ์๋ฒ ์์ค ํ๋์จ์ด๊ฐ ํ์ํ 671B MoE ๋ชจ๋ธ์ ๋๋ค. ์ฆ๋ฅ ๋ฒ์ (7B, 14B, 32B)์ R1์ ์ถ๋ก ์คํ์ผ์ ๋ณต์ ํ๋๋ก ํ๋ จ๋ ๋ ๋ฆฝ์ ์ธ ๋ฐ์ง ๋ชจ๋ธ๋ก, ๋ก์ปฌ ์ฌ์ฉ์ ์ค์ฉ์ ์ธ ์ ํ์ ๋๋ค.
DeepSeek์ Qwen์ ๊ฐ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์์ ๋์ผํ VRAM์ ์ฌ์ฉํ๋์?
์, ๋์ผํ ์์ํ ์์ค์์ ๊ทธ๋ ์ต๋๋ค. ๋ 7B ๋ชจ๋ธ ๋ชจ๋ Q4_K_M ๊ธฐ์ค ์ฝ 5.5 GB๊ฐ ํ์ํ๊ณ , ๋ 32B ๋ชจ๋ธ ๋ชจ๋ 20.5 GB๊ฐ ํ์ํฉ๋๋ค. ํ๋์จ์ด ์ ํ์ VRAM ์ฐจ์ด๊ฐ ์๋ ์์ ์ ํธ๋์ ๋ฐ๋ฆ ๋๋ค.
Ollama๋ก DeepSeek-R1 ์ฆ๋ฅ ๋ชจ๋ธ์ ์คํํ ์ ์๋์?
์. 7B ์ฆ๋ฅ ๋ฒ์ ์ ollama run deepseek-r1:7b, 32B๋ ollama run deepseek-r1:32b๋ฅผ ์คํํ์ญ์์ค. Ollama๋ ๊ธฐ๋ณธ์ ์ผ๋ก Q4_K_M์ ๋ค์ด๋ก๋ํฉ๋๋ค.
์ค๊ตญ์ด ํ ์คํธ์๋ DeepSeek์ Qwen ์ค ์ด๋ ๊ฒ์ด ๋ ๋์๊ฐ์?
Qwen3๊ฐ ์ค๊ตญ์ด ํ ์คํธ์์ ํจ์ฌ ๋ ์ฐ์ํฉ๋๋ค. CJK ํ ์คํธ์์ 30โ40% ๋ ํจ์จ์ ์ธ ์ ์ฉ ์ค๊ตญ์ด ํ ํฌ๋์ด์ ๋ฅผ ์ฌ์ฉํฉ๋๋ค. DeepSeek-R1 ์ฆ๋ฅ ๋ชจ๋ธ์ Qwen3 ๊ฐ์ค์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋์ด ์ค๊ตญ์ด ์ง์์ ์ด๋ ์ ๋ ์์ํ์ง๋ง, Qwen3 ๋ฒ ์ด์ค ๋ชจ๋ธ์ด ์ฒซ ๋ฒ์งธ ์ ํ์ ๋๋ค.
8 GB VRAM์์ ์ํ์ ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ ํ๋์?
DeepSeek-R1-Distill-Qwen-7B๋ฅผ ์ฌ์ฉํ์ญ์์ค. ๋์ผํ VRAM์ผ๋ก MATH-500 88%๋ฅผ ๋ฌ์ฑํ๋ฉฐ Qwen3 7B(62.5%)๋ณด๋ค 25ํฌ์ธํธ ๋์ต๋๋ค.
DeepSeek-R1์ ๋ก์ปฌ๋ก ์คํํ๋ฉด ๊ฐ์ธ์ ๋ณด๋ณดํธ๋ฒ์ ์ค์ํ๋์?
๋ชจ๋ธ์ ๋ก์ปฌ๋ก ์คํํ๋ฉด ๋ฐ์ดํฐ๊ฐ ๊ทํ์ ํ๋์จ์ด๋ฅผ ๋ฒ์ด๋์ง ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ ์ถ์ฒ์ ๊ด๊ณ์์ด PIPA(๊ฐ์ธ์ ๋ณด๋ณดํธ๋ฒ) ๋ฐ ๋ฐ์ดํฐ ๊ฑฐ์ฃผ ์๊ฑด์ ์ถฉ์กฑํฉ๋๋ค. ์ค์ ์ฌ๋ถ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐฉ์์ ๊ดํ ๊ฒ์ด์ง ๋ชจ๋ธ ์ถ์ฒ์ ๊ดํ ๊ฒ์ด ์๋๋๋ค.