Key Takeaways
- ์ํ ๊ท๋ชจ์์ ์ต๊ณ ์ถ๋ก ์ฑ๋ฅ: Phi-4 Mini 3.8B -- MMLU 68%, HumanEval 70%, RAM 4 GB์์ ์คํ ๊ฐ๋ฅ.
- CPU์์ ๊ฐ์ฅ ๋น ๋ฆ: Gemma 2 2B -- ์ต์ ๋ ธํธ๋ถ์์ ์ด๋น 40~60 ํ ํฐ, RAM 1.7 GB.
- ์ต๊ณ ์ํ ์ฝ๋ฉ ๋ชจ๋ธ: Qwen3 3B -- RAM ~2 GB์์ HumanEval 65%.
- ์ต๊ณ ๋ฒ์ฉ 3B ๋ชจ๋ธ: Llama 3.2 3B -- ๊ฐ์ฅ ๊ด๋ฒ์ํ ์ปค๋ฎค๋ํฐ ์ง์, ์ปจํ ์คํธ 128K, RAM 2.5 GB.
- 2026๋ 4์ ๊ธฐ์ค, 2B ๋ฏธ๋ง ๋ชจ๋ธ ์ค ์ ๋ฌธ์ ์์ ์ ์ ํฉํ ์ถ๋ ฅ ํ์ง์ ์์ฑํ๋ ๋ชจ๋ธ์ ์์ต๋๋ค. ์ค์ ์ ๋ฌด์๋ 3B ์ด์์ ์ฌ์ฉํ์ญ์์ค.
"์ํ" ๋ก์ปฌ LLM์ด๋ ๋ฌด์์ด๋ฉฐ ์ธ์ ์ฌ์ฉํด์ผ ํฉ๋๊น?
์ํ ๋ก์ปฌ LLM์ ์ผ๋ฐ์ ์ผ๋ก 40์ต ๊ฐ ๋ฏธ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ก ์ ์๋ฉ๋๋ค. Q4_K_M ์์ํ์์ ์ด๋ฌํ ๋ชจ๋ธ์ 1.5~3 GB์ RAM์ ํ์๋ก ํฉ๋๋ค -- RAM 4~8 GB์ ๋ณด๊ธํ ๋ ธํธ๋ถ ์ ์ฝ ์กฐ๊ฑด ๋ด์์ ์ถฉ๋ถํ ์คํ ๊ฐ๋ฅํฉ๋๋ค.
2026๋ 4์ ๊ธฐ์ค, ์ํ ๋ชจ๋ธ์ ๋น ๋ฅธ ์์ฝ, ๊ฐ๋จํ Q&A, ์ฝ๋ ์ค๋ํซ ์ค๋ช , ์งง์ ํ ์คํธ ๋ฒ์ญ, ๋ถ๋ฅ ์์ ์ ์ ํฉํฉ๋๋ค. ๋ค๋จ๊ณ ์ถ๋ก , ๋ณต์กํ ์ฝ๋ ์์ฑ, ์ฅ๋ฌธ์ ์ผ๊ด๋ ๋ฌธ์ ์์ฑ์๋ ์ ํฉํ์ง ์์ต๋๋ค.
3B ๋ชจ๋ธ๊ณผ 7B ๋ชจ๋ธ ๊ฐ์ ํ์ง ์ฐจ์ด๋ ์๋นํฉ๋๋ค -- GPT-4o mini์ GPT-5.5 ๊ฐ์ ์ฐจ์ด์ ๊ฑฐ์ ํด๋นํฉ๋๋ค. RAM 8 GB ์ฌ์ฉ์์ ๊ฒฝ์ฐ, ๊ธฐ๊ธฐ์ ์ฌ์ ๊ฐ ์๋ค๋ฉด Q4_K_M์ 7B ๋ชจ๋ธ์ด ๊ฑฐ์ ํญ์ ๋ ๋์ ์ ํ์ ๋๋ค. 7B ๋ชจ๋ธ ์ถ์ฒ์ ์ด๋ณด์๋ฅผ ์ํ ์ต๊ณ ๋ก์ปฌ LLM ๋ชจ๋ธ์ ์ฐธ์กฐํ์ญ์์ค.
์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ ํฉ๋๊น? ๋น ๋ฅธ ์ ํ ๊ฐ์ด๋
Phi-4 Mini 3.8B -- 4B ๋ฏธ๋ง ํด๋์ค์์ ์ต๊ณ ์ถ๋ก ์ฑ๋ฅ
Microsoft Phi-4 Mini๋ MMLU 68%์ HumanEval 70%๋ฅผ ๋ฌ์ฑํฉ๋๋ค -- 2025๋ ์ด์ ์ ์ถ์๋ ๋ง์ 7B ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ ์์ ๋๋ค. ์ด๋ Phi-4 Mini๊ฐ ๊ด๋ฒ์ํ ์น ํ ์คํธ๊ฐ ์๋ ์ถ๋ก ๊ณผ ๋ฌธ์ ํด๊ฒฐ์ ์ด์ ์ ๋ง์ถ ์ ์ ๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํฉ๋๋ค.
2026๋ 4์ ๊ธฐ์ค, Phi-4 Mini๋ RAM 4~6 GB ํ๋์จ์ด์์ ์ฃผ๋ก ์ถ๋ก (์ํ, ๋ ผ๋ฆฌ, ๋จ๊ณ๋ณ ์ค๋ช )์ด๋ ์ฝ๋ฉ ์ง์์ด ํ์ํ ์ฌ์ฉ์์๊ฒ ๊ถ์ฅ๋๋ ์ ํ์ ๋๋ค.
| Spec | Value |
|---|---|
| MMLU | 68% |
| HumanEval | 70% |
| RAM (Q4_K_M) | ~2.5 GB |
| ์ปจํ ์คํธ | 128K ํ ํฐ |
| CPU ์๋ | ์ด๋น 30~50 ํ ํฐ |
| Ollama ๋ช ๋ น์ด | ollama run phi4-mini |
Gemma 2 2B -- CPU์์ ๊ฐ์ฅ ๋น ๋ฅธ ์ํ ๋ก์ปฌ LLM
Google Gemma 2 2B๋ ์ต์ ๋ ธํธ๋ถ CPU์์ ์ด๋น 40~60 ํ ํฐ์ ์์ฑํฉ๋๋ค -- ์ด ํ์ง ๋ฑ๊ธ์์ ์ด๋ ๋ชจ๋ธ๋ณด๋ค ๋น ๋ฆ ๋๋ค. 1.7 GB RAM ์ฌ์ฉ๋์ผ๋ก RAM 4 GB ๊ธฐ๊ธฐ์์ OS์ ๋ค๋ฅธ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํ ์ถฉ๋ถํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋จ๊น๋๋ค.
์ถ๋ก ์์ ์์์ ํ์ง์ Phi-4 Mini๋ Llama 3.2 3B๋ณด๋ค ๋ฎ์ต๋๋ค. 8K ์ปจํ ์คํธ ์ฐฝ(Phi-4 Mini์ Llama 3.2์ 128K ๋๋น)์ ๊ธด ๋ฌธ์ ์ฒ๋ฆฌ์ ์ค์ง์ ์ธ ์ ํ์ด ๋ฉ๋๋ค. Gemma 2 2B๋ ์ถ๋ ฅ ํ์ง๋ณด๋ค ์๋ต ์๋๊ฐ ๋ ์ค์ํ ๊ฒฝ์ฐ์ ์ ํฉํ ์ ํ์ ๋๋ค.
| Spec | Value |
|---|---|
| MMLU | 52% |
| RAM (Q4_K_M) | ~1.7 GB |
| ์ปจํ ์คํธ | 8K ํ ํฐ |
| CPU ์๋ | ์ด๋น 40~60 ํ ํฐ |
| Ollama ๋ช ๋ น์ด | ollama run gemma2:2b |
Qwen3 3B -- ์ฝ๋ฉ ์์ ์ ์ต์ ์ธ ์ํ ๋ชจ๋ธ
Qwen3 3B๋ HumanEval์์ 65%๋ฅผ ๊ธฐ๋กํฉ๋๋ค -- Llama 3.2 3B๋ณด๋ค 5ํผ์ผํธํฌ์ธํธ ๋์ 3B ๊ท๋ชจ์์ ์ฝ๋ฉ ์์ ์ ์ต์ ์ ์ ํ์ ๋๋ค. JSON ๋ชจ๋์ ํจ์ ํธ์ถ ์ง์์ ํฌํจํ๋ฉฐ, 29๊ฐ ์ธ์ด๋ฅผ ๊ธฐ๋ณธ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
์์ด ๋น์ฝ๋ฉ ์์ ์์๋ Llama 3.2 3B์ Phi-4 Mini๊ฐ ๋ ์์ฐ์ค๋ฌ์ด ์ฐ๋ฌธ์ ์์ฑํฉ๋๋ค. ์ฝ๋ฉ์ด๋ ๋ค๊ตญ์ด ์ถ๋ ฅ์ด ์ฃผ์ ์ฌ์ฉ ์ฌ๋ก์ธ ๊ฒฝ์ฐ์๋ง Qwen3 3B๋ฅผ ์ ํํ์ญ์์ค.
| Spec | Value |
|---|---|
| MMLU | 62% |
| HumanEval | 65% |
| RAM (Q4_K_M) | ~2 GB |
| ์ปจํ ์คํธ | 128K ํ ํฐ |
| CPU ์๋ | ์ด๋น 25~40 ํ ํฐ |
| Ollama ๋ช ๋ น์ด | ollama run qwen2.5:3b |
Llama 3.2 3B -- ์ต๊ณ ๋ฒ์ฉ ์ํ ๋ชจ๋ธ
Meta Llama 3.2 3B๋ ๊ฐ์ฅ ๊ด๋ฒ์ํ๊ฒ ๋ฌธ์ํ๋๊ณ ์ปค๋ฎค๋ํฐ์์ ์ง์๋๋ 3B ๋ชจ๋ธ์ ๋๋ค. MMLU 58%์ HumanEval 60%๋ฅผ ๊ธฐ๋กํฉ๋๋ค -- ๋ ํญ๋ชฉ ๋ชจ๋ Phi-4 Mini๋ณด๋ค ์ฝ๊ฐ ๋ฎ์ง๋ง -- ๊ฐ์ฅ ๋์ ๋๊ตฌ ์ง์, ๊ฐ์ฅ ๋ง์ ํ์ธํ๋ ๋ชจ๋ธ, ๊ฐ์ฅ ๋ฐฉ๋ํ ์ปค๋ฎค๋ํฐ ๊ฐ์ด๋ ์ปฌ๋ ์ ์ ๊ฐ์ถ๊ณ ์์ต๋๋ค.
128K ์ปจํ ์คํธ ์ฐฝ์ ๋ ํฐ Llama 3.x ๋ชจ๋ธ๊ณผ ๋์ผํ์ฌ ์ค๊ฐ ๊ธธ์ด์ ๋ฌธ์ ์์ฝ์ ์ ํฉํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ์ํ ๋ชจ๋ธ๋ก๋ ์์ธก ๊ฐ๋ฅํ ๋์๊ณผ ๋ฐฉ๋ํ ๋ฌธ์๋ก ์ธํด Llama 3.2 3B๊ฐ ๊ฐ์ฅ ์์ ํ ์ ํ์ ๋๋ค.
| Spec | Value |
|---|---|
| MMLU | 58% |
| RAM (Q4_K_M) | ~2.5 GB |
| ์ปจํ ์คํธ | 128K ํ ํฐ |
| CPU ์๋ | ์ด๋น 25~45 ํ ํฐ |
| Ollama ๋ช ๋ น์ด | ollama run llama3.2:3b |
Llama 3.2 1B -- ์ ์ฉํ ์ถ๋ ฅ์ ์ํ ์ ๋ ์ต์ ์ฌ์
Llama 3.2 1B๋ RAM 1.3 GB๋ง ํ์ํ๋ฉฐ CPU์์ ์ด๋น 60~90 ํ ํฐ์ ์์ฑํฉ๋๋ค -- ๋ก์ปฌ์์ ์คํ ๊ฐ๋ฅํ ๊ฐ์ฅ ๋น ๋ฅธ ๋ชจ๋ธ์ ๋๋ค. ์ถ๋ ฅ ํ์ง์ ํ๊ณ ์์ค์ ๋๋ค: ๋งค์ฐ ๊ฐ๋จํ ๋ถ๋ฅ์ ํค์๋ ์ถ์ถ์ ์ฒ๋ฆฌํ์ง๋ง ์ผ๊ด์ฑ ์๋ ์ฌ๋ฌ ๋ฌธ์ฅ ์๋ต์๋ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. 2026๋ 4์ ๊ธฐ์ค, Llama 3.2 1B๋ RAM์ด ์ค์ ๋ก ์ ์ฝ ์์ธ์ธ ๊ฒฝ์ฐ(๊ฐ์ฉ RAM 3 GB ๋ฏธ๋ง)๋ ๋๊ตฌ ํตํฉ ํ ์คํธ ๋ชฉ์ ์ผ๋ก๋ง ์ฌ์ฉํ์ญ์์ค.
์ ์ฒด ๋น๊ต: 4B ๋ฏธ๋ง ์ต๊ณ ์ํ ๋ก์ปฌ LLM
| ๋ชจ๋ธ | MMLU | HumanEval | RAM | ์ปจํ ์คํธ | ์ต์ ์ฉ๋ |
|---|---|---|---|---|---|
| Phi-4 Mini 3.8B | 68% | 70% | 2.5 GB | 128K | ์ถ๋ก , ์ฝ๋ฉ |
| Qwen3 3B | 62% | 65% | 2 GB | 128K | ์ฝ๋ฉ, ๋ค๊ตญ์ด |
| Llama 3.2 3B | 58% | 60% | 2.5 GB | 128K | ๋ฒ์ฉ, ์ฒซ ๋ชจ๋ธ |
| Gemma 2 2B | 52% | 38% | 1.7 GB | 8K | ์๋, ๊ทน์ ์ฉ๋ RAM |
| Llama 3.2 1B | 32% | 28% | 1.3 GB | 128K | ์ ๋ ์ต์ RAM |
์ง์ญ๋ณ ์ํ ๋ก์ปฌ LLM
EU / GDPR: ์ ์ฝ๋ ํ๋์จ์ด -- ํ์ฅ ์์ , ์์ด๊ฐญ ํ๊ฒฝ, ๊ตฌํ ๊ธฐ์ ๋ ธํธ๋ถ -- ์์ AI๋ฅผ ์คํํ๋ EU ์ ๋ฌธ๊ฐ์ ๊ฒฝ์ฐ, ์ํ ๋ก์ปฌ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ์ธ๋ถ ์ ์ถ ์์ด GDPR ์ค์ ์ถ๋ก ์ ์ ๊ณตํฉ๋๋ค. ํ์ค ๊ธฐ์ ๋ ธํธ๋ถ(RAM 8 GB)์์ ์คํ๋๋ Phi-4 Mini 3.8B๋ GDPR ์ 5์กฐ(๋ฐ์ดํฐ ์ต์ํ) ํ์ ์ฒ๋ฆฌ๋ ๋ชจ๋ ํ ์คํธ๋ฅผ ์จ๋๋ฐ์ด์ค์ ๋ณด๊ดํฉ๋๋ค. ๋ ์ผ BSI ์ค์ ๋ฌธ์ํ์ ๊ฒฝ์ฐ: Phi-4 Mini(Microsoft, MIT ๋ผ์ด์ ์ค)์ Llama 3.2 3B(Meta, Llama Community ๋ผ์ด์ ์ค) ๋ชจ๋ Ollama ํ๊ทธ๋ฅผ ํตํด ๋ฒ์ ์ด ์ง์ ๋ ๋ชจ๋ธ ์๋ณ์๋ฅผ ์ ๊ณตํ์ฌ AI ๋๊ตฌ ๋ฌธ์ํ ์๊ฑด์ ์ถฉ์กฑํฉ๋๋ค. Mistral์ ํ์ฌ 4B ๋ฏธ๋ง ๋ชจ๋ธ์ ์ ๊ณตํ์ง ์์ต๋๋ค. ์ด ํฌ๊ธฐ ํด๋์ค์์ EU ์ถ์ ๋ชจ๋ธ์ ์ ํธํ๋ EU ์กฐ์ง์ ๊ฒฝ์ฐ, Mistral์ด 4B ๋ฏธ๋ง ๋ฒ์ ์ ์ถ์ํ ๋๊น์ง ์ ํ์ง๊ฐ ์ ํ์ ์ ๋๋ค.
์ผ๋ณธ (METI): ์ํ ๋ชจ๋ธ ๋ฑ๊ธ์์ ์ผ๋ณธ์ด ์์ ์ ๊ฒฝ์ฐ, Qwen3 3B๊ฐ ์ด ๋น๊ต์์ ๊ธฐ๋ณธ ์ผ๋ณธ์ด ํ ํฌ๋์ด์ ์ด์ ์ ๊ฐ์ถ ์ ์ผํ ๋ชจ๋ธ์ ๋๋ค. Llama 3.2 3B๋ ์ผ๋ณธ์ด๋ฅผ ์ฒ๋ฆฌํ์ง๋ง ํ ํฐ ํจ์จ์ด ๋ฎ์ต๋๋ค. ์ ์ฝ๋ ํ๋์จ์ด์์ ์ผ๋ณธ์ด ์์ฝ์ด๋ ๋ฒ์ญ์ ๊ฒฝ์ฐ: `ollama run qwen2.5:3b`. ์ํ ๋ชจ๋ธ์ ์๋ ์ด์ ์ ์ผ๋ณธ ๊ธฐ์ ์ฌ์ฉ์ ํนํ ๊ด๋ จ์ฑ์ด ์์ต๋๋ค: CPU์์ ์ด๋น 25~40 ํ ํฐ์ ํ์ค ์ฌ๋ฌด์ฉ ํ๋์จ์ด์ ์ฑํ ์ธํฐํ์ด์ค์ ์ ์ ํ ์ค์๊ฐ ์๋ต์ ์ ๊ณตํฉ๋๋ค.
์ค๊ตญ: Qwen3 3B(์๋ฆฌ๋ฐ๋ฐ, Apache 2.0)๋ ์ค๊ตญ์ด ์ํ ๋ชจ๋ธ ๋ฐฐํฌ์ ์์ฐ์ค๋ฌ์ด ์ ํ์ ๋๋ค. ๊ธฐ๋ณธ ์ค๊ตญ์ด ํ ํฌ๋์ด์ ์ด์ ์ ๋๋ฑํ ํ๋ผ๋ฏธํฐ ์์์ Llama๋ณด๋ค ์ค๊ตญ์ด ํ ์คํธ๋ฅผ 30~40% ๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ค๊ตญ์ ๋ฐ์ดํฐ ์์ ๋ฒ(ๆฐๆฎๅฎๅ จๆณ) ํ์์ IoT ๋ฐ ์ฃ์ง ๋ฐฐํฌ์ ๊ฒฝ์ฐ: `ollama run qwen2.5:3b`๋ RAM 4 GB์ ๋ชจ๋ Linux ๊ธฐ๊ธฐ์์ ์คํ๋๋ฉฐ ์ธ๋ถ API ํธ์ถ ์์ด ์จ๋๋ฐ์ด์ค๋ก ๋ชจ๋ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
์ํ ๋ก์ปฌ LLM ์คํ ์ ํํ ์ค์๋ ๋ฌด์์ ๋๊น?
- Q4_K_M ๋์ Q8_0 ์์ํ ์ฌ์ฉ: Q8_0์ ์ํ ๋ชจ๋ธ์์ ํ์ง ๊ฐ์ ์ด ๋ฏธ๋ฏธํจ์๋ Q4_K_M ๋๋น ๊ฑฐ์ ๋ ๋ฐฐ์ RAM์ ํ์๋ก ํฉ๋๋ค. Q8_0์ Llama 3.2 3B ๋ชจ๋ธ์ Q4_K_M์ ~2.5 GB ๋๋น ~3.8 GB์ RAM์ด ํ์ํฉ๋๋ค. RAM 4 GB ๊ธฐ๊ธฐ์์ Q8_0์ ์ค์ ์ฌ์ฉ์ ์ ๋ฐํ์ฌ ์ถ๋ก ์๋๋ฅผ 3~5๋ฐฐ ๋๋ฆฌ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค. 4B ๋ฏธ๋ง ๋ชจ๋ธ์๋ ํญ์ Q4_K_M์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ์ฌ์ฉํ์ญ์์ค.
- instruct ๋ฒ์ ๋์ ๋ฒ ์ด์ค ๋ชจ๋ธ ์คํ: ๋ฒ ์ด์ค ๋ชจ๋ธ(์: `llama3.2:3b-text`)์ ํ์ธํ๋ ์ด์ ์ ์ฒดํฌํฌ์ธํธ๋ก, ํ ์คํธ์ ๋ค์ ํ ํฐ์ ์์ธกํ๋๋ก ํ์ต๋ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ง์๋ฅผ ๋ฐ๋ฅด์ง ์์ต๋๋ค. ๋ฒ ์ด์ค ๋ชจ๋ธ์ "2+2๋ ๋ฌด์์ ๋๊น?"๋ผ๊ณ ๋ฌผ์ผ๋ฉด "4"๋ผ๊ณ ๋ตํ๋ ๋์ ํด์ฆ ํ์์ผ๋ก ๋ฌธ์ฅ์ ์์ฑํ ์ ์์ต๋๋ค. ํญ์ instruct ๋ฒ์ ์ ์ฌ์ฉํ์ญ์์ค: `llama3.2:3b` (Ollama๋ ์ด๋ฆ์ด ์ง์ ๋ ๋ชจ๋ธ์ ๋ํด ๊ธฐ๋ณธ์ ์ผ๋ก instruct๋ฅผ ์ฌ์ฉํฉ๋๋ค).
- 3B ๋ชจ๋ธ์ 7B ๋ชจ๋ธ ์์ค์ ํ์ง ๊ธฐ๋: MMLU 68%์ 3B ๋ชจ๋ธ(Phi-4 Mini)์ ์ผ๋ฐ ์์ ์์ 2023๋ GPT-3.5 Mini์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๋ณต์กํ ์ถ๋ก ์ฐ์, ์ฅ๋ฌธ ์์ฑ, ์ธ๋ฐํ ์ฝ๋ ์์ฑ์ 7B ๋ชจ๋ธ๋ณด๋ค ๋์ ๋๊ฒ ๋ฎ์ ํ์ง์ ๋ณด์ผ ๊ฒ์ ๋๋ค. ์ถ๋ ฅ ํ์ง์ด ์ถฉ๋ถํ์ง ์๋ค๋ฉด 7B ๋ชจ๋ธ๋ก ์ ๊ทธ๋ ์ด๋ํ์ญ์์ค -- RAM ์ฐจ์ด๋ ์ฝ 2 GB(2.5 GB โ 4.5 GB)์ ๋๋ค.
์์ํ ์ดํด: RAM ๋ ํ์ง ํธ๋ ์ด๋์คํ
์ํ ๋ก์ปฌ LLM ๋ชจ๋ธ์ ๋ํ ์ผ๋ฐ์ ์ธ ์ง๋ฌธ
์ ์ฉํ ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฐ์ฅ ์์ ๋ก์ปฌ LLM์ ๋ฌด์์ ๋๊น?
2026๋ 4์ ๊ธฐ์ค์ผ๋ก, ์ ์ฉํ ์ถ๋ ฅ์ ์ํ ์ค์ง์ ์ธ ์ต์ ์ฌ์์ Q4_K_M ์์ํ์ 3B ๋ชจ๋ธ์ ๋๋ค. 2B ๋ฏธ๋ง ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ(Llama 3.2 1B, Gemma 2 2B)์ ์ผ๊ด์ฑ ์๋ ๋จ์ผ ๋ฌธ์ฅ์ ์์ฑํ์ง๋ง ๋ค๋จ๊ณ ์ง์, ๊ธด ์๋ต, ๋ณต์กํ ์ถ๋ก ์ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ์์ฝ์ด๋ ๊ฐ๋จํ Q&A์ ๊ฐ์ ์์ ์๋ Gemma 2 2B๊ฐ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ๋ ๋ณต์กํ ์์ ์๋ 3B ๋ชจ๋ธ๋ถํฐ ์์ํ์ญ์์ค.
3B ๋ชจ๋ธ์ ์ค๋งํธํฐ์์ ์คํํ ์ ์์ต๋๊น?
์ -- Llama 3.2 1B์ 3B๋ ์จ๋๋ฐ์ด์ค ๋ชจ๋ฐ์ผ ๋ฐฐํฌ๋ฅผ ์ํด ํน๋ณํ ์ค๊ณ๋์์ต๋๋ค. Meta๋ iOS(MLC LLM ๊ฒฝ์ )์ Android์ฉ ์ต์ ํ ๋น๋๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ต์ ์ค๋งํธํฐ(Snapdragon 8 Gen 3 ๋๋ Apple A17 Pro)์์์ ์ถ๋ก ์ 1B ๋ชจ๋ธ ๊ธฐ์ค ์ด๋น 15~30 ํ ํฐ์ ์์ฑํฉ๋๋ค. LM Studio์ Ollama๋ ํ์ฌ iOS ๋ฐ Android์์ ์คํ๋์ง ์์ผ๋ฉฐ, ๋ชจ๋ฐ์ผ์๋ ๋ณ๋์ ํ๋ ์์ํฌ๊ฐ ํ์ํฉ๋๋ค.
์ํ ๋ชจ๋ธ์ ์์ฝ ์์ ์ ์ ํฉํฉ๋๊น?
์ -- ์์ฝ์ ์ํ ๋ชจ๋ธ์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ์ฌ์ฉ ์ฌ๋ก ์ค ํ๋์ ๋๋ค. Gemma 2 2B์ Llama 3.2 3B๋ ์ฝ 4,000๋จ์ด๊น์ง์ ํ ์คํธ ์์ฝ์(ํ์ง ์ถ๋ ฅ์ ์ค์ง์ ์ปจํ ์คํธ ํ๊ณ) ์์ ์ ์ผ๋ก ์์ฑํฉ๋๋ค. ๋ ๊ธด ๋ฌธ์์ ๊ฒฝ์ฐ Phi-4 Mini๋ Llama 3.2 3B(๋ ๋ค 128K ํ ํฐ)์ ๊ฐ์ด ํฐ ์ปจํ ์คํธ ์ฐฝ์ ๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค.
๋์ผํ ํ๋์จ์ด์์ 2B ๋ชจ๋ธ์ 7B ๋ชจ๋ธ๋ณด๋ค ์ผ๋ง๋ ๋น ๋ฆ ๋๊น?
CPU์์ ์ฝ 2~3๋ฐฐ ๋น ๋ฆ ๋๋ค. Gemma 2 2B๋ ๋์ผํ ๋ ธํธ๋ถ CPU์์ Mistral Small ๋๋น ์ด๋น 40~60 ํ ํฐ ๋ 10~20 ํ ํฐ์ ์์ฑํฉ๋๋ค. GPU์์๋ GPU ์ฒ๋ฆฌ๋์ด ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ ์ ์ฝ๋ฐ๊ธฐ ๋๋ฌธ์ ์๋ ์ด์ ์ด ์ค์ด๋ญ๋๋ค. ์๋ ์ฐจ์ด๋ CPU ์ ์ฉ ๊ธฐ๊ธฐ์์ ๊ฐ์ฅ ๋๋๋ฌ์ง๋๋ค.
์ํ ๋ชจ๋ธ์ ํจ์ ํธ์ถ์ ์ง์ํฉ๋๊น?
์ผ๋ถ ๋ชจ๋ธ์ ์ง์ํฉ๋๋ค. Qwen3 3B๋ ํจ์ ํธ์ถ๊ณผ JSON ๋ชจ๋๋ฅผ ์ง์ํฉ๋๋ค. Llama 3.2 3B๋ ๊ธฐ๋ณธ์ ์ธ ๋๊ตฌ ์ฌ์ฉ์ ์ง์ํฉ๋๋ค. Gemma 2 2B๋ ํจ์ ํธ์ถ์ ์ง์ํ์ง ์์ต๋๋ค. ๊ตฌ์กฐํ๋ ์ถ๋ ฅ์ ์์กดํ๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๊ธฐ ์ ์ ๋ชจ๋ธ ๋ฌธ์๋ฅผ ํ์ธํ์ญ์์ค.
์์ด ์ธ ์ธ์ด์ ๊ฐ์ฅ ์ ํฉํ ์ํ ๋ชจ๋ธ์ ๋ฌด์์ ๋๊น?
Qwen3 3B๋ ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด, ์๋์ด๋ฅผ ํฌํจํ์ฌ 29๊ฐ ์ธ์ด๋ฅผ ๊ธฐ๋ณธ์ผ๋ก ์ง์ํฉ๋๋ค. Gemma 2 2B์ Phi-4 Mini๋ ์ฃผ๋ก ์์ด์ ์ต์ ํ๋์ด ์์ต๋๋ค. ์ํ ๋ชจ๋ธ ๊ท๋ชจ์์ ๋น์์ด ์์ ์๋ Qwen3 3B๊ฐ ๋ช ํํ ์ ํ์ ๋๋ค. ์ ์ฒด ์ธ์ด ๋น๊ต๋ Qwen vs Llama vs Mistral ๋ค๊ตญ์ด ๋น๊ต๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
์ผ์์ ์ธ ์์ ์์ Phi-4 Mini์ Llama 3.2 3B์ ์ฐจ์ด๋ ๋ฌด์์ ๋๊น?
Phi-4 Mini๋ ๊ฑฐ์ ๋์ผํ RAM(๊ฐ 2.5 GB)์ผ๋ก ์ถ๋ก , ์ํ, ์ฝ๋ฉ์์ Llama 3.2 3B๋ฅผ ๋ฅ๊ฐํฉ๋๋ค(MMLU 68% ๋ 58%, HumanEval 70% ๋ 60%). Q&A, ์์ฝ, ๊ฐ๋จํ ์ค๋ช ๋ฑ ์ผ์์ ์ธ ์์ ์์๋ ํ์ง ์ฐจ์ด๊ฐ ๋์ ๋์ง๋ง ๊ทน์ ์ด์ง๋ ์์ต๋๋ค. Llama 3.2 3B๋ ๋ ๋์ ์ปค๋ฎค๋ํฐ ์ง์๊ณผ ๋ ๋ง์ ํ์ธํ๋ ๋ชจ๋ธ์ ๊ฐ์ถ๊ณ ์์ต๋๋ค. ๊ตฌ์กฐํ๋ ์ถ๋ก ์๋ Phi-4 Mini๋ฅผ, ์ผ๋ฐ ์ฑํ ๊ณผ ๊ด๋ฒ์ํ ํธํ์ฑ์๋ Llama 3.2 3B๋ฅผ ์ ํํ์ญ์์ค.
๋ ๊ฐ์ ์ํ ๋ชจ๋ธ์ ๋์์ ์คํํ ์ ์์ต๋๊น?
์, ์ด RAM์ด ํ์ฉํ๋ ๊ฒฝ์ฐ ๊ฐ๋ฅํฉ๋๋ค. Q4_K_M์ 3B ๋ชจ๋ธ ๋ ๊ฐ๋ ํฉ์ณ์ ~5 GB๋ฅผ ์ฌ์ฉํฉ๋๋ค -- ๊ฒฝ๋ OS๋ฅผ ๊ฐ์ถ 8 GB ๊ธฐ๊ธฐ์์ ์คํ ๊ฐ๋ฅํฉ๋๋ค. Ollama๋ ๊ธฐ๋ณธ์ ์ผ๋ก ํ๋ก์ธ์ค๋น ํ ๋ฒ์ ํ๋์ ๋ชจ๋ธ์ ๋ก๋ํฉ๋๋ค. ๋ ๊ฐ์ Ollama ์ธ์คํด์ค๋ฅผ ๋ค๋ฅธ ํฌํธ์์ ์คํํ์ฌ(OLLAMA_HOST=:11434 ๋ฐ OLLAMA_HOST=:11435) ๋ ๋ชจ๋ธ์ ๋ณ๋ ฌ๋ก ์ ๊ณตํ ์ ์์ต๋๋ค. ์ด๋ ์ถ๋ ฅ A/B ํ ์คํธ์ ์ ์ฉํฉ๋๋ค.
์ํ ๋ชจ๋ธ์ RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ)์ ์ ํฉํฉ๋๊น?
๊ฐ๋จํ RAG์๋ ์ ํฉํฉ๋๋ค. Llama 3.2 3B์ Phi-4 Mini๋ ๊ฒ์๋ ๋ฌธ์ ์ฒญํฌ์ ๋ํ ์ง๋ฌธ์ ์์ ์ ์ผ๋ก ๋ต๋ณํ ์ ์์ต๋๋ค. ๋ฉํฐํ ์ถ๋ก ์ด ํ์ํ ๋๊ท๋ชจ ์ง์ ๋ฒ ์ด์ค์ ๋ํ RAG์ ๊ฒฝ์ฐ 7B ์ด์ ๋ชจ๋ธ์ด ๋ ์ผ๊ด์ฑ ์๊ฒ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. GPT4All์ LocalDocs ๊ธฐ๋ฅ์ ๋ฌธ์ Q&A์ 3B ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉฐ ๊ฐ์ธ ๋ฌธ์ ์ปฌ๋ ์ ์ ์ ์๋ํฉ๋๋ค.
์ฝ๋ฉ์์ Phi-4 Mini๊ฐ Llama 3.2 3B๋ณด๋ค ์ฐ์ํฉ๋๊น?
์. Phi-4 Mini๋ HumanEval์์ 70%๋ฅผ ๊ธฐ๋กํ๋ ๋ฐ๋ฉด Llama 3.2 3B๋ 60%์ ๋๋ค -- ์ด ๊ท๋ชจ์์ ์๋ฏธ ์๋ 10ํฌ์ธํธ ์ฐจ์ด์ ๋๋ค. RAM 4~6 GB ๊ธฐ๊ธฐ์์ ์ฝ๋ฉ ์ง์์๋ Phi-4 Mini๊ฐ ๊ถ์ฅ๋ฉ๋๋ค. ๋ค๊ตญ์ด ์ฝ๋ฉ(Python ์ธ)์ ๊ฒฝ์ฐ HumanEval 65%์ Qwen3 3B๊ฐ ํจ์ ํธ์ถ๋ ์ง์ํ๋ฉด์ Phi-4 Mini์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
์ถ์ฒ
- Hugging Face Open LLM Leaderboard -- open-llm-leaderboard.hf.space (MMLU ๋ฐ HumanEval ์ ์)
- Microsoft Phi-4 ๊ธฐ์ ๋ณด๊ณ ์ -- microsoft.com/en-us/research/publication/phi-4-technical-report/
- Meta Llama 3.2 ๋ชจ๋ธ ์นด๋ -- huggingface.co/meta-llama/Llama-3.2-3B-Instruct
- Google Gemma 2 ๊ธฐ์ ๋ณด๊ณ ์ -- storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf