Key Takeaways
- ์ ์ฒด ์ต๊ณ ์ ๋ฌธ ๋ชจ๋ธ: Llama 3.2 3B -- 2 GB ๋ค์ด๋ก๋, 4 GB RAM์์ ์คํ, ํฌ๊ธฐ ๋๋น ์ฐ์ํ ๋ช ๋ น ์ํ ๋ฅ๋ ฅ.
- ์ ์ฉ๋ RAM(4 GB ์ดํ) ์ต๊ณ : Phi-4 Mini 3.8B -- Microsoft์ ์ํ ๋ชจ๋ธ๋ก ์ถ๋ก ๋ฐ ์ฝ๋ฉ ์์ ์์ ํ์ํ ์ฑ๋ฅ ๋ฐํ (68% MMLU, 70% HumanEval, ๋จ 2.5 GB RAM).
- ๊ฐ์ฅ ๋น ๋ฅธ 2B ๋ชจ๋ธ: Gemma 3 2B -- Google์ ์ ๋ฐ์ดํธ ๋ชจ๋ธ๋ก 128K ์ปจํ ์คํธ์์ CPU ๊ธฐ์ค 40-60 tok/s ์๋ ๋ฌ์ฑ (Gemma 2์ 8K์์ ๋ํญ ํ์ฅ).
- ์ต๊ณ 7B ์ฌ๋ผ์ด๋: Mistral Small v0.3 -- ์์ ์ ์ด๊ณ , ํจ์ ํธ์ถ ์ง์, Apache 2.0 ๋ผ์ด์ ์ค. 2026๋ 4์ ๊ธฐ์ค ์ฝ๋ฉ์์๋ Qwen3 7B๊ฐ, ์์ด ์ถ๋ก ์์๋ Llama 3.3 8B๊ฐ ๋์ผ RAM์์ ์์ญ๋๋ค.
- ๋ค๊ตญ์ด ๋ฐ ์ฝ๋ฉ ์ต๊ณ : Qwen3 7B -- ์ฝ๋ฉ ๋ฒค์น๋งํฌ์์ Mistral Small์ ๋ฅ๊ฐํ๋ฉฐ ํ๊ตญ์ด, ์ค๊ตญ์ด, ์ผ๋ณธ์ด ๋ฑ 29๊ฐ ์ธ์ด๋ฅผ ๊ธฐ๋ณธ ์ง์ํฉ๋๋ค.
- ๐ ๋ก์ปฌ์ด ์ ํฉํ์ง ํ์ ์ด ์์ผ์ ๊ฐ์? ์ ํ ์ ์ ๋ก์ปฌ LLM vs ํด๋ผ์ฐ๋ ๋น๊ต๋ฅผ ์ฝ์ด๋ณด์ธ์ -- ์๋, ํ์ง, ๋น์ฉ ์์ถฉ ๊ด๊ณ๋ฅผ ๋ค๋ฃน๋๋ค.
๋น ๋ฅธ ์์: 3๋ถ ์์ ์ฒซ ๋ก์ปฌ LLM ์คํํ๊ธฐ
1. Ollama ์ค์น (1๋ถ)
ollama.com์์ ๋ค์ด๋ก๋ํ์ฌ ์ค์น ํ๋ก๊ทธ๋จ์ ์คํํฉ๋๋ค. ๋ณ๋ ์ค์ ์ด ํ์ ์์ต๋๋ค.
2. Llama 3.2 3B ์คํ (2๋ถ)
ํฐ๋ฏธ๋์ ์ด๊ณ ๋ค์์ ์คํํฉ๋๋ค: `ollama run llama3.2:3b`
Ollama๋ ์ฒซ ์คํ ์ ๋ชจ๋ธ(์ฝ 2 GB)์ ๋ค์ด๋ก๋ํฉ๋๋ค. ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ์ถ์ฒํ๋ ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ์ ๋๋ค.
3. ์ฑํ ์์ (์ฆ์)
๋ชจ๋ธ์ด ๋ก๋๋๋ฉด ์ง๋ฌธ์ด๋ ํ๋กฌํํธ๋ฅผ ์ ๋ ฅํ๊ณ Enter๋ฅผ ๋๋ฆ ๋๋ค. ์ผ๋ฐ์ ์ธ ๋ ธํธ๋ถ์์ ์ด๋น 25-45 ํ ํฐ ์๋๋ก ์๋ต์ด ํ์๋ฉ๋๋ค.
๊ทธ๊ฒ ์ ๋ถ์ ๋๋ค. ์๋ ์ค์ ๋ถํ์, GPU ์์ด๋ ๋ฉ๋๋ค. RAM์ด 8 GB ์ด์์ด๋ผ๋ฉด ๋ฐ๋ก ์์ํ ์ ์์ต๋๋ค. 4-6 GB๋ผ๋ฉด `ollama run gemma3:2b`๋ฅผ ์ฌ์ฉํ์ธ์ (๋ ๋น ๋ฅด๊ณ 1.7 GB RAM ์ฌ์ฉ).
์ด๋ณด์ ์ฒดํฌ๋ฆฌ์คํธ: ๋ก์ปฌ์ด ๋์๊ฒ ๋ง์๊น์?
์ฒซ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ๊ธฐ ์ ์ ๋ค์ ์ธ ๊ฐ์ง ์ง๋ฌธ์ ๋ตํด๋ณด์ธ์:
1. RAM์ด 8 GB ์ด์์ธ๊ฐ์? (์๋๋ผ๋ฉด ํด๋ผ์ฐ๋ API๊ฐ ์์ํ๊ธฐ ๋ ๋น ๋ฆ ๋๋ค.)
2. ๋ฐ์ดํฐ๋ฅผ ๋น๊ณต๊ฐ๋ก ์ ์งํด์ผ ํ๋์? (์๋๋ผ๋ฉด ํด๋ผ์ฐ๋ API๊ฐ ๋ ์ข์ ํ์ง์ ์ ๊ณตํฉ๋๋ค.)
3. 20~40๋ถ์ ์ค์ ์๊ฐ์ ๊ฐ์ํ ์ ์๋์? (์๋๋ผ๋ฉด ํด๋ผ์ฐ๋ API๋ 5๋ถ ์์ ์ค๋น๋ฉ๋๋ค.)
๋ ๊ฐ ์ด์์ ์ง๋ฌธ์ "์๋์ค"๋ผ๊ณ ๋ตํ๋ค๋ฉด, **๋ก์ปฌ vs ํด๋ผ์ฐ๋ ์ ์ฒด ๋น๊ต๋ฅผ ์ฝ์ด๋ณด์ธ์** -- ํด๋ผ์ฐ๋ API๊ฐ ํ๋์จ์ด์ ์ผ์ ์ ๋ ๋ง๋์ง ํ์ธํ์ธ์. ์ด๋ณด์๋ค์ ํํ ๋ก์ปฌ LLM์ด ํญ์ ๋ซ๋ค๊ณ ๊ฐ์ ํ๋๋ฐ, ๊ทธ๋ ์ง ์์ต๋๋ค. ์ฌ๋ฐ๋ฅธ ์ ํ์ ๊ฐ์ธ์ ๊ตฌ์ฒด์ ์ธ ์ ์ฝ ์กฐ๊ฑด์ ๋ฌ๋ ค ์์ต๋๋ค.
์ด๋ณด์์ฉ ๋ก์ปฌ LLM ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ ํํ ๊น์?
๋ก์ปฌ LLM์ ๋ชจ๋ธ ์ ํ์ ์ธ ๊ฐ์ง ์ ์ฝ ์กฐ๊ฑด์ ๋ฌ๋ ค ์์ต๋๋ค: ์ฌ์ฉ ๊ฐ๋ฅํ RAM, ์ถ๋ก ์๋, ์์ ์ ํ -- ์ด ์ฐ์ ์์ ์์๋ก.
ํ๋ผ๋ฏธํฐ ์(3B, 7B, 13B)๊ฐ RAM ์๊ตฌ์ฌํญ์ ์ฃผ์ ๊ฒฐ์ ์์ธ์ ๋๋ค. ๋๋ถ๋ถ์ ๋ก์ปฌ ์ถ๋ก ๋๊ตฌ์ ๊ธฐ๋ณธ๊ฐ์ธ 4๋นํธ ์์ํ์์๋ ํ๋ผ๋ฏธํฐ ์์ ์ฝ 0.5๋ฅผ ๊ณฑํ์ฌ ํ์ํ GB RAM์ ์ถ์ ํ ์ ์์ต๋๋ค. Q4_K_M ๊ธฐ์ค 7B ๋ชจ๋ธ์ ์ฝ 4.5 GB RAM์ด ํ์ํฉ๋๋ค.
๋๋ถ๋ถ์ ์ด๋ณด์์๊ฒ๋ Q4_K_M ์์ํ์ 7B ๋ชจ๋ธ์ด 8 GB ์ด์์ ๊ธฐ๊ธฐ์์ ํ์ง, ์๋, RAM ์ฌ์ฉ์ ์ต์ ๊ท ํ์ ์ ๊ณตํฉ๋๋ค. 4-6 GB RAM ๊ธฐ๊ธฐ์์๋ 3B ๋ชจ๋ธ์ด ์ค์ง์ ์ธ ์ํ์ ์ ๋๋ค.
#1 Meta Llama 3.2 3B -- ์ ์ฒด ์ต๊ณ ์ ๋ฌธ ๋ชจ๋ธ
Meta Llama 3.2 3B๋ ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ์ต๊ณ ์ ์ถ๋ฐ์ ์ ๋๋ค. 5๋ถ ์ด๋ด์ ๋ค์ด๋ก๋๋๊ณ , 4 GB RAM์ ๋ชจ๋ ๊ธฐ๊ธฐ์์ ์คํ๋๋ฉฐ, ์ด์ 3B ๋ชจ๋ธ๋ณด๋ค ๋ช ๋ น ์ํ ๋ฅ๋ ฅ์ด ๋์ ๋๊ฒ ํฅ์๋์์ต๋๋ค. ๋์ผ ํฌ๊ธฐ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋์ 128K ์ปจํ ์คํธ ์๋์ฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
8์ฝ์ด ๋ ธํธ๋ถ CPU ํ ์คํธ์์ Llama 3.2 3B๋ ์ด๋น 25-45 ํ ํฐ์ ์์ฑํฉ๋๋ค. Apple M3 Pro์์๋ 70-90 ํ ํฐ/์ด์ ๋ฌํฉ๋๋ค. ์์ฝ, Q&A, ๊ฐ๋จํ ์ฝ๋ฉ ์์ ์๋ ์ถฉ๋ถํ ํ์ง์ด์ง๋ง, ๋ค๋จ๊ณ ์ถ๋ก ์์๋ 7B ๋ชจ๋ธ์ ๋ฏธ์น์ง ๋ชปํฉ๋๋ค.
| ์ฌ์ | ๊ฐ |
|---|---|
| ํ๋ผ๋ฏธํฐ | 3B |
| ํ์ RAM | ~2.5 GB (Q4_K_M) |
| ๋ค์ด๋ก๋ ํฌ๊ธฐ | ~2 GB |
| ์ปจํ ์คํธ ์๋์ฐ | 128K ํ ํฐ |
| CPU ์๋ (8์ฝ์ด ๋ ธํธ๋ถ) | 25-45 tok/s |
| Ollama ๋ช ๋ น์ด | ollama run llama3.2:3b |
#2 Microsoft Phi-4 Mini 3.8B -- ์ ์ฉ๋ RAM ์ต๊ณ ๋ชจ๋ธ
Phi-4 Mini๋ ์๊ท๋ชจ ์ถ๋ก ๋ฐ ์ฝ๋ฉ ์์ ์ ์ต์ ํ๋ Microsoft์ ์ํ ๋ชจ๋ธ์ ๋๋ค. ๋ฌธ์ ํด๊ฒฐ์ ์ง์คํ ๊ณ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ ํ๋ จ ๋๋ถ์ 68% MMLU, 70% HumanEval์ ๋ฌ์ฑํ๋ฉฐ -- 2024๋ ๋ง์ 7B ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์์น์ ๋๋ค.
ํ์ง์ด ์ค์ํ 4-6 GB RAM ๊ธฐ๊ธฐ์ ๊ถ์ฅ๋๋ ๋ชจ๋ธ์ ๋๋ค. Phi-4 Mini๋ 2.5 GB RAM์ ์ฌ์ฉํ์ฌ (Phi-3.5 Mini์ 3 GB์์ ๊ฐ์), 4 GB ๊ธฐ๊ธฐ์์ ๋ ์ ๊ทผํ๊ธฐ ์ฌ์์ก์ต๋๋ค.
| ์ฌ์ | ๊ฐ |
|---|---|
| ํ๋ผ๋ฏธํฐ | 3.8B |
| ํ์ RAM | ~2.5 GB (Q4_K_M) |
| ๋ค์ด๋ก๋ ํฌ๊ธฐ | ~2.3 GB |
| MMLU ์ ์ | 68% |
| ์ปจํ ์คํธ ์๋์ฐ | 128K ํ ํฐ |
| CPU ์๋ (8์ฝ์ด ๋ ธํธ๋ถ) | 30-50 tok/s |
| Ollama ๋ช ๋ น์ด | ollama run phi4-mini |
#3 Google Gemma 3 2B -- ๊ฐ์ฅ ๋น ๋ฅธ 2B ๋ชจ๋ธ
Gemma 3 2B๋ Google์ ์ ๋ฐ์ดํธ๋ 2B ๋ชจ๋ธ๋ก, CPU ์ ์ฉ ์ถ๋ก ์์ ๊ฐ์ฅ ๋น ๋ฅธ ์ ํ์ง์ ๋๋ค. ์ค๊ธ ๋ ธํธ๋ถ CPU์์ ์ด๋น 40-60 ํ ํฐ์ ์์ฑํ๋ฉฐ -- ๋์ผ ํ๋์จ์ด์์ Llama 3.2 3B๋ณด๋ค ์ฝ 2๋ฐฐ ๋น ๋ฆ ๋๋ค. Gemma 3๋ ์ ์ ๋๋น ํฌ๊ฒ ๊ฐ์ ๋์์ต๋๋ค: ์ปจํ ์คํธ ์๋์ฐ๊ฐ 8K(Gemma 2)์์ 128K ํ ํฐ์ผ๋ก ํ์ฅ๋์ด ๋ฌธ์ ์์ ์ ์ฃผ์ ์ ํ์ด ํด์๋์์ต๋๋ค.
Gemma 3 2B๋ ์๋ต ์๋๊ฐ ๊ฐ์ฅ ์ค์ํ ๋, RAM์ด 4 GB ์ดํ์ธ ๊ธฐ๊ธฐ์์, ๋๋ ๋ ํฐ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ๊ธฐ ์ ์ ๋ก์ปฌ LLM ์ค์ ์ ํ์ธํ๋ ํ ์คํธ ๋ชจ๋ธ๋ก ํ์ฉํ๊ธฐ์ ์ข์ต๋๋ค.
| ์ฌ์ | ๊ฐ |
|---|---|
| ํ๋ผ๋ฏธํฐ | 2B |
| ํ์ RAM | ~1.7 GB (Q4_K_M) |
| ๋ค์ด๋ก๋ ํฌ๊ธฐ | ~1.6 GB |
| ์ปจํ ์คํธ ์๋์ฐ | 128K ํ ํฐ |
| CPU ์๋ (8์ฝ์ด ๋ ธํธ๋ถ) | 40-60 tok/s |
| Ollama ๋ช ๋ น์ด | ollama run gemma3:2b |
#4 Mistral Small v0.3 -- ์ต๊ณ 7B ์ฌ๋ผ์ด๋
Mistral Small v0.3๋ ๊น๋ํ ๋ช ๋ น ํ์๊ณผ ํจ์ ํธ์ถ ์ง์์ ๊ฐ์ถ ์์ ์ ์ธ ๋ฒ์ฉ 7B ๋ชจ๋ธ์ ๋๋ค. 2026๋ 4์ ๊ธฐ์ค ์ฝ๋ฉ ๋ฒค์น๋งํฌ์์๋ Qwen3 7B๊ฐ, ์์ด ์ถ๋ก ์์๋ Llama 3.3 8B๊ฐ ์์์ง๋ง -- Mistral AI๊ฐ ์ด ๋ชจ๋ธ์ Apache 2.0 ๋ผ์ด์ ์ค๋ฅผ ์ ์ฉํ ํ๋์ค ํ์ฌ์ด๋ฏ๋ก EU ๋ฐ์ดํฐ ์ฃผ๊ถ ๋งฅ๋ฝ์์๋ ์ฌ์ ํ ๊ฐ๋ ฅํ ์ ํ์ ๋๋ค.
8 GB RAM ๊ธฐ๊ธฐ์์ Mistral Small์ 3B ๋ชจ๋ธ์์ ์์ฐ์ค๋ฌ์ด ์ ๊ทธ๋ ์ด๋์ ๋๋ค. ์ด๋ค 3B ๋ชจ๋ธ๋ณด๋ค ๊ธด ํ ์คํธ, ๋ณต์กํ ๋ช ๋ น, ๋ค์ค ํด ๋ํ๋ฅผ ๋ ์์ ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
| ์ฌ์ | ๊ฐ |
|---|---|
| ํ๋ผ๋ฏธํฐ | 7B |
| ํ์ RAM | ~4.5 GB (Q4_K_M) |
| ๋ค์ด๋ก๋ ํฌ๊ธฐ | ~4.1 GB |
| ์ปจํ ์คํธ ์๋์ฐ | 32K ํ ํฐ |
| CPU ์๋ (8์ฝ์ด ๋ ธํธ๋ถ) | 10-20 tok/s |
| Ollama ๋ช ๋ น์ด | ollama run llama3.2 |
#5 Qwen3 7B -- ๋ค๊ตญ์ด ๋ฐ ์ฝ๋ฉ ์ต๊ณ ๋ชจ๋ธ
Qwen3 7B๋ HumanEval(์ฝ๋ฉ) ๋ฐ MBPP ๋ฒค์น๋งํฌ์์ Mistral Small์ ๋ฅ๊ฐํ๋ฉฐ, ํ๊ตญ์ด, ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ์๋์ด, ์ฃผ์ ์ ๋ฝ ์ธ์ด๋ฅผ ํฌํจํ 29๊ฐ ์ธ์ด๋ฅผ ๊ธฐ๋ณธ ์ง์ํฉ๋๋ค. ๋น์์ด๊ถ ์ํฌํ๋ก์ฐ๋ ์ฝ๋ฉ ์ง์ฝ์ ์ฌ์ฉ ์ฌ๋ก์ ์ถ์ฒํ๋ ์ ํ์ ๋๋ค.
Qwen3 7B๋ 128K ์ปจํ ์คํธ ์๋์ฐ(Mistral Small์ 32K ๋๋น)๋ฅผ ์ฌ์ฉํ๋ฉฐ JSON ๋ชจ๋๋ก ๊ตฌ์กฐํ๋ ์ถ๋ ฅ์ ์ง์ํฉ๋๋ค. ๋ชจ๋ธ์ instruct ๋ฒ์ ๊ณผ base ๋ฒ์ ์ผ๋ก ์ ๊ณต๋๋ฉฐ -- ์ฑํ ์ฉ๋์๋ ํญ์ instruct ๋ฒ์ ์ ์ฌ์ฉํ์ญ์์ค. ์์ธํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๋ Qwen vs Llama vs Mistral ๋ฒค์น๋งํฌ ๋น๊ต๋ฅผ ์ฐธ์กฐํ์ธ์.
| ์ฌ์ | ๊ฐ |
|---|---|
| ํ๋ผ๋ฏธํฐ | 7B |
| ํ์ RAM | ~4.7 GB (Q4_K_M) |
| ๋ค์ด๋ก๋ ํฌ๊ธฐ | ~4.4 GB |
| ์ปจํ ์คํธ ์๋์ฐ | 128K ํ ํฐ |
| CPU ์๋ (8์ฝ์ด ๋ ธํธ๋ถ) | 10-18 tok/s |
| Ollama ๋ช ๋ น์ด | ollama run qwen2.5:7b |
RAM, ์๋, ์ปจํ ์คํธ ์๋์ฐ ๊ธฐ์ค ์ต๊ณ ๋ชจ๋ธ์?
| ๋ชจ๋ธ | RAM | ์๋ (CPU) | ์ปจํ ์คํธ | ์ต์ ์ฉ๋ |
|---|---|---|---|---|
| Llama 3.2 3B | 2.5 GB | 25-45 tok/s | 128K | ์ผ๋ฐ ์ฌ์ฉ, ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ |
| Phi-4 Mini 3.8B | 2.5 GB | 30-50 tok/s | 128K | ์ถ๋ก , ์ฝ๋ฉ, ์ ์ฉ๋ RAM |
| Gemma 3 2B | 1.7 GB | 40-60 tok/s | 128K | ์๋, ์ด์ ์ฉ๋ RAM |
| Mistral Small v0.3 | 4.5 GB | 10-20 tok/s | 32K | EU ๋ฐฐํฌ, ํจ์ ํธ์ถ, Apache 2.0 |
| Qwen3 7B | 4.7 GB | 10-18 tok/s | 128K | ๋ค๊ตญ์ด, ์ฝ๋ฉ |
์ด๋ค ๋ชจ๋ธ๋ก ์์ํด์ผ ํ ๊น์?
- RAM 4 GB ์ดํ: `ollama run gemma3:2b` -- ๊ฐ์ฅ ๋น ๋ฅธ ๋ค์ด๋ก๋, ์ต์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ, 128K ์ปจํ ์คํธ. ๊ธฐ๋ณธ ์์ ์ ์์ฉ ๊ฐ๋ฅํ ํ์ง.
- RAM 8 GB, ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ: `ollama run llama3.2:3b` -- ์ฒซ ๊ฒฝํ์์ ํ์ง๊ณผ RAM์ ์ต์ ๊ท ํ.
- RAM 4-6 GB, ์ถ๋ก /์ฝ๋ฉ: `ollama run phi4-mini` -- 68% MMLU, 70% HumanEval, ๋จ 2.5 GB RAM. ๊ตฌ์กฐํ ์์ ์์ Llama 3.2 3B๋ณด๋ค ์ฐ์.
- RAM 8 GB, ๋ณธ๊ฒฉ ์ฌ์ฉ: `ollama run mistral` ๋๋ `ollama run qwen2.5:7b` -- ๊ธด ๋ฌธ์, ๋ณต์กํ ๋ช ๋ น์ ์ํ ์ ๊ทธ๋ ์ด๋.
- ์ฃผ๋ก ์ฝ๋ฉ ์์ : `ollama run qwen2.5:7b` -- ์ด ๋ชฉ๋ก์์ HumanEval ์ ์ ์ต๊ณ ; Python, JavaScript, SQL์ ๊ฐํจ.
- ๋น์์ด ์ธ์ด (ํ๊ตญ์ด ํฌํจ): `ollama run qwen2.5:7b` -- 29๊ฐ ์ธ์ด ๊ธฐ๋ณธ ์ง์, ๋ฒ์ญ ์ค๋ฒํค๋ ์์. ํ๊ตญ์ด ํ ์คํธ์์ ํ ํฐ ํจ์จ 30-40% ํฅ์.
์ง์ญ์ ๋ฐ๋ผ ์ด๋ค ๋ชจ๋ธ์ ์ ํํด์ผ ํ ๊น์?
ํ๊ตญ (๊ฐ์ธ์ ๋ณด๋ณดํธ๋ฒ): ํ๊ตญ ๊ฐ์ธ์ ๋ณด๋ณดํธ๋ฒ(PIPA)์ ๋ฐ๋ผ ๊ฐ์ธ ๋ฐ์ดํฐ๋ฅผ ๋ก์ปฌ์์ ์ฒ๋ฆฌํ๋ ์กฐ์ง์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ด์ญ์ ๋ฌธ์ํํด์ผ ํฉ๋๋ค. Ollama๋ฅผ ํตํ ๋ก์ปฌ ์ถ๋ก ์ ๋ฐ์ดํฐ๊ฐ ์ธ๋ถ ์๋ฒ๋ก ์ ์ก๋์ง ์์ผ๋ฏ๋ก ๋ฐ์ดํฐ ํ์งํ ์๊ฑด์ ์ถฉ์กฑํฉ๋๋ค. ๊ธ์ต, ์๋ฃ, ๋ฒ๋ฅ ๋ฑ ๊ท์ ์ฐ์ ์ ๊ฒฝ์ฐ ๋ก์ปฌ LLM ์ถ๋ก ์ API ํธ์ถ์ ๊ท์ ์ค์ ๋์์ ๋๋ค. ํ๊ตญ์ด ์ํฌํ๋ก์ฐ์๋ Qwen3 7B๊ฐ ์ต์ ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ์ ๋๋ค -- ๋ค์ดํฐ๋ธ ํ๊ตญ์ด ํ ํฌ๋์ด์ ์ด์ ์ผ๋ก Llama๋ Mistral๋ณด๋ค ํ๊ตญ์ด ํ ์คํธ ํ ํฐ ํจ์จ์ด 30-40% ํฅ์๋ฉ๋๋ค.
EU / GDPR: EU ์กฐ์ง์ด ๊ฐ์ธ ๋ฐ์ดํฐ๋ฅผ ๋ก์ปฌ์์ ์ฒ๋ฆฌํ ๋ ์ปดํ๋ผ์ด์ธ์ค ๋ฌธ์ํ๋ฅผ ์ํด ๋ชจ๋ธ ์ถ์ฒ๊ฐ ์ค์ํฉ๋๋ค. Mistral Small v0.3 (Mistral AI, ํ๋์ค, Apache 2.0)์ด ๊ฐ์ฅ ๊น๋ํ EU ์ปดํ๋ผ์ด์ธ์ค ์์ ์ ์ ๊ณตํฉ๋๋ค. ๋ ์ผ BSI ์ง์นจ์ ์ ๋ฌธ์ ๋งฅ๋ฝ์์ ์ฌ์ฉ๋๋ AI ์์คํ ์ ๋ํด ๋ชจ๋ธ ์ถ์ฒ์ ๋ผ์ด์ ์ค ์ ํ์ ๋ฌธ์ํ๋ฅผ ์๊ตฌํฉ๋๋ค.
์ค๊ตญ: Qwen3 7B (Alibaba)๊ฐ ์ค๊ตญ์ด ์ํฌํ๋ก์ฐ์ ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ๋ก ์์ฐ์ค๋ฌ์ด ์ ํ์ ๋๋ค. ๋ค์ดํฐ๋ธ ์ค๊ตญ์ด ํ ํฌ๋์ด์ ์ด์ ๊ณผ 29๊ฐ ์ธ์ด ์ง์์ผ๋ก ์ค๊ตญ์ด ์ฐ์ ์ํฌํ๋ก์ฐ์ ํ์ค์ด ๋ฉ๋๋ค. ์ค๊ตญ ๋ฐ์ดํฐ ๋ณด์๋ฒ(ๆฐๆฎๅฎๅ จๆณ)์ ๋ฐ๋ฅธ ์ค๊ตญ ๊ธฐ์ ๋ฐฐํฌ์ ๊ฒฝ์ฐ, Ollama๋ฅผ ํตํ ๋ก์ปฌ ์คํ์ Qwen3๊ฐ ๋ฐ์ดํฐ ํ์งํ ์๊ฑด์ ์ถฉ์กฑํฉ๋๋ค.
์ด ๋ชจ๋ธ๋ค์ ์ด๋ป๊ฒ ๋ค์ด๋ก๋ํ๊ณ ์คํํ๋์?
5๊ฐ ๋ชจ๋ธ ๋ชจ๋ ๋จ ํ๋์ Ollama ๋ช ๋ น์ผ๋ก ์ค์น๋ฉ๋๋ค -- ์๋ ์ค์ ์ด ํ์ ์์ต๋๋ค. ์ค์น๋ Ollama ์ค์น ๋ฐฉ๋ฒ์ ์ฐธ์กฐํ๊ณ , ๋จ๊ณ๋ณ ์ฒซ ์คํ ์๋ด๋ ์ฒซ ๋ก์ปฌ LLM ์คํ์ ์ฐธ์กฐํ์ธ์. RAM์ด ์ ํ๋ ๋ ธํธ๋ถ์์ ์คํํ๋ ๊ฒฝ์ฐ ๋ ธํธ๋ถ์์ ๋ก์ปฌ LLM ์คํ ๋ฐฉ๋ฒ์์ ์ ํ๋ ํ๋์จ์ด๋ฅผ ์ํ ์์ํ ๋ฐ ์ฑ๋ฅ ํ๋์ ๋ค๋ฃน๋๋ค.
์ฒซ ๋ฒ์งธ ๋ชจ๋ธ์ด ์คํ๋๋ฉด ๋ค์ ๋จ๊ณ๋ ํจ๊ณผ์ ์ผ๋ก ํ๋กฌํํธ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ ๊ฒ์ ๋๋ค. ํ๋กฌํํธ ์์ง๋์ด๋ง ๊ธฐ์ด๋ถํฐ ์์ํ์ธ์ -- ์จ๋ ์ค์ ๋ถํฐ ์ถ๋ ฅ ํ์๊น์ง ๋ชจ๋ ํ๋กฌํํธ์ ํ์ํ ๋น๋ฉ ๋ธ๋ก์ ๋ค๋ฃจ๋ 16๊ฐ ๊ฐ์ด๋์ ๋๋ค.
์ด๋ณด์๊ฐ ๋ก์ปฌ LLM ์ ํ ์ ์์ฃผ ์ ์ง๋ฅด๋ ์ค์๋?
- ํ๋ผ๋ฏธํฐ ์๋ง ๋ณด๊ณ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ ๊ฒ -- 4๋นํธ ์์ํ 7B ๋ชจ๋ธ์ด ์ ๋๋ก ์์ํ๋์ง ์์ 13B๋ณด๋ค ์ฐ์ํ ์ ์์ต๋๋ค.
- GPU VRAM ์์ํ ์ค๋ฒํค๋๋ฅผ ๊ณ ๋ คํ์ง ์๋ ๊ฒ -- ๋ชจ๋ธ์ด ํ์ผ ํฌ๊ธฐ๋ณด๋ค 10-15% ๋ ๋ง์ VRAM์ ํ์๋ก ํ ์ ์์ต๋๋ค.
- ์ ์์ํ(Q4_K_M)๊ฐ ๋์ผ ํฌ๊ธฐ์์ ๋ ๋์ ํ์ง์ ์ ๊ณตํ๋๋ฐ ์ด์ ์์ํ(Q3_K_S)๋ฅผ ์ฌ์ฉํ๋ ๊ฒ.
- Mistral Small์ ๊ธฐ๋ณธ 7B ๋ชจ๋ธ๋ก ์ ํํ๋ ๊ฒ: Mistral Small v0.3๋ 2023-2024๋ ์ปค๋ฎค๋ํฐ ํ์ค์ด์์ง๋ง ํ์ฌ๋ ์ฝ๋ฉ์์ Qwen3 7B์, ์์ด ์์ ์์ Llama 3.3 8B์ ๋์ผ RAM ์๊ตฌ์ฌํญ์ผ๋ก ๋ค์ฒ์ง๋๋ค. ๋๊ตฌ๊ฐ ๊ธฐ๋ณธ์ ์ผ๋ก `ollama run mistral`์ ์ฌ์ฉํ๋ค๋ฉด RAM์ ๋๋ฆฌ์ง ์๊ณ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ํด `ollama run qwen2.5:7b` ๋๋ `ollama run llama3.2`๋ก ์ ํํ์ธ์.
- ์ฌ์ฉ ๊ฐ๋ฅํ RAM์ ๋จผ์ ํ์ธํ์ง ์๊ณ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ๋ ๊ฒ: ์ฌ์ฉ ๊ฐ๋ฅํ RAM์ ์ด๊ณผํ๋ ๋ชจ๋ธ์ ๋ค์ด๋ฐ์ผ๋ฉด Ollama๊ฐ ๋ถ๋ถ ๋์คํฌ ์ค์ํ์ ๋๋ฐํ ๋๋ฆฐ CPU ์ถ๋ก ์ผ๋ก ์ ํํฉ๋๋ค -- ๋๋ก๋ 1 tok/s ๋ฏธ๋ง. 7B ์ด์์ ๋ชจ๋ธ์ ๋ค์ด๋ฐ๊ธฐ ์ ์ ํญ์ `free -h` (Linux/macOS)๋ฅผ ์คํํ๊ฑฐ๋ ์์ ๊ด๋ฆฌ์(Windows)๋ฅผ ํ์ธํ์ธ์.
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
2026๋ ์ด๋ณด์์๊ฒ ๊ฐ์ฅ ์ข์ ๋ก์ปฌ LLM ๋ชจ๋ธ์ ๋ฌด์์ธ๊ฐ์?
๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ๋ Llama 3.2 3B -- 4 GB RAM์ ๋ชจ๋ ๊ธฐ๊ธฐ์์ ์คํ๋๊ณ , 5๋ถ ์ด๋ด์ ๋ค์ด๋ก๋๋๋ฉฐ, ์ฐ์ํ ๋ช ๋ น ์ํ ์ถ๋ ฅ์ ์ ๊ณตํฉ๋๋ค. RAM 8 GB์์๋ Qwen3 7B๊ฐ ๋ ๋์ ์ฝ๋ฉ๊ณผ ๋ค๊ตญ์ด ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ ๋ ์ต์ RAM์๋ Gemma 3 2B๊ฐ 1.7 GB์์ CPU ๊ธฐ์ค 40-60 tok/s๋ก ์คํ๋ฉ๋๋ค.
๋ก์ปฌ LLM์ ์คํํ๊ธฐ ์ํ ์ต์ RAM์ ์ผ๋ง์ธ๊ฐ์?
์ ์ฉํ ์ถ๋ ฅ์ ์ํ ์ค์ง์ ์ธ ์ต์๊ฐ์ Q4_K_M ์์ํ์ 3B ๋ชจ๋ธ์์ 4 GB RAM์ ๋๋ค. 8 GB RAM์ ๋ณต์กํ ์์ ์์ ํ์ ํ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ 7B ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๊ฒ ํด์ค๋๋ค.
Ollama๋ก ์ด ๋ชจ๋ธ๋ค์ ์ด๋ป๊ฒ ์คํํ๋์?
ollama.com์์ Ollama๋ฅผ ์ค์นํ ํ ์ถ์ฒ ์ ๋ฌธ ๋ชจ๋ธ์ ์ํด `ollama run llama3.2:3b`๋ฅผ ์คํํฉ๋๋ค. Ollama๋ ์ฒซ ์คํ ์ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํฉ๋๋ค. ์ฌ๊ธฐ์ ๋์ด๋ 5๊ฐ ๋ชจ๋ธ ๋ชจ๋ Ollama ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์์ต๋๋ค.
Llama 3.2 3B๋ ์ผ์์ ์ธ ์์ ์ ์ถฉ๋ถํ๊ฐ์?
๊ฐ๋ฅ: ์์ฝ, ๊ฐ๋จํ Q&A, ๊ธฐ๋ณธ ์ฝ๋ ์ค๋ช , ๋ํํ ์ฑํ . ๋ถ๊ฐ๋ฅ: ๋ค๋จ๊ณ ์ถ๋ก , ๋ณต์กํ ์ฝ๋ฉ, ๊ธด ํ์์ ๊ตฌ์กฐํ ์์ฑ. ๊ทธ๋ฐ ์์ ์๋ 8 GB RAM์์ Llama 3.3 8B ๋๋ Qwen3 7B๋ก ์ ๊ทธ๋ ์ด๋ํ์ธ์.
3B ๋ชจ๋ธ๊ณผ 7B ๋ชจ๋ธ์ ์ฐจ์ด์ ์ ๋ฌด์์ธ๊ฐ์?
7B ๋ชจ๋ธ์ ๋ณต์กํ ๋ช ๋ น๊ณผ ์ถ๋ก ์์ ๋์ ๋๊ฒ ๋ ๋์ ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค. 3B ๋ชจ๋ธ์ RAM์ ์ฝ ์ ๋ฐ์ ์ฌ์ฉํ๊ณ 2-3๋ฐฐ ๋น ๋ฅด๊ฒ ์คํ๋ฉ๋๋ค. ์ ํ์ ๊ฑฐ์ ํญ์ ์ฌ์ฉ ๊ฐ๋ฅํ RAM์ ์ํด ๊ฒฐ์ ๋ฉ๋๋ค -- 4-6 GB ๊ธฐ๊ธฐ์์๋ 3B, 8 GB ๊ธฐ๊ธฐ์์๋ 7B๋ฅผ ์ฌ์ฉํ์ธ์.
์ฝ๋ฉ ์์ ์ ๊ฐ์ฅ ์ข์ ๋ชจ๋ธ์ ๋ฌด์์ธ๊ฐ์?
Qwen3 7B๊ฐ 5๊ฐ ๋ชจ๋ธ ์ค HumanEval ์ ๋์ ๋๋ค. ๋ ๋์ ์ฝ๋ฉ์ ์ํด ์ ์ฉ ์ฝ๋ ๋ณํ์ ์ฌ์ฉํ์ธ์: `ollama run qwen2.5-coder:7b`. 4-6 GB RAM์ผ๋ก ์ ํ๋ ๊ฒฝ์ฐ Phi-4 Mini 3.8B๊ฐ ์ต๊ณ ์ฝ๋ฉ ๋ชจ๋ธ์ ๋๋ค (2.5 GB RAM์์ 70% HumanEval).
ํ๊ตญ์ด๋ ๋น์์ด ์ธ์ด์๋ ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ ํ๋์?
Qwen3 7B๋ ํ๊ตญ์ด, ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ์๋์ด, ์ฃผ์ ์ ๋ฝ ์ธ์ด๋ฅผ ํฌํจํ 29๊ฐ ์ธ์ด๋ฅผ ๊ธฐ๋ณธ ์ง์ํฉ๋๋ค. ๋น์์ด ํ ์คํธ๋ฅผ Llama๋ Mistral๋ณด๋ค ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ฉฐ, ํ๊ตญ์ด ํ ์คํธ์์ ํ ํฐ ํจ์จ์ด 30-40% ํฅ์๋ฉ๋๋ค.
์ด ๋ชจ๋ธ๋ค์ ๊ฐ์ธ ๋ฐ์ดํฐ์ ์ฌ์ฉํด๋ ์์ ํ๊ฐ์?
๋ค -- 5๊ฐ ๋ชจ๋ธ ๋ชจ๋ ์์ ํ ์ฌ์ฉ์์ ํ๋์จ์ด์์ ์คํ๋ฉ๋๋ค. ํ๋กฌํํธ ํ ์คํธ, ์ปจํ ์คํธ, ์ถ๋ ฅ์ ์ธ๋ถ ์๋ฒ๋ก ์ ์ก๋์ง ์์ต๋๋ค. ๋ก์ปฌ ์ถ๋ก ์ ๋ฏผ๊ฐํ ๋ฐ์ดํฐ์ ๋ํด ํด๋ผ์ฐ๋ API๋ณด๋ค ๋ณธ์ง์ ์ผ๋ก ๋ ํ๋ผ์ด๋นํฉ๋๋ค.
์ด ๋ชจ๋ธ๋ค์ ๋ค์ด๋ก๋ํ๋ ๋ฐ ์ผ๋ง๋ ๊ฑธ๋ฆฌ๋์?
100 Mbps ์ฐ๊ฒฐ ๊ธฐ์ค: Gemma 3 2B (1.6 GB) ์ฝ 2๋ถ. Llama 3.2 3B (2 GB) ์ฝ 3๋ถ. Phi-4 Mini (2.3 GB) ์ฝ 3๋ถ. Mistral Small (4.1 GB) ์ฝ 5๋ถ. ๋ชจ๋ธ์ ์ฒซ ๋ค์ด๋ก๋ ํ ์บ์๋์ด -- ์ดํ ์คํ์ ์์ด ์์ ์์๋ฉ๋๋ค.
๊ฐ์ ๊ธฐ๊ธฐ์์ ์ฌ๋ฌ ๋ชจ๋ธ์ ์คํํ ์ ์๋์?
๋ค -- 5๊ฐ ๋ชจ๋ ๋์คํฌ์ ๋์์ ๊ณต์กดํ ์ ์์ต๋๋ค. 5๊ฐ ๋ชจ๋ ์ค์นํ ๊ฒฝ์ฐ 15-20 GB๋ฅผ ๊ณํํ์ธ์. Ollama๋ ํ ๋ฒ์ ํ ๋ชจ๋ธ์ ๋ก๋ํ๊ณ 5๋ถ ๋นํ์ฑ ํ ์ธ๋ก๋ํฉ๋๋ค.
์ถ์ฒ
- Meta AI. (2024). "Llama 3.2 Model Card." https://llama.meta.com/ -- Llama 3.2 3B ๋ฐ 1B ๋ชจ๋ธ์ ๊ณต์ ์ฌ์ ๋ฐ ๋ฒค์น๋งํฌ.
- Microsoft. (2025). "Phi-4 Mini Technical Report." https://huggingface.co/microsoft/Phi-4-mini-instruct -- Phi-4 Mini ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ (68% MMLU, 70% HumanEval).
- Google DeepMind. (2025). "Gemma 3 Model Card." https://ai.google.dev/gemma/docs/core -- 128K ์ปจํ ์คํธ ์๋์ฐ ์ ๊ทธ๋ ์ด๋๋ฅผ ํฌํจํ Gemma 3 2B ์ฌ์ ๋ฐ ์ฑ๋ฅ.
- Ollama. (2026). "Ollama Model Library." https://ollama.com/library -- Ollama ๋ชจ๋ธ ํ๊ทธ, ํฌ๊ธฐ, ํ ๋ช ๋ น์ ๊ณต์ ์ถ์ฒ.
- Hugging Face. (2026). "Open LLM Leaderboard." https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard -- ๋ชจ๋ ์คํ ๋ชจ๋ธ์ MMLU, HumanEval, MATH ๋ฒค์น๋งํฌ ์ ์.
- Mistral AI. (2024). "Mistral Small v0.3 Release Notes." https://mistral.ai/news/announcing-mistral-7b/ -- ๊ธฐ์ ์ฌ์ ๋ฐ Apache 2.0 ๋ผ์ด์ ์ค ์ธ๋ถ ์ฌํญ.
- Alibaba DAMO Academy. (2024). "Qwen3 Technical Report." arXiv:2412.15115. https://arxiv.org/abs/2412.15115 -- Qwen3 7B์ ๋ค๊ตญ์ด ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ ๋ฐ ์ํคํ ์ฒ ์ธ๋ถ ์ฌํญ.