Key Takeaways
- Llama 4 Scout (MoE)๋ ์ต๋ 1,000๋ง ํ ํฐ์ ์ง์ํฉ๋๋ค. DeepSeek V4-Flash์ Qwen 3.6์ ๊ฐ๊ฐ 1M ๋ฐ 256K ํ ํฐ์ ์ง์ํฉ๋๋ค(YaRN์ผ๋ก 1M ํ์ฅ ๊ฐ๋ฅ). 2026๋ 5์์ ๋ฐฑ๋ง ํ ํฐ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ์คํ ๋ชจ๋ธ ์ต์ด์ ์ธ๋๊ฐ ์์๋ ์์ ์ ๋๋ค.
- ๋ชจ๋ธ ํฌ๊ธฐ๋ณ ์ค์ฉ์ ์ปจํ ์คํธ: 7B~8B ๋ชจ๋ธ์ 16K~32K ํ ํฐ์์ ํ์ง์ ์ ์งํฉ๋๋ค. 70B ์ด์ ๋ชจ๋ธ๊ณผ MoE ๋ชจ๋ธ์ 256K~1M๊น์ง ํ์ฅ๋ฉ๋๋ค. Llama 4 Scout๋ ์ถฉ๋ถํ VRAM์์ 100๋ง ํ ํฐ ์ ์ฒด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- RAM์ ์ปจํ ์คํธ ๊ธธ์ด์ ๋ชจ๋ธ ํฌ๊ธฐ ๋ชจ๋์ ๋ฐ๋ผ ์ฆ๊ฐํฉ๋๋ค. Q4_K_M์ Qwen 3.6 27B๋ 128K์์ ์ฝ 22GB, 1M ํ ํฐ์์ 65GB ์ด์์ด ํ์ํฉ๋๋ค. Llama 4 Scout๋ ์ ์ฒด 1,000๋ง ํ ํฐ ์ปจํ ์คํธ์ 150GB ์ด์์ด ํ์ํฉ๋๋ค.
- "์ค๊ฐ ์์ค" ํ์์ ์ฌ์ ํ ์ ์ฉ๋ฉ๋๋ค: LLM์ ์ปจํ ์คํธ ์ค๊ฐ ์น์ ์ ์ธ๋ถ ์ ๋ณด๋ฅผ ๋์นฉ๋๋ค. ์ํ ๋ฐฉ๋ฒ: ์ค์ํ ์ ๋ณด๋ฅผ ํ๋กฌํํธ ์์ ๋ถ๋ถ์ ๋ฐฐ์นํ๊ณ , ๊ฒ์ ์์ ์๋ RAG๋ฅผ ์ฌ์ฉํ๊ฑฐ๋, ๊ฒน์น๋ ์ฒญํฌ๋ก ๋ถํ ์ฒ๋ฆฌํ์ญ์์ค.
- ๊ธด ์ปจํ ์คํธ๋ ์ ์ฒด ๋ฌธ์(์ฝ๋๋ฒ ์ด์ค, ๊ณ์ฝ์, ์ฑ )์ ์ ์ฒด์ ๋ถ์์ ํ์ํฉ๋๋ค. RAG๋ ๋ค์์ ๋ฌธ์์ ๊ฑธ์น ๊ฒ์ ์ค์ฌ ์์ ์ ํ์ํฉ๋๋ค. ์ปจํ ์คํธ ํฌ๊ธฐ๊ฐ ์๋ ์์ ์ ํ์ ๋ฐ๋ผ ์ ํํ์ญ์์ค.
- Ollama์ ๊ธฐ๋ณธ๊ฐ์ 128K๋ 1M์ด ์๋ 2048 ํ ํฐ์ ๋๋ค. ์ ์ฒด ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํ๋ ค๋ฉด Modelfile์์ num_ctx๋ฅผ ๋ช ์์ ์ผ๋ก ์ค์ ํ์ญ์์ค. 500K ์ด์์ ๋๊ท๋ชจ ์ปจํ ์คํธ์์๋ OOM์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ดํ ์ ๊ตฌํ์ ํ๋ํ์ญ์์ค.
์ปจํ ์คํธ ๊ธธ์ด๋ ๋ฌด์์ด๋ฉฐ ๋ก์ปฌ LLM์์ ์ ์ค์ํฉ๋๊น?
์ปจํ ์คํธ ๊ธธ์ด๋ ๋ชจ๋ธ์ด ๋จ์ผ ์ถ๋ก ํธ์ถ์์ ์ฒ๋ฆฌํ ์ ์๋ ์ต๋ ํ ํฐ ์์ ๋๋ค. ์ ๋ ฅ(๋ฌธ์, ๋ํ ๊ธฐ๋ก, ์์คํ ํ๋กฌํํธ)๊ณผ ์ถ๋ ฅ(๋ชจ๋ธ์ ์๋ต)์ ํฉ์ฐ ํฌ๊ธฐ์ ๋๋ค. ์์ด ๊ธฐ์ค 1 ํ ํฐ โ 0.75 ๋จ์ด์ด๋ฉฐ, 128K ํ ํฐ โ 96,000 ๋จ์ด์ ๋๋ค.
๋ก์ปฌ LLM ์ฌ์ฉ ์ฌ๋ก์์ ๊ธด ์ปจํ ์คํธ๋ ๋ค์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค: ์ฑ ์ ์ฒด ๋๋ ๊ธด ๋ณด๊ณ ์ ์์ฝ, ํ๋์ ํ๋กฌํํธ๋ก ์ ์ฒด ์ฝ๋๋ฒ ์ด์ค ๋ถ์, ์๊ฐ ๋จ์์ ํ์ ๋ น์ทจ๋ก ์ฒ๋ฆฌ, ์ด์ ์ปจํ ์คํธ๋ฅผ ์์ง ์๊ณ ๊ธด ๋ํ ๊ธฐ๋ก ์ ์ง.
ํต์ฌ ๊ตฌ๋ถ์ ๊ด๊ณ ๋ ์ปจํ ์คํธ ๊ธธ์ด(๋ชจ๋ธ ์ํคํ ์ฒ๊ฐ ์ง์ํ๋ ๊ฒ)์ ์ค์ฉ์ ์ปจํ ์คํธ ๊ธธ์ด(ํ์ง์ด ์์ ์ ์ผ๋ก ์ ์ง๋๋ ๋ฒ์)์ ๋๋ค. ๋ชจ๋ธ์ด ๊ธฐ์ ์ ์ผ๋ก 128K ํ ํฐ์ ์ง์ํ๋๋ผ๋ 100K ํ ํฐ ์ง์ ์ ์ ์๋ ์ ๋ณด์์๋ ํ์ง์ด ์ ํ๋ ์ ์์ต๋๋ค.
2026๋ ์ 128K ํ ํฐ ์ปจํ ์คํธ๋ฅผ ์ง์ํ๋ ๋ก์ปฌ LLM์?
| Model | Context Window | Practical Limit | Ollama Command |
|---|---|---|---|
| Llama 3.3 8B | 128K | ~32K ์์ | ollama run llama3.2 |
| Llama 3.2 3B | 128K | ~16K ์์ | ollama run llama3.2:3b |
| Llama 3.3 70B | 128K | ~64K ์์ | ollama run llama3.3:70b |
| Qwen3 7B | 128K | ~32K ์์ | ollama run qwen2.5:7b |
| Qwen3 72B | 128K | ~64K ์์ | ollama run qwen2.5:72b |
| Mistral Small 3.1 24B | 128K | ~32K ์์ | ollama run mistral-small3.1 |
| Gemma 2 2B | 8K | ~6K ์์ | ollama run gemma2:2b |
| Mistral Small v0.3 | 32K | ~16K ์์ | ollama run llama3.2 |
๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ์๋ ์ผ๋ง๋ ๋ง์ RAM์ด ํ์ํฉ๋๊น?
RAM ์ฌ์ฉ๋์ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ปจํ ์คํธ ๊ธธ์ด ๋ชจ๋์ ๋ฐ๋ผ ์ฆ๊ฐํฉ๋๋ค. KV ์บ์(ํค-๊ฐ ์บ์)๋ ์ฒ๋ฆฌ๋ ๋ชจ๋ ํ ํฐ์ ์ดํ ์ ์ํ๋ฅผ ์ ์ฅํ๋ฉฐ, ์ด๋ ์ปจํ ์คํธ ๊ธธ์ด์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํฉ๋๋ค.
2026๋ 4์ ๊ธฐ์ค, Q4_K_M์ 7B ๋ชจ๋ธ์ 4K ์ปจํ ์คํธ์์ ์ฝ 6GB RAM์ ์ฌ์ฉํฉ๋๋ค. ๋์ผ ๋ชจ๋ธ๋ก 32K ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํ๋ฉด ์ฝ 8~9GB RAM์ด ํ์ํฉ๋๋ค. 128K ์ปจํ ์คํธ์ ๊ฒฝ์ฐ: ์ฝ 12~16GB RAM.
| Model | 4K Context | 32K Context | 128K Context |
|---|---|---|---|
| Llama 3.3 8B Q4_K_M | ~6 GB | ~9 GB | ~14 GB |
| Qwen3 14B Q4_K_M | ~9 GB | ~12 GB | ~18 GB |
| Mistral Small 3.1 24B Q4_K_M | ~14 GB | ~17 GB | ~24 GB |
| Llama 3.3 70B Q4_K_M | ~40 GB | ~45 GB | ~55 GB |
์ค์ฉ์ ์ปจํ ์คํธ ๊ธธ์ด๊ฐ ๊ด๊ณ ๋ ์ต๋๊ฐ๋ณด๋ค ์งง์ ์ด์ ๋ ๋ฌด์์ ๋๊น?
RoPE ์์น ์ธ์ฝ๋ฉ(Llama, Qwen, Mistral์์ ์ฌ์ฉ)์ผ๋ก ํ๋ จ๋ LLM์ ๊ธฐ์ ์ ์ผ๋ก ์ต๋ ์ปจํ ์คํธ ๊ธธ์ด๊น์ง ํ ํฐ์ ์ฒ๋ฆฌํ ์ ์์ง๋ง, "์ค๊ฐ ์์ค" ํจ๊ณผ๋ผ๊ณ ์๋ ค์ง ํจํด์ผ๋ก ํ์ง์ด ์ ํ๋ฉ๋๋ค.
์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ์ธ์ด ๋ชจ๋ธ์ ์ปจํ ์คํธ ์ฐฝ์ ์์๊ณผ ๋ ๋ถ๋ถ์ ์ ๋ณด๋ฅผ ๊ฐ์ฅ ์ ํ์ฉํฉ๋๋ค. ๋งค์ฐ ๊ธด ์ปจํ ์คํธ์ ์ค๊ฐ์ ๋ฐฐ์น๋ ์ ๋ณด๋ ๋ ์์ ์ ์ผ๋ก ๊ฒ์๋ฉ๋๋ค. ์ค์ ๋ก ์ด๋ 128K ์ปจํ ์คํธ ์ฐฝ์ ๊ฐ์ง ๋ชจ๋ธ์ด ์ฒ์ 32K ํ ํฐ๊ณผ ๋ง์ง๋ง 16K ํ ํฐ์ ๋ด์ฉ์ ๋ํด์๋ ์์ ์ ์ผ๋ก ๋ต๋ณํ ์ ์์ง๋ง, 40K~80K ํ ํฐ ๊ตฌ๊ฐ์ ์ธ๋ถ ์ ๋ณด๋ ๋์น ์ ์์์ ์๋ฏธํฉ๋๋ค.
๋ก์ปฌ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ์ค์ฉ์ ์์ ํ๊ณ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ฆ๊ฐํฉ๋๋ค: 3B ๋ชจ๋ธ โ 8K~16K ์์ , 7B~8B ๋ชจ๋ธ โ 16K~32K ์์ , 70B ๋ชจ๋ธ โ 64K ์์ . ์ด๋ ๋๋ต์ ์ธ ์์น์ด๋ฉฐ ์ค์ ํ๊ณ๋ ํน์ ์์ ๊ณผ ๊ฒ์ ์ ๋ณด์ "์ค์๋"์ ๋ฐ๋ผ ๋ค๋ฆ ๋๋ค.
๊ธด ์ปจํ ์คํธ ์ฐฝ์ ๋ ๋ง์ ์ ๋ ฅ์ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง, ๋ชจ๋ธ์ด ํด๋น ์ปจํ ์คํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋์ง๋ ํ๋กฌํํธ ๊ตฌ์กฐ์ ๋ฌ๋ ค ์์ต๋๋ค. RAG, ํ๋กฌํํธ ์ฒด์ด๋, ์ปจํ ์คํธ ์ฐฝ ๊ด๋ฆฌ ์ ๋ต ๋ฑ์ ๊ธฐ๋ฒ์ ํ๋กฌํํธ ์์ง๋์ด๋ง ๊ฐ์ด๋์์ ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
Ollama์์ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ์ด๋ป๊ฒ ์ค์ ํฉ๋๊น?
๋ณ๋ ์ค์ ์ด ์์ผ๋ฉด Ollama๋ ๊ธฐ๋ณธ์ ์ผ๋ก 2048 ํ ํฐ์ ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ธ์ ์ ์ฒด ์ปจํ ์คํธ ์ฐฝ์ ์ฌ์ฉํ๋ ค๋ฉด:
์ปจํ ์คํธ ์ฐฝ ํฌ๊ธฐ๋ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ ์ ์๋ ํ ์คํธ ์์ ๊ฒฐ์ ํ์ง๋ง, ๋ชจ๋ธ์ด ํด๋น ์ปจํ ์คํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋์ง๋ ํ๋กฌํํธ ๊ตฌ์กฐ์ ๋ฌ๋ ค ์์ต๋๋ค. ๋ชจ๋ธ์ด ์ด์ ์ ๋ ฅ์ ์๋ ์ด์ ์ ์ด๋ฅผ ์ํํ๋ ์ ๋ต์ ๋ํ ์ฌ์ธต ์ค๋ช ์ ์ปจํ ์คํธ ์ฐฝ ์ค๋ช : AI๊ฐ ์๋ ์ด์ ๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
# ๋ฐํ์์์ ์ปจํ
์คํธ ๊ธธ์ด ์ค์
ollama run llama3.2 --ctx 32768
# ๋๋ Modelfile๋ก ์ปค์คํ
๋ชจ๋ธ ์์ฑ
cat << EOF > Modelfile
FROM llama3.1:8b
PARAMETER num_ctx 32768
EOF
ollama create llama3.1-32k -f Modelfile
ollama run llama3.1-32k๊ธด ์ปจํ ์คํธ ๋ก์ปฌ LLM: ์ง์ญ๋ณ ์ปจํ ์คํธ
EU / GDPR + AI Act: 2025๋ 2์๋ถํฐ ๋ฐํจ๋ EU AI Act๋ ๋๊ท๋ชจ ๊ฐ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ AI ์์คํ ์ ์ ์ฌ์ ๊ณ ์ํ์ผ๋ก ๋ถ๋ฅํฉ๋๋ค. ๋ฒ๋ฅ ๋ฌธ์ ๋ถ์, ์๋ฃ ๊ธฐ๋ก ์์ฝ, HR ๋ฌธ์ ์ฒ๋ฆฌ๋ฅผ ์ํ ๊ธด ์ปจํ ์คํธ ๋ก์ปฌ ์ถ๋ก ์ ์ด ์ํ ๋ฑ๊ธ์ ํด๋นํฉ๋๋ค. ๋ก์ปฌ์์ ์คํํ๋ฉด GDPR ์ 28์กฐ์ ๋ฐ๋ฅธ ์ 3์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ์ํ์ด ์ ๊ฑฐ๋ฉ๋๋ค. ๋ฐ์ดํฐ๊ฐ ์กฐ์ง ๋ฐ์ผ๋ก ๋๊ฐ์ง ์์ต๋๋ค.
๋ฏผ๊ฐํ ๋ฌธ์๋ฅผ ๋ก์ปฌ์์ ์ฒ๋ฆฌํ๋ AI ์์คํ ์ ๋ํ ๋ ์ผ BSI ์ค์๋ฅผ ์ํ ๊ถ์ฅ ๊ตฌ์ฑ์ 32K ์ปจํ ์คํธ์ Q4_K_M 7B ๋ชจ๋ธ์ ๋๋ค(ํ์ค ์ํฌ์คํ ์ด์ ์ 9~10GB RAM์ ๋ง์). ์ด๋ ์ต๋ 50ํ์ด์ง ๋ฌธ์์์ ์์ ์ ์ธ ํ์ง์ ์ ๊ณตํ๋ฉด์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์จํ๋ ๋ฏธ์ค์ ์ ์งํฉ๋๋ค. ๊ธด ์ปจํ ์คํธ ๋ฌธ์ ์ฒ๋ฆฌ๋ฅผ ์ํ EU ์ค์ ์ ํ์ผ๋ก๋ Llama 3.3 8B์ Mistral Small 3.1์ด ๊ถ์ฅ๋ฉ๋๋ค.
๊ฐ์ธ ๋ฐ์ดํฐ์ ๊ดํ ํ๋์ค CNIL ๊ฐ์ด๋๋ผ์ธ: ์ธ๋ถ API ํธ์ถ ์์ด Ollama๋ฅผ ํตํ ๋ก์ปฌ ์ถ๋ก ์ ๊ฐ์ธ ๋ฐ์ดํฐ๊ฐ ์ ํจํ ๋ฒ์ ๊ทผ๊ฑฐ ์์ด ์ 3์ AI ์ ๊ณต์์ ์ํด ์ฒ๋ฆฌ๋์ง ์์์ผ ํ๋ค๋ ์๊ตฌ ์ฌํญ์ ์ถฉ์กฑํฉ๋๋ค.
์ผ๋ณธ (METI): ์ผ๋ณธ์ด ๋ฌธ์๋ ํ ํฌ๋์ด์ ์ฐจ์ด๋ก ์ธํด ๋๋ฑํ ์์ด ๋ฌธ์๋ณด๋ค 1.5~2๋ฐฐ ๋ ๋ง์ ํ ํฐ์ด ํ์ํฉ๋๋ค. 50ํ์ด์ง ์ผ๋ณธ์ด ๋ณด๊ณ ์๋ 25K~35K ํ ํฐ์ ์๋นํ ์ ์์ต๋๋ค. ์ด๋ Qwen3 7B์ ์์ ์ ๋ฒ์(32K ์ค์ฉ ํ๊ณ) ๋ด์ด์ง๋ง Ollama์์ ๋ช ์์ ์ปจํ ์คํธ ์ค์ ์ด ํ์ํฉ๋๋ค: PARAMETER num_ctx 32768. ์ผ๋ณธ์ด ๋ฒ๋ฅ ๋ฐ ๊ธ์ต ๋ฌธ์์ ๊ฒฝ์ฐ 32K ์ปจํ ์คํธ์ Q4_K_M Qwen3 14B(์ฝ 12GB RAM)๊ฐ ์ผ๋ณธ์ด ๊ธด ์ปจํ ์คํธ ์ฒ๋ฆฌ์์ ์ต๊ณ ์ ํ์ง ๋๋น RAM ํจ์จ์ ์ ๊ณตํฉ๋๋ค. Qwen3์ ์ผ๋ณธ์ด ๋ค์ดํฐ๋ธ ํ ํฌ๋์ด์ ๋ Llama๋ณด๋ค ์ผ๋ณธ์ด ํ ์คํธ๋ฅผ 30~40% ๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
์ค๊ตญ: ์ค๊ตญ์ ๋ฐ์ดํฐ ๋ณด์๋ฒ(ๆฐๆฎๅฎๅ จๆณ)์ ๋ฐ๋ผ ํด๋ผ์ฐ๋ API๋ฅผ ํตํ ๋ฏผ๊ฐํ ๋ฌธ์ ์ฒ๋ฆฌ๋ ์ถ๊ฐ์ ์ธ ๊ท์ ์ค์๊ฐ ํ์ํฉ๋๋ค. Qwen3(Alibaba)๋ฅผ ํตํ ๋ก์ปฌ ๊ธด ์ปจํ ์คํธ ์ถ๋ก ์ ๋ชจ๋ ๋ฌธ์ ๋ด์ฉ์ ์จํ๋ ๋ฏธ์ค์ ์ ์งํฉ๋๋ค. ์ค๊ตญ ๊ธฐ์ ๋ฌธ์ ์ฒ๋ฆฌ์ ๊ฒฝ์ฐ, ๋ก์ปฌ ์ํฌ์คํ ์ด์ ์์ 32K ์ปจํ ์คํธ์ Qwen3 72B(์ฝ 45GB RAM)๋ ์์ ํ ๋ฐ์ดํฐ ์ฃผ๊ถ์ ์ ์งํ๋ฉด์ ํด๋ผ์ฐ๋์ ์คํ๋ ํ์ง์ ์ ๊ณตํฉ๋๋ค. Qwen3์ ์ค๊ตญ์ด ๋ค์ดํฐ๋ธ ํ ํฌ๋์ด์ ๋ ์ค๊ตญ์ด ๋ฌธ์์์ Llama๋ณด๋ค 30~40% ๋ ํ ํฐ ํจ์จ์ ์ ๋๋ค.
๊ธด ์ปจํ ์คํธ ๋ก์ปฌ LLM ์ฌ์ฉ ์ ํํ ์ค์
- 128K ์ปจํ ์คํธ๊ฐ 4K์ ๋์ผํ๊ฒ ์ ์๋ํ๋ค๊ณ ๊ฐ์ ํ๋ ๊ฒ: "์ค๊ฐ ์์ค" ํจ๊ณผ๋ก ์ธํด 30K~80K ํ ํฐ ์ด์ ์ ์ ์๋ ์ ๋ณด๋ ์์์ด๋ ๋ ๋ถ๋ถ์ ์ ๋ณด๋ณด๋ค ๋ ์์ ์ ์ผ๋ก ๊ฒ์๋ฉ๋๋ค. ์ค์ํ ๋ฌธ์ ๋ถ์์ ๊ฒฝ์ฐ, ์ ์ฒด 100K ๋ฌธ์๋ฅผ ํ ๋ฒ์ ์ ๋ ฅํ๋ ๋์ ๊ธด ๋ฌธ์๋ฅผ 16K~32K ์น์ ์ผ๋ก ๋ถํ ํ์ฌ ๊ฐ๊ฐ ์ฒ๋ฆฌํ์ญ์์ค.
- Ollama์ ๊ธฐ๋ณธ ์ปจํ ์คํธ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ์ง ์๋ ๊ฒ: ๋ชจ๋ธ์ ์ต๋๊ฐ๊ณผ ๊ด๊ณ์์ด Ollama๋ ๊ธฐ๋ณธ์ ์ผ๋ก 2048 ํ ํฐ์ ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํฉ๋๋ค. 2048 ํ ํฐ์ ์ด๊ณผํ๋ ๋ํ๋ ์ด์ ๋ฉ์์ง๋ฅผ ์๋ผ๋ ๋๋ค. ํญ์ num_ctx๋ฅผ ๋ช ์์ ์ผ๋ก ์ค์ ํ์ญ์์ค: Modelfile์ PARAMETER num_ctx 32768์ ์ถ๊ฐํ๊ฑฐ๋ ๋ฐํ์์์ --ctx๋ฅผ ์ฌ์ฉํ์ญ์์ค.
- ๋ถ์ถฉ๋ถํ RAM์ผ๋ก ๊ธด ์ปจํ ์คํธ ์คํ: ์ด 8GB RAM์์ 128K ์ปจํ ์คํธ๋ก 7B ๋ชจ๋ธ์ ์คํํ๋ฉด ์ฌ๊ฐํ ์ค์ ์ฌ์ฉ์ด ๋ฐ์ํฉ๋๋ค. ๋ชจ๋ธ ๊ฐ์ค์น(์ฝ 4.5GB)์ 128K KV ์บ์(์ฝ 8GB ์ด์)๋ฅผ ํฉ์น๋ฉด 8GB๋ฅผ ์ด๊ณผํฉ๋๋ค. ์ปจํ ์คํธ๋ฅผ 32K๋ก ์ค์ด๊ฑฐ๋(์ฝ 9GB์ ๋ง์) 128K ์ปจํ ์คํธ ์ถ๋ก ์ ์ํด 16GB ์ด์์ RAM์ ์ฌ์ฉํ์ญ์์ค.
- ๊ธด ์ปจํ ์คํธ์์ ์์ฑ ์๋๋ง์ด ์ ์ผํ ์ง์ฐ ์์๋ผ๋ ๊ฒ์ ์๋ ๊ฒ: 32K ์ปจํ ์คํธ์์ ์๋น์์ฉ ํ๋์จ์ด์ ์ฒซ ๋ฒ์งธ ํ ํฐ๊น์ง์ ์๊ฐ(TTFT)์ 5~15์ด๊ฐ ๋ ์ ์์ต๋๋ค. ๋ชจ๋ธ์ ๋จ ํ๋์ ์ถ๋ ฅ ํ ํฐ์ ์์ฑํ๊ธฐ ์ ์ 32K ์ ๋ ฅ ํ ํฐ ์ ์ฒด๋ฅผ ์ฒ๋ฆฌํด์ผ ํฉ๋๋ค. ์ด ํ๋ฆฌํ ๋จ๊ณ๋ ์ปจํ ์คํธ ๊ธธ์ด์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํฉ๋๋ค. ๋ํํ ์ฌ์ฉ์์๋ ์ปจํ ์คํธ๋ฅผ 8K~16K๋ก ์ ํํ์ญ์์ค. 32K ์ด์์ ์ปจํ ์คํธ๋ TTFT๊ฐ ํ์ฉ ๊ฐ๋ฅํ ๋ฐฐ์น ์ฒ๋ฆฌ์ฉ์ผ๋ก ์์ฝํ์ญ์์ค.
- RAG๊ฐ ์ ํฉํ ๊ฒฝ์ฐ์ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ ๊ทธ ๋ฐ๋์ ๊ฒฝ์ฐ: RAG๋ ์ฌ๋ฌ ๋ฌธ์์ ๊ฑธ์น ๋ฌธ์ ๊ฒ์์ ๋ ์ ํฉํฉ๋๋ค. ๊ธด ์ปจํ ์คํธ๋ ๊ณ์ฝ์, ์ฝ๋๋ฒ ์ด์ค, ์ฑ ์ฑํฐ์ฒ๋ผ ์์ ํ๊ณ ์ผ๊ด๋ ๋ฌธ์ ์ ์ฒด์ ๋ํด ๋ชจ๋ธ์ด ์ถ๋ก ํด์ผ ํ ๋ ๋ ์ ํฉํฉ๋๋ค. 10ํ์ด์ง ๋ฒ๋ฅ ๊ณ์ฝ์๋ฅผ RAG ์ฒญํฌ๋ก ๋ถํ ํ๋ฉด ๊ธด ์ปจํ ์คํธ๋ก ํผํ ์ ์๋ ๊ต์ฐจ ์ฐธ์กฐ ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ ์ค์ ์ด ์๋ ์์ ์ ํ์ ๋ฐ๋ผ ์ ํํ์ญ์์ค.
FAQ
๋ก์ปฌ LLM์ผ๋ก ์ฑ ์ ์ฒด๋ฅผ ์์ฝํ ์ ์์ต๋๊น?
์ผ๋ฐ์ ์ธ 300ํ์ด์ง ์ฑ ์ 9๋ง~12๋ง ๋จ์ด๋ก, ์ฝ 120K~160K ํ ํฐ์ ํด๋นํฉ๋๋ค. ์ด๋ ๋๋ถ๋ถ์ 7B ๋ชจ๋ธ์ ์ค์ฉ์ ์ ๋ขฐ ์ปจํ ์คํธ๋ฅผ ์ด๊ณผํ๋ฉฐ, 70B ๋ชจ๋ธ(64K ์์ )์ด๋ ๋ถํ ์ฒ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค. 7B ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ฑ ์ 2๋ง ๋จ์ด ๋จ์์ ์ฑํฐ๋ก ๋ถํ ํ์ฌ ๊ฐ๊ฐ ์์ฝํ ํ, ์ฑํฐ ์์ฝ๋ณธ์ ๋ค์ ์์ฝํ์ญ์์ค.
32K ํ ํฐ์๋ ๋ช ํ์ด์ง์ ํ ์คํธ๊ฐ ๋ค์ด๊ฐ๋๊น?
ํ์ค ์์ด ํ ์คํธ ๊ธฐ์ค(ํ์ด์ง๋น 250๋จ์ด) ์ฝ 50~70ํ์ด์ง์ ๋๋ค. 32K ํ ํฐ ์ปจํ ์คํธ์๋ ๋จํธ ์์ค, ๋ถ๋ก์ด ํฌํจ๋ ์์ ํ ์ฐ๊ตฌ ๋ ผ๋ฌธ, ๋๋ ์ ์ฒด ๊ธฐ์ ์ฌ์ ๋ฌธ์๊ฐ ๋ค์ด๊ฐ๋๋ค.
์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๋๋ฆฌ๋ฉด ์ถ๋ก ์๋๊ฐ ๋๋ ค์ง๋๊น?
๊ทธ๋ ์ต๋๋ค. ์ดํ ์ ๊ณ์ฐ์ ์ด์ฐจ ํจ์์ ํ์ฅ์ผ๋ก ์ธํด ๋์ผ ํ๋์จ์ด์์ 32K ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒ์ 4K ์ปจํ ์คํธ๋ณด๋ค ์ฝ 3~4๋ฐฐ ๋ ์ค๋ ๊ฑธ๋ฆฝ๋๋ค. ํ ํฐ ์์ฑ ์๋(์ด๋น ํ ํฐ)๋ ํฌ๊ฒ ์ํฅ์ ๋ฐ์ง ์์ง๋ง, ์ฒซ ๋ฒ์งธ ํ ํฐ๊น์ง์ ์๊ฐ(TTFT)์ ์ ๋ ฅ ๊ธธ์ด์ ๋ฐ๋ผ ์ฆ๊ฐํฉ๋๋ค.
๊ธด ์ปจํ ์คํธ๋ณด๋ค RAG๋ฅผ ๋ ์ ์ฒ๋ฆฌํ๋ ๋ก์ปฌ LLM์ ๋ฌด์์ ๋๊น?
๋ฌธ์ ๊ฒ์ ๋ฐ ๊ฒ์ ์์ ์ ๊ฒฝ์ฐ, RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ)๋ ์ ์ฒด ๋ฌธ์๋ฅผ ์ปจํ ์คํธ๋ก ์ ๋ ฅํ๋ ๊ฒ๋ณด๋ค ๋ ํจ๊ณผ์ ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. RAG๋ ๋๊ท๋ชจ ๋ฌธ์ ์ธํธ์์ ๊ฐ์ฅ ๊ด๋ จ์ฑ ๋์ 3~5๊ฐ ์ฒญํฌ๋ฅผ ๊ฒ์ํ์ฌ ๋ชจ๋ธ์๊ฒ๋ง ์ ๊ณตํฉ๋๋ค. ์ด๋ 4K~8K ํ ํฐ์ ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํ๋ฉฐ "์ค๊ฐ ์์ค" ๋ฌธ์ ๋ฅผ ํผํฉ๋๋ค. GPT4All LocalDocs ๋ฐ LlamaIndex์ ๊ฐ์ ๋๊ตฌ๊ฐ ๋ก์ปฌ RAG๋ฅผ ๊ตฌํํฉ๋๋ค.
KV ์บ์๋ ๋ฌด์์ด๋ฉฐ ์ปจํ ์คํธ ๊ธธ์ด์ ๋ฐ๋ผ ์ ์ฆ๊ฐํฉ๋๊น?
KV ์บ์(ํค-๊ฐ ์บ์)๋ ์ปจํ ์คํธ ์ฐฝ์์ ์ฒ๋ฆฌ๋ ๋ชจ๋ ํ ํฐ์ ๋ํ ์ดํ ์ ์ํ๋ฅผ ์ ์ฅํฉ๋๋ค. ๊ฐ ํ ํฐ์ ํค ๋ฐ ๊ฐ ๋ฒกํฐ๋ฅผ ์ํ ๊ณ ์ ๋ ์์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค. ๋ฐ๋ผ์ 32K ์ปจํ ์คํธ๋ 4K ์ปจํ ์คํธ๋ณด๋ค 8๋ฐฐ ๋ ๋ง์ KV ์บ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค. ์ด๊ฒ์ด Q4_K_M์ 7B ๋ชจ๋ธ์ด 4K ์ปจํ ์คํธ์์ ์ฝ 6GB, 32K ์ปจํ ์คํธ์์ ์ฝ 9GB๊ฐ ํ์ํ ์ด์ ์ ๋๋ค. ๋ชจ๋ธ ๊ฐ์ค์น๋ ๋ณํ์ง ์๊ณ KV ์บ์๋ง ์ฆ๊ฐํฉ๋๋ค.
๋ก์ปฌ ๋ชจ๋ธ์ด Gemini 3.1 Pro์ฒ๋ผ 1M ํ ํฐ ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๊น?
์๋์. 2026๋ 4์ ๊ธฐ์ค, ๋ก์ปฌ์์ ์คํ ๊ฐ๋ฅํ ๋ชจ๋ธ ์ค 1M ํ ํฐ ์ปจํ ์คํธ๋ฅผ ์ง์ํ๋ ๊ฒ์ ์์ต๋๋ค. Gemini 3.1 Pro์ 1M ํ ํฐ ์ฐฝ์ Google์ TPU ์ธํ๋ผ๊ฐ ํ์ํฉ๋๋ค. ๋ก์ปฌ์์๋ ํ์ฌ ์๋น์์ฉ ํ๋์จ์ด๊ฐ ์ง์ํ๋ ์ต๋ 128K๊ฐ ํ๊ณ์ ๋๋ค. 1M ์ด์์ ํ ํฐ ์ปจํ ์คํธ๊ฐ ํ์ํ ์์ ์์๋ ํด๋ผ์ฐ๋ API๊ฐ ์ ์ผํ ์ค์ฉ์ ์ต์ ์ ๋๋ค.
"์ค๊ฐ ์์ค" ๋ฌธ์ ๋ ๋ฌด์์ด๋ฉฐ ์ด๋ป๊ฒ ํผํ ์ ์์ต๋๊น?
์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด LLM์ ์ปจํ ์คํธ ์ฐฝ์ ์์๊ณผ ๋ ๋ถ๋ถ์ ์ ๋ณด๋ ์์ ์ ์ผ๋ก ๊ฒ์ํ์ง๋ง ์ค๊ฐ ๋ถ๋ถ์ ์ธ๋ถ ์ ๋ณด๋ ๋์นฉ๋๋ค. 128K ์ปจํ ์คํธ์์ 40K~80K ํ ํฐ ๊ตฌ๊ฐ์ ๋ฐฐ์น๋ ๋ด์ฉ์ด ๊ฐ์ฅ ๋ฌด์๋ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ์ด๋ฅผ ํผํ๋ ค๋ฉด: ์ค์ํ ์ ๋ณด๋ฅผ ํ๋กฌํํธ ์์ ๋ถ๋ถ์ ๋ฐฐ์นํ๊ณ , RAG๋ฅผ ์ฌ์ฉํ์ฌ ๊ด๋ จ ์ฒญํฌ๋ง ๊ฒ์ํ๊ฑฐ๋, ๊ธด ๋ฌธ์๋ฅผ ๊ฒน์น๋ 16K~32K ์น์ ์ผ๋ก ๋ถํ ์ฒ๋ฆฌํ์ญ์์ค.
Ollama๊ฐ ์ฌ์ฉ ์ค์ธ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ์ด๋ป๊ฒ ํ์ธํฉ๋๊น?
`ollama show <๋ชจ๋ธ๋ช >`์ ์คํํ์ญ์์ค. ์ถ๋ ฅ์๋ num_ctx๋ฅผ ํฌํจํ ํ๋ผ๋ฏธํฐ ๋ชฉ๋ก์ด ํ์๋ฉ๋๋ค. 2048๋ก ํ์๋๋ฉด Ollama๊ฐ ๊ธฐ๋ณธ๊ฐ์ ์ฌ์ฉ ์ค์ด๋ฉฐ ๋ชจ๋ธ์ ์ ์ฒด ์ปจํ ์คํธ ์ฐฝ์ ์ฌ์ฉํ์ง ์๋ ๊ฒ์ ๋๋ค. ์๊ตฌ์ ์ผ๋ก ๋ณ๊ฒฝํ๋ ค๋ฉด PARAMETER num_ctx 32768์ด ํฌํจ๋ Modelfile์ ์์ฑํ๊ณ ollama create <์ด๋ฆ> -f Modelfile์ ์คํํ์ญ์์ค. ollama ps๋ก ํ์ฑ ์ธ์ ์ ํ์ธํ์ญ์์ค.
๋ฌธ์ ์ง์์๋ต์๋ ๊ธด ์ปจํ ์คํธ์ RAG ์ค ์ด๋ ๊ฒ์ด ๋ ๋ซ์ต๋๊น?
RAG๋ ์ผ๋ฐ์ ์ผ๋ก ๋ฌธ์ Q&A์์ ๊ธด ์ปจํ ์คํธ๋ณด๋ค ๋ ํจ๊ณผ์ ์ด๊ณ RAM ํจ์จ์ ์ ๋๋ค. RAG๋ ๋๊ท๋ชจ ์ฝํผ์ค์์ ๊ด๋ จ์ฑ ๋์ 3~5๊ฐ ์ฒญํฌ(์ด 4K~8K ํ ํฐ)๋ฅผ ๊ฒ์ํ์ฌ "์ค๊ฐ ์์ค" ๋ฌธ์ ๋ฅผ ํผํฉ๋๋ค. ๋ชจ๋ธ์ด ์ ์ฒด ๋ฌธ์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ฑฐ๋ ์น์ ๊ฐ์ ์ ํํ ์์์ ๊ด๊ณ๊ฐ ์ค์ํ ๊ฒฝ์ฐ์๋ ๊ธด ์ปจํ ์คํธ๊ฐ ๋ ์ ํฉํฉ๋๋ค. ๋๋ถ๋ถ์ ์ค์ฉ์ ์ธ ๋ฌธ์ Q&A์์๋ RAG๋ก ์์ํ์ญ์์ค.
์ถ์ฒ
- ์ค๊ฐ ์์ค: ์ธ์ด ๋ชจ๋ธ์ด ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ -- Liu et al., 2023
- Ollama ์ปจํ ์คํธ ๊ธธ์ด ์ค์ -- Ollama ๋ฌธ์
- Llama 3.3 ๊ธฐ์ ๋ณด๊ณ ์ -- Meta AI, 2024
- EU AI Act ๊ณต์ ํ ์คํธ -- ์ ๋ฝ ์ํ, 2024