Key Takeaways
- CPU ์ ์ฉ (GPU ์์): Phi-4 Mini 3.8B, ์ด๋น 5โ15 ํ ํฐ. ์ฑํ ๋ฐ ์์ฝ์ ์ํ ์ต๊ณ ์ CPU ์ต์ .
- VRAM 4 GB: TinyLlama 1.1B Q5, ์ด๋น 20โ40 ํ ํฐ. ๋น ๋ฅธ ์๋ต, ๊ฐ๋จํ ์์ .
- VRAM 6 GB: Phi-4 Mini Q5, ์ด๋น 15โ30 ํ ํฐ. ๊ฒฝ๋ ์ฝ๋ฉ ๋ฐ ์ฑํ .
- VRAM 8 GB (์ต์ ์ง์ ): Mistral Small Q4, ์ด๋น 25โ60 ํ ํฐ. ์ํํ ์์ ์ด์์คํดํธ ๊ฒฝํ.
- 16 GB ์ด์: 13B ๋ชจ๋ธ Q4, ์ด๋น 20โ50 ํ ํฐ. ๊ณ ๋์ด๋ ์์ ์ ์ํ ๋์ ํ์ง.
- ์๋ ์์ (๋น ๋ฆ์์ ๋๋ฆผ): 4GB GPU > 8GB GPU > 16GB+ > 6GB GPU > CPU.
- ํ์ง ์์: 13B > Mistral Small = Llama 3.3 8B > Phi-4 Mini > TinyLlama 1B.
- ๋น์ฉ: ๋ชจ๋ ๋ฌด๋ฃ (์คํ ์์ค) vs. ChatGPT API (1K ํ ํฐ๋น ์ฝ $0.002).
ํ๋์จ์ด์ ๋ง๋ ๊ฐ์ฅ ๋น ๋ฅธ ๋ชจ๋ธ์ ๋ฌด์์ ๋๊น?
ํ๋์จ์ด์ ๋ง๋ ๋ชจ๋ธ์ ์ ํํ์ธ์ โ ์๋ชป๋ ์ ํ์ 10โ30๋ฐฐ์ ์๋ ์์ค์ ์ด๋ํฉ๋๋ค.
| ํ๋์จ์ด | ๊ถ์ฅ ๋ชจ๋ธ | ์์ ์๋ |
|---|---|---|
| CPU ์ ์ฉ (GPU ์์) | Phi-4 Mini Q4 | ์ด๋น 5โ15 ํ ํฐ |
| VRAM 4 GB (ํ์ง) | TinyLlama 1B Q5 | ์ด๋น 20โ40 ํ ํฐ |
| VRAM 4 GB (์๋) | Gemma 3 2B Q5 | ์ด๋น 30โ50 ํ ํฐ |
| VRAM 6 GB | Phi-4 Mini Q5 | ์ด๋น 15โ30 ํ ํฐ |
| VRAM 8 GB | Mistral Small Q4 | ์ด๋น 25โ60 ํ ํฐ |
| 16 GB ์ด์ | 13B ๋ชจ๋ธ Q4 | ์ด๋น 20โ50 ํ ํฐ |
์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ ํฉ๋๊น?
์ํฉ์ ๋ง๋ ๋ชจ๋ธ์ ์ ํํ์ธ์ โ ์ด๊ฒ์ด ๊ฐ์ฅ ์ค์ํ ๊ฒฐ์ ์ ๋๋ค:
- RAM 8 GB ๋ ธํธ๋ถ (๋ ๋ฆฝ GPU ์์): Mistral Small Q4 โ CPU ์ ์ฉ ์ถ๋ก ์์ ์๋์ ํ์ง์ ์ต์ ๊ท ํ.
- RAM 16 GB: Llama 3.3 8B Q5 โ Q4๋ณด๋ค ๋์ ํ์ง, ์ฌ์ ์๊ฒ ์ ํฉ.
- ๊ตฌํ PC (RAM 4 GB ์ดํ): TinyLlama 1B Q5 ๋๋ Phi-4 Mini Q4 โ ์ด ํฐ์ด์์ ์ ์ผํ๊ฒ ์ค์ฉ์ ์ธ ์ต์ .
- ์ต๊ณ ์๋๋ฅผ ์ํ๋ ๊ฒฝ์ฐ: 3B ๋ชจ๋ธ (Phi-4 Mini, Llama 3.2 3B) โ ์ต์ GPU์์ ์ด๋น 60โ120 ํ ํฐ.
- ํ์ง์ ์ํ๋ ๊ฒฝ์ฐ: 7B Q5 (Mistral Small Q5 ๋๋ Llama 3.3 8B Q5) โ VRAM 8 GB ์ดํ์์ ์ต๊ณ ํ์ง.
ํ๋์จ์ด์ ๋ง๋ ๋ก์ปฌ LLM์ ๋ฌด์์ ๋๊น?
VRAM์ Q4๋ก ๋ค์ด๊ฐ ์ ์๋ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ ์ ํํ ํ, ๋ ์์ ๋ชจ๋ธ๋ก ์ ํํ๊ธฐ ์ ์ ๋ ๋ฎ์ ์์ํ๋ก ์ค์ด์ญ์์ค. ์์ํ๋ ๋ชจ๋ธ ํฌ๊ธฐ ๊ฐ์๋ณด๋ค ํ์ง ์ ํ๊ฐ ์ ์ต๋๋ค.**
| ํ๋์จ์ด | ๋ชจ๋ธ | ์์ํ | ์๋ | ๊ฒฝํ |
|---|---|---|---|---|
| CPU ์ ์ฉ | Phi-4 Mini | Q4 | ์ด๋น 5โ15 ํ ํฐ | ๋๋ฆฌ์ง๋ง ์ฌ์ฉ ๊ฐ๋ฅ |
| 4 GB GPU | TinyLlama 1B | Q5 | ์ด๋น 20โ40 ํ ํฐ | ๋น ๋ฅธ ๊ฐ๋จํ ์์ |
| 6 GB GPU | Phi-4 Mini | Q5 | ์ด๋น 15โ30 ํ ํฐ | ์ ์ ํจ |
| 8 GB GPU | Mistral Small | Q4 | ์ด๋น 25โ60 ํ ํฐ | ์ํํจ |
| 16 GB ์ด์ | 13B ๋ชจ๋ธ | Q4 | ์ด๋น 20โ50 ํ ํฐ | ๊ฐ๋ ฅํจ |
์ ์ฌ์ ํ๋์จ์ด์์ GPU์ CPU ์ค ์ด๋ ๊ฒ์ด ๋ ๋น ๋ฆ ๋๊น?
GPU ์ถ๋ก : RTX 3060์์ ์ด๋น 15โ20 ํ ํฐ. CUDA ์ค์ ํ์. ๋น ๋ฅด๊ณ ์ต๊ณ ํ์ง. ๋น์ฉ ํจ์จ์ ์ธ ์ต์ ์ ์์ฐ GPU ๊ฐ์ด๋๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
iGPU (๋ด์ฅํ): Intel Iris์์ ์ด๋น 5โ8 ํ ํฐ. ์ค์ ๋ถํ์. ๋ ๋ฆฝ GPU๋ณด๋ค ๋๋ฆผ.
CPU ์ถ๋ก : ์ต์ ๋ฉํฐ์ฝ์ด์์ ์ด๋น 1โ5 ํ ํฐ. ์ด๋์๋ ์คํ ๊ฐ๋ฅ. ๊ฐ์ฅ ๋๋ฆผ.
๊ท์น: GPU๊ฐ ์๋ค๋ฉด (๋ด์ฅ GPU๋ผ๋) ์ฌ์ฉํ์ญ์์ค. CPU๋ ์ตํ์ ์๋จ์ ๋๋ค.
์ ์ฌ์ PC์์ ์ํ ๋ชจ๋ธ์ด ๋ ๋น ๋ฅธ ์ด์
๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์๋๋ฅผ ์ง์ ๊ฒฐ์ ํฉ๋๋ค. 1Bโ3B ๋ชจ๋ธ์ ์์คํ RAM์ ์์ ํ ์ ํฉํ์ฌ CPU ๋๋ GPU๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฐ์์ ์ผ๋ก ์คํธ๋ฆฌ๋ฐํ ์ ์์ต๋๋ค. ๋ํ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ค์์ด ํ์ํฉ๋๋ค โ RAM๊ณผ ๋์คํฌ ์ฌ์ด์์ ๋ฐ์ดํฐ๋ฅผ ์ด๋์ํค๋ ์์ ์ผ๋ก, ์์ฑ ์๋๊ฐ 10โ100๋ฐฐ ๋๋ ค์ง๋๋ค (๋ณ๋ชฉ ํ์์ ๊ณ์ฐ์ด ์๋ ๋์คํฌ I/O์ ๋๋ค).
์์ ํ๋์จ์ด ๊ฒฐ์ ํ๋ ์ด ์์น์ ๋ฐ์ํฉ๋๋ค: TinyLlama 1.1B (1B ๋งค๊ฐ๋ณ์)๋ ๊ตฌํ CPU์์ ์ด๋น 5โ10 ํ ํฐ์ ๋๋ฌํ๋ ๋ฐ๋ฉด, 13B ์ด์ ๋ชจ๋ธ์ ์ค์์ด ์ง๋ฐฐ์ ์ด์ด์ ์ ์ฌ์ ํ๋์จ์ด์์๋ ์ค์ฉ์ ์ด์ง ์์ต๋๋ค.
- 1Bโ3B ๋ชจ๋ธ: RAM 4โ8 GB์ ์ ํฉ โ ๊ฐ์ฅ ๋น ๋ฅธ ์์ฑ โ ํ์ฉ ๊ฐ๋ฅํ ํ์ง
- 7B ๋ชจ๋ธ: 8 GB ์์คํ ์์ ๊ฒฝ๊ณ์ โ ๋ฉ๋ชจ๋ฆฌ ์๋ฐ์ผ๋ก ์ธํด ๋๋ฆผ โ ๋์ ํ์ง
- 13B ์ด์ ๋ชจ๋ธ: VRAM 16 GB ์ด์ ํ์ ๋๋ ๊ณผ๋ํ ์ค์ โ ๋ํํ ์ฌ์ฉ์ ๋๋ฌด ๋๋ฆผ
์ ์ฌ์ PC์์ ๋ก์ปฌ LLM์ ์ผ๋ง๋ ๋น ๋ฆ ๋๊น?
CPU ์ ์ฉ ์์คํ ์์๋ ๋ค์์ ๊ธฐ๋ํ ์ ์์ต๋๋ค:
- 3B ๋ชจ๋ธ โ ์ด๋น 15โ40 ํ ํฐ (๊ตฌํ CPU: 10โ15, ์ต์ ํ๋ ์ต์ CPU: 30โ40)
- 7B ๋ชจ๋ธ โ ์ด๋น 10โ25 ํ ํฐ (CPU ์ฝ์ด ์์ ์์ํ์ ๋ฐ๋ผ ๋ค๋ฆ; ์ ๊ทน์ ์ธ ์ต์ ํ๋ก ์ผ๋ถ๋ 30 ์ด์์ ๋๋ฌ)
- ์ด๋ ํด๋ผ์ฐ๋ API๋ณด๋ค ๋๋ฆฌ์ง๋ง (ChatGPT 4o: ์ด๋น 80โ150 ํ ํฐ) ๋ํํ ์ฌ์ฉ์๋ ์ถฉ๋ถํฉ๋๋ค. ์ด๋น 25 ํ ํฐ์ 3B ๋ชจ๋ธ์ 500 ํ ํฐ ์๋ต์ 20์ด์ ์์ฑํฉ๋๋ค โ ์ฝ๋ ๊ฒํ , ์์ฝ, ์ฐฝ์ ๊ธ์ฐ๊ธฐ์ ๊ฐ์ ๋น์๊ฐ ์ค์ ์์ ์๋ ํ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
์์ํ๋ ์ ์ฌ์ PC์ ์๋์ ์ด๋ค ์ํฅ์ ๋ฏธ์นฉ๋๊น?
Q4 (4๋นํธ): ํ์ง ์์ค ์ฝ 1%, VRAM ์ ๊ฐ 50%. ํ์ค ์ ํ. ๋ชจ๋ ์์ํ ์์ค๊ณผ ์๋ ๋ฐฉ์์ ๋ํ ์์ธํ ๋ด์ฉ์ ์ ์ฒด ๊ฐ์ด๋๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
Q3 (3๋นํธ): ํ์ง ์์ค ์ฝ 3%, VRAM ์ ๊ฐ 62%. ์ฑํ ์ ํ์ฉ ๊ฐ๋ฅ.
Q2 (2๋นํธ): ํ์ง ์์ค ์ฝ 10%, VRAM ์ ๊ฐ 75%. ์ํํจ; OOM ์์๋ง ์ฌ์ฉ.
์๋ ์ํฅ: Q2๋ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๊ฐ์๋ก ์ธํด Q4๋ณด๋ค ์ฝ 30% ๋น ๋ฆ (๊ณ์ฐ ๋๋ฌธ์ด ์๋).
์ ๋ต: ์ํ ๋ชจ๋ธ (TinyLlama) ๋์ ๋ํ ๋ชจ๋ธ ์์ํ (Mistral Small Q2)๋ฅผ ์ฌ์ฉํ์ญ์์ค.
Mistral Small Q2 > TinyLlama 1.1B Q4 (์๋์ ํ์ง ๋ชจ๋).
๋น ๋ฅธ ๋ชจ๋ธ์ ์๋๋ฅผ ์ํด ํ์ง์ ํฌ์ํฉ๋๋ค โ ํ์ง๋ง temperature์ top-p๋ฅผ ์กฐ์ ํ๋ฉด ํ์ง ์์ค์ ๋ง์ด ํ๋ณตํ ์ ์์ต๋๋ค. ๋น ๋ฅธ ๋ชจ๋ธ์์ ๋ฎ์ temperature (0.1โ0.3)๋ ๊ธฐ๋ณธ ์ค์ ๋ณด๋ค ๋ ์ผ๊ด๋ ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค. ์ ํํ ์ค์ ์ temperature ๋ฐ top-p ์ค๋ช ์ ์ฐธ์กฐํ์ญ์์ค.
CPU ์ ์ฉ ์ถ๋ก ์๋๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ ๋๊น?
- AVX-512 ํ์ฑํ: CPU๊ฐ ์ง์ํ๋ ๊ฒฝ์ฐ `LLAMACPP_AVX512=1 ollama run phi`๋ฅผ ์ฌ์ฉํ์ญ์์ค. ์ฝ 20% ์๋ ํฅ์.
- ์ปจํ ์คํธ ์ฐฝ ์ค์ด๊ธฐ: ์งง์ ์ปจํ ์คํธ = ๋ ๋น ๋ฆ. 4096 ๋์ `--ctx-size 1024`๋ฅผ ์ฌ์ฉํ์ญ์์ค.
- **Ollama ๋์ llama.cpp ์ฌ์ฉ:** ์ค๋ฒํค๋๊ฐ ์ ์ด CPU์์ ์ฝ๊ฐ ๋ ๋น ๋ฆ (์ฝ 10% ํฅ์).
- ๋ฉํฐ์ค๋ ๋ฉ ๋นํ์ฑํ: ์ง๊ด์ ๋ฐํ์ง๋ง, ์ฝํ CPU์์๋ ์ฑ๊ธ์ค๋ ๋๊ฐ ๋ ๋น ๋ฆ ๋๋ค (์ค๋ ๋ ์ค๋ฒํค๋ ์์).
- iGPU๋ก ์คํ๋ก๋: ์ฝํ ๋ด์ฅ GPU๋ CPU๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. GPU ๊ฐ์ฉ์ฑ์ ํ์ธํ๋ ค๋ฉด `lspci`๋ฅผ ์คํํ์ญ์์ค.
์ด ๋ชจ๋ธ๋ค์ ์ผ๋ง๋ ๋น ๋ฆ ๋๊น? ์ค์ ๋ฒค์น๋งํฌ (2026๋ 4์)
ํ๋์จ์ด ํฐ์ด๋ณ ์ค์ ์ธก์ ๊ฐ, 2026๋ 4์. ๊ธฐ๋ณธ ์ค์ ์ Ollama๋ก ์คํ, ํ๋ ์์:
- CPU ์ ์ฉ (Ryzen 7 7700X) + Phi-4 Mini Q4: ์ด๋น 5โ15 ํ ํฐ.
- VRAM 4 GB (GTX 1650) + TinyLlama 1B Q5: ์ด๋น 20โ40 ํ ํฐ.
- VRAM 6 GB (RTX 2060) + Phi-4 Mini Q5: ์ด๋น 15โ30 ํ ํฐ.
- VRAM 8 GB (RTX 3060) + Mistral Small Q4: ์ด๋น 25โ60 ํ ํฐ.
- VRAM 16 GB ์ด์ (RTX 3080 / 4070) + 13B ๋ชจ๋ธ Q4: ์ด๋น 20โ50 ํ ํฐ. ๊ธด ๋ฌธ์์ ๊ฒฝ์ฐ Llama 4 Scout 8B (2026๋ 3์ ์ถ์, 1,000๋ง ์ปจํ ์คํธ ์ฐฝ)๋ฅผ `ollama run llama4:8b`๋ก ์๋ํด ๋ณด์ญ์์ค.
๋ก์ปฌ LLM์์ ์ค์ ๋ก "๋น ๋ฅด๋ค"๋ ๊ฒ์ ๋ฌด์์ ๋๊น?
์์ ์ ๋ฐ๋ผ ์๋ ์ฒด๊ฐ์ด ๋ค๋ฆ ๋๋ค โ ์ด๊ฒ์ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ์ญ์์ค:
๋ชจ๋ธ์ด ์ด๋น 15 ํ ํฐ ๋ฏธ๋ง์ผ๋ก ์คํ๋๋ฉด ์ ํ๋์จ์ด๋ฅผ ๊ตฌ๋งคํ๊ธฐ ์ ์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ฑฐ๋ (7B โ 3B) ์์ํ ์์ค์ ๋ฎ์ถ์ญ์์ค (Q5 โ Q4).
- ์ด๋น 10 ํ ํฐ ๋ฏธ๋ง โ ๊ณ ์ฅ๋ ๊ฒ์ฒ๋ผ ๋๊ปด์ง๋๋ค. ๋์ ๋๋ ๋ฉ์ถค๊ณผ ํจ๊ป ๋จ์ด๊ฐ ํ๋์ฉ ๋ํ๋ฉ๋๋ค. ๋ํํ ์ฑํ ์๋ ์ฌ์ฉ ๋ถ๊ฐ.
- ์ด๋น 15โ25 ํ ํฐ โ ํ์ฉ ๊ฐ๋ฅ. ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ์ฝ๊ธฐ ๊ฐ๋ฅํ ์๋. Q&A, ์์ฝ, ์ฝ๋ฉ ๋์์ ์ ํฉ.
- ์ด๋น 30 ํ ํฐ ์ด์ โ ์ํํจ. ์ค์ ์ด์์คํดํธ์ฒ๋ผ ๋๊ปด์ง๋๋ค. ๋ชจ๋ ๋ํํ ์์ ์ ํธ์ํฉ๋๋ค.
- ์ด๋น 60 ํ ํฐ ์ด์ โ ์ฆ๊ฐ์ . ์ฝ๋ ๊ฒ๋ณด๋ค ๋น ๋ฆ ๋๋ค. ์ค์๊ฐ ์๋ ์์ฑ ๋ฐ ๋น ๋ฅธ ๋ฐ๋ณต์ ์ด์์ .
์ ์ฌ์ PC์์ ํผํด์ผ ํ ๊ฒ๋ค
- 13B ์ด์ ๋ชจ๋ธ์ ์คํํ์ง ๋ง์ญ์์ค โ RAM ํ๊ณ๋ฅผ ์ด๊ณผํฉ๋๋ค. Q4์์ 13B ๋ชจ๋ธ์ VRAM 8โ10 GB๊ฐ ํ์ํ์ฌ ์ค์ฉ์ ์ธ ์ ์ฌ์ PC ์ฉ๋์ ์ด๊ณผํฉ๋๋ค. ์ ๊ทน์ ์ธ Q2 ์์ํ๋ก๋ 13B ๋ชจ๋ธ์ 5โ6 GB๊ฐ ํ์ํ์ฌ OS ๋ฐ GPU ์ค์ผ์ค๋ง ์ค๋ฒํค๋๋ฅผ ์ํ ๊ณต๊ฐ์ด ๋ถ์กฑํฉ๋๋ค. 7B ์ดํ๋ก ์ ์งํ์ญ์์ค.
- Q8 ์์ํ๋ฅผ ํผํ์ญ์์ค โ ์ต์ํ์ ํ์ง ํฅ์์ ๋นํด ๋ ๋๋ฆฝ๋๋ค. Q8์ Q4๋ณด๋ค ๊ฑฐ์ 2๋ฐฐ์ VRAM์ ์ฌ์ฉํ๋ฉด์ (Mistral Small์ ๊ฒฝ์ฐ 8 GB vs 5.5 GB) ํ์ง ํฅ์์ ์ฝ 2%์ ๋ถ๊ณผํฉ๋๋ค. 4 GB ์์คํ ์์ Q8์ ๋น์ค์ฉ์ ์ด๋ฉฐ, 8 GB ์์คํ ์์๋ Q4๊ฐ ์ต์ ์ ๋๋ค. Q4๊ฐ OOM์ ์ผ์ผํฌ ๋๋ง Q3๊ฐ ๊ณ ๋ คํ ๊ฐ์น ์๋ ํธ๋ ์ด๋์คํ์ ๋๋ค.
- ์ค์๊ฐ ์๋ ์์ฑ ์ฑ๋ฅ์ ๊ธฐ๋ํ์ง ๋ง์ญ์์ค. CPU์์ ์ด๋น 3 ํ ํฐ์ผ๋ก 50 ํ ํฐ์ ์์ฑํ๋ ๋ฐ 16์ด๊ฐ ๊ฑธ๋ฆฝ๋๋ค. ๋ํํ ์๋ ์์ฑ์๋ ์ด๋น 20 ํ ํฐ ์ด์์ด ํ์ํฉ๋๋ค. ์ ์ฌ์ CPU์ ๋ก์ปฌ LLM์ ๋ฐฐ์น ์ฑํ , ์ด์ ์์ฑ, ๊ฒํ ์๋ ์ ํฉํ์ง๋ง ์ค์๊ฐ ์๋ ์์ฑ์ด๋ ํ์ดํ ์ค ์ฝ๋ ์์ฑ์๋ ์ ํฉํ์ง ์์ต๋๋ค.
- CPU ์ ์ฉ ์ถ๋ก ์ ํ๋ก๋์ ์ฑ๋ด์ ์ฌ์ฉํ์ง ๋ง์ญ์์ค. ๋ด๋ถ ๋๊ตฌ, ํ๋กํ ํ์ , ์คํ๋ผ์ธ ๋ฐฐ์น ์์ ์๋ ํ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ํด๋ผ์ฐ๋ API (15โ20 ms ์ง์ฐ)๋ ์ฌ์ฉ์ ๋๋ฉด ์๋น์ค์์ ์ ์ฌ์ CPU (300 ms ์ด์ ์ง์ฐ)๋ณด๋ค ์ฐ์ํฉ๋๋ค. ์๋๊ฐ ์ค์ํ ์ํฉ์ด ์๋ ๊ฐ์ธ์ ๋ณด ๋ณดํธ๊ฐ ์ค์ํ๊ฑฐ๋ ์คํ๋ผ์ธ ์๋๋ฆฌ์ค์์ ๋ก์ปฌ ์ถ๋ก ์ ์ฌ์ฉํ์ญ์์ค.
์ผ๋ฐ์ ์ธ ์ค์
- ์ค์: ๋ ๋น ๋ฅธ ์๋๋ฅผ ์ํด CPU์์ TinyLlama๋ฅผ ์ฌ์ฉ. ๋ฌธ์ : TinyLlama๋ CPU๊ฐ ์๋ VRAM 4 GB์ฉ โ Phi-4 Mini 3.8B๋ CPU ์ ์ฉ ํ๋์จ์ด์์ ๋ ๋น ๋ฅด๊ณ ํจ์ฌ ์ฐ์ํฉ๋๋ค. ํด๊ฒฐ์ฑ : CPU์์ Phi-4 Mini 3.8B๋ฅผ ์คํํ๊ณ , VRAM 4 GB์๋ TinyLlama Q5๋ฅผ ์ ์งํ์ญ์์ค.
- ์ค์: CPU ๊ฐ์ ํ๋๊ทธ๋ฅผ ํ์ฑํํ์ง ์์. ๋ฌธ์ : AVX/NEON์ ๋์น๋ฉด ๋น์ฉ ์์ด 20% ์๋ ํฅ์์ ๋์นฉ๋๋ค. ํด๊ฒฐ์ฑ : Ollama ์คํ ์ ์ `LLAMACPP_AVX512=1` ๋๋ `LLAMACPP_NEON=1`์ ์ค์ ํ์ญ์์ค.
- ์ค์: 7B๋ฅผ 4GB์ ๋ฃ๊ธฐ ์ํด Q2๋ก ์์ํ. ๋ฌธ์ : Q2 ์์ํ๋ ์ถ๋ก ์ค KV ์บ์ ์ค๋ฒํค๋๋ก ์ธํ ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ ์ถฉ๋์ ์์ฃผ ์ผ์ผํต๋๋ค. ํด๊ฒฐ์ฑ : ๋์ Q4์ 3B ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค.
- ์ค์: ์ต์ ํ๋์จ์ด๊ฐ ํญ์ ๋ ๋น ๋ฅธ ์ถ๋ก ์ ์๋ฏธํ๋ค๊ณ ๊ฐ์ . ๋ฌธ์ : ๋ฐ์คํฌํฑ Ryzen์ ๋ฐ์คํฌํฑ ์ํํธ์จ์ด์ ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ฐ์ผ ARM๋ณด๋ค ํ ํฐ๋น ์๋๊ฐ ๋น ๋ฅด์ง ์์ต๋๋ค. ํด๊ฒฐ์ฑ : ์ค์ ํ๋์จ์ด๋ฅผ ๋ฒค์น๋งํฌํ์ญ์์ค.
- ์ค์: ๋ชจ๋ธ์ ์๋ชป๋ Ollama ์ฌ๋ฌ๊ทธ ์ฌ์ฉ. ๋ฌธ์ : `ollama run phi`๋ Phi-4 Mini๊ฐ ์๋ Phi-2๋ฅผ ๋ถ๋ฌ์ต๋๋ค. ํด๊ฒฐ์ฑ : ์ต์ Phi ๋ชจ๋ธ์๋ `ollama run phi4-mini`๋ฅผ ์ฌ์ฉํ์ญ์์ค. ์ ํํ ๋ชจ๋ธ ํ๊ทธ๋ ํญ์ ollama.com/library๋ฅผ ํ์ธํ์ญ์์ค.
์ ์ฌ์ PC์ ๋ก์ปฌ LLM: ์ง์ญ๋ณ ์ํฉ
EU / GDPR: ์ ์ฌ์ ํ๋์จ์ด์์ ๋ก์ปฌ LLM์ ์คํํ๋ ๊ฒ์ ๊ฐ์ธ ๋ฐ ์ค์๊ธฐ์ ์๊ฒ ๊ฐ์ฅ GDPR ์ค์์ ์ธ ๋ฐฐํฌ ํจํด์ ๋๋ค โ ๋ฐ์ดํฐ๊ฐ ๊ธฐ๊ธฐ๋ฅผ ๋ ๋์ง ์์ต๋๋ค. EU AI ๋ฒ (2025๋ 2์ ๋ฐํจ)์ ๊ฐ์ธ ์ฌ์ฉ ์ถ๋ก ์ ๋ฌธ์ํ ์๊ตฌ ์ฌํญ์ ๋ถ๊ณผํ์ง ์์ต๋๋ค. ๋ด๋ถ ๋น์ฆ๋์ค ์์ ์ ๋ก์ปฌ LLM์ ์ฌ์ฉํ๋ ๋ ์ผ ์ค์๊ธฐ์ ์ ๊ฒฝ์ฐ, BSI-Grundschutz๋ ๋ฏผ๊ฐํ ๋ฌธ์ ์ฒ๋ฆฌ์ ๋ก์ปฌ ์ถ๋ก ์ ๊ถ์ฅํฉ๋๋ค.
์ผ๋ณธ: METI AI ๊ฑฐ๋ฒ๋์ค ๊ฐ์ด๋๋ผ์ธ์ ๋ฐ์ดํฐ ์ต์ํ๋ฅผ ์ฅ๋ คํฉ๋๋ค. ์ ์ฌ์ ํ๋์จ์ด์์์ CPU ์ถ๋ก ์ ๋๋ฆฌ์ง๋ง, ๊ฐ์ฅ ์๊ฒฉํ ๋ฐ์ดํฐ ์ฃผ๊ถ ์๊ตฌ ์ฌํญ์ ์ถฉ์กฑํฉ๋๋ค โ API ํธ์ถ ์์, ๋ก๊น ์์, ์ 3์ ๋ฐ์ดํฐ ์ ๊ทผ ์์. ์ผ๋ณธ์ด ์์ ์ ์ํด CPU์์ Qwen3์ ์คํํ๋ ์ผ๋ณธ ์ฌ์ฉ์์ ๊ฒฝ์ฐ, ๋น์๊ฐ ์ค์ ๋ฌธ์ ์์ฝ์๋ ์ด๋น 1โ3 ํ ํฐ์ ์ฒ๋ฆฌ๋์ผ๋ก ์ถฉ๋ถํฉ๋๋ค.
์ค๊ตญ: ๋น์ค๊ตญ ๋ชจ๋ธ ํด๋ผ์ฐ๋ API ์ ๊ทผ์ด ์ ํ๋ ์ค๊ตญ์์๋ ์๋น์ ํ๋์จ์ด์์์ ๋ก์ปฌ ์ถ๋ก ์ด Qwen3 ๋ฐ DeepSeek-R1 ๋ฐฐํฌ์ ์ผ๋ฐ์ ์ ๋๋ค. Qwen3 1.5B ๋ฐ 3B๋ CPU ์ ์ฉ ํ๋์จ์ด์์ ์คํ๋์ด, ์ ํ๋ ํ๋์จ์ด๋ฅผ ๊ฐ์ง ์ฌ์ฉ์์๊ฒ ํด๋ผ์ฐ๋ API์ ์ค์ฉ์ ์ธ ๋์์ ์ ๊ณตํฉ๋๋ค.
์ ์ฌ์ PC์์ ๋ก์ปฌ LLM ์คํ์ ๊ดํ ์์ฃผ ๋ฌป๋ ์ง๋ฌธ
๋ก์ปฌ LLM ์คํ์ ์ํ ์ ์ฌ์ PC์ ๊ธฐ์ค์ ๋ฌด์์ ๋๊น?
๋ก์ปฌ LLM์ ์ํ ์ ์ฌ์ PC๋ ์ ์ฉ VRAM์ด 8GB ๋ฏธ๋ง์ด๊ฑฐ๋ CPU ์ ์ฉ ์์คํ ์ ๋๋ค. ์ฌ๊ธฐ์๋ Intel Iris ๋๋ AMD Radeon ๋ด์ฅ ๊ทธ๋ํฝ์ด ์๋ ๋๋ถ๋ถ์ ๋ ธํธ๋ถ, GTX 1060 ์ดํ GPU๊ฐ ์๋ ๋ฐ์คํฌํฑ PC, Chromebook์ด ํฌํจ๋ฉ๋๋ค. ํต์ฌ ์ ์ฝ์ CPU ์๋๊ฐ ์๋๋ผ ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ๋ณด์ ํ๋ ๋ฐ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฉ๋ชจ๋ฆฌ์ ๋๋ค.
4GB GPU์์ Mistral Small์ ์คํํ ์ ์์ต๋๊น?
Q2 ์์ํ์์๋ ๊ฐ๋ฅํฉ๋๋ค. Q4์์๋ ๋ถ๊ฐ๋ฅํฉ๋๋ค (OOM ์ถฉ๋). Q2๋ ํ์ฉ ๊ฐ๋ฅํ ํ์ง ์์ค์ด ์์ต๋๋ค (~5-10% ๋ฎ์ MMLU ์ ์), ํ์ง๋ง ์๋๋ 30% ์ฆ๊ฐํฉ๋๋ค. ์ด๋ ์ ํ๋ VRAM์ ๊ฐ์ง ์ฌ์ฉ์์๊ฒ ์ค์ฉ์ ์ธ ํธ๋ ์ด๋์คํ์ ๋๋ค.
CPU ์ถ๋ก ์ ์ฑ๋ด์ ์ฌ์ฉํ ์ ์์ต๋๊น?
์, ๋ฎ์ ์ฒ๋ฆฌ๋ ๋น๋๊ธฐ ์๋๋ฆฌ์ค์์๋ ๊ฐ๋ฅํฉ๋๋ค. ์ด๋น 3 ํ ํฐ์ผ๋ก 100 ํ ํฐ ์๋ต์๋ ์ฝ 3๋ถ์ด ๊ฑธ๋ฆฝ๋๋ค. ์ด๋ ๋ํํ ๋ํ์๋ ์ฌ์ฉ ๋ถ๊ฐํ์ง๋ง ์ผ๊ฐ ๋ฐฐ์น ์ฒ๋ฆฌ๋ ์ด๋ฉ์ผ ์ด์ ์์ฑ๊ณผ ๊ฐ์ ๋น์ค์๊ฐ ์์ ์๋ ํ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
CPU์์ Phi-4 Mini์ TinyLlama 1.1B ์ค ์ด๋ ๊ฒ์ ์ฌ์ฉํด์ผ ํฉ๋๊น?
Phi-4 Mini 3.8B๊ฐ CPU ์ ์ฉ ์์คํ ์ ๋ ๋์ ์ ํ์ ๋๋ค โ ์ด๋น 5โ15 ํ ํฐ์ ๋๋ฌํ๊ณ TinyLlama๋ณด๋ค ํจ์ฌ ๋์ ์ถ๋ ฅ ํ์ง์ ์ ๊ณตํฉ๋๋ค. TinyLlama 1.1B Q5๋ VRAM 4 GB (์ด๋น 20โ40 ํ ํฐ)์ ์ต์ ํ๋์ด ์์ผ๋ฉฐ, CPU ์ ์ฉ ์ถ๋ก ์๋ ์ ํฉํ์ง ์์ต๋๋ค.
GPU๊ฐ CUDA๋ฅผ ์ง์ํ๋์ง ์ด๋ป๊ฒ ํ์ธํฉ๋๊น?
ํฐ๋ฏธ๋์์ `nvidia-smi`๋ฅผ ์คํํ์ญ์์ค. GPU ์ ๋ณด๊ฐ ์ถ๋ ฅ๋๋ฉด CUDA๋ฅผ ์ง์ํฉ๋๋ค. "command not found" ๋๋ "no NVIDIA GPU"๊ฐ ๋ฐํ๋๋ฉด ๋ด์ฅ GPU ๋๋ผ์ด๋ฒ์ ๋ํ Intel/AMD ๋ฌธ์๋ฅผ ํ์ธํ์ญ์์ค.
์์ํ๋ ์ถ๋ก ์๋์ ์ด๋ค ์ํฅ์ ๋ฏธ์นฉ๋๊น?
์์ํ๋ ์ฃผ๋ก ๊ณ์ฐ์ด ์๋ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ์๊ตฌ ์ฌํญ์ ์ค์ ๋๋ค. Q2 (2๋นํธ)๋ ๋ชจ๋ธ์ด ์์ ํ๋น ๋ ์ ์ ๋ฐ์ดํธ๋ฅผ ๋ก๋ํ๊ธฐ ๋๋ฌธ์ Q4 (4๋นํธ)๋ณด๋ค ์ฝ 30% ๋น ๋ฆ ๋๋ค. ํ์ง๋ง Q2๋ ์ฝ 10% ํ์ง ์์ค์ด ์์ต๋๋ค. ์ค์ฉ์ ๊ท์น: Q4๋ฅผ ๊ธฐ๋ณธ์ผ๋ก ์ฌ์ฉํ๊ณ , Q4์์ ์ฌ์ฉ ๊ฐ๋ฅํ VRAM์ ๋ชจ๋ธ์ ๋ง์ถ ์ ์์ ๋๋ง Q2๋ก ๋ฎ์ถ์ญ์์ค.
Q2 ๋ฏธ๋ง์ ์์ํ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๊น?
๊ธฐ์ ์ ์ผ๋ก ๊ฐ๋ฅํ์ง๋ง (Q1), ํ์ง์ด ์น๋ช ์ ์ผ๋ก ์ ํ๋ฉ๋๋ค โ ์ ํ๋ ์์ค์ด ์ต๋ 30%. ์ด๋ ํ ์ค์ฉ์ ์ธ ์ฌ์ฉ ์ฌ๋ก์๋ ๊ถ์ฅํ์ง ์์ต๋๋ค.
CPU + GPU ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก ์ด ์ง์๋ฉ๋๊น?
์, ๋ ์ด์ด ์คํ๋ก๋ฉ์ ํตํด ๊ฐ๋ฅํฉ๋๋ค. llama.cpp์์ `--n-gpu-layers 10`์ ์ฌ์ฉํ์ฌ ์ฒ์ 10๊ฐ ๋ ์ด์ด๋ฅผ GPU๋ก ์คํ๋ก๋ํ๊ณ ๋๋จธ์ง๋ CPU์ ์ ์งํ ์ ์์ต๋๋ค. ์ด ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ ์ ํ๋ VRAM์์ GPU์ ๊ฐ๊น์ด ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ฐ์ฅ ๋น ๋ฅธ ๋ก์ปฌ LLM์ ๋ฌด์์ ๋๊น?
๊ฐ์ฅ ๋น ๋ฅธ ๋ชจ๋ธ์ Llama 3.2 3B์ ๊ฐ์ 1Bโ3B ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ๋ก, ์ต์ ํ๋ ์ต์ CPU์์ ์ด๋น 15โ40 ํ ํฐ, GPU ๊ฐ์์ผ๋ก ์ด๋น 40โ60 ํ ํฐ์ ๋๋ฌํ ์ ์์ต๋๋ค. ์๋๋ ๋ชจ๋ธ ์ ํ๋ณด๋ค ํ๋์จ์ด์ ๋ ๋ง์ด ์์กดํฉ๋๋ค โ GPU์ 7B (์ด๋น 25โ40 ํ ํฐ)๋ CPU์ 3B (์ด๋น 10โ25 ํ ํฐ)๋ณด๋ค ๋น ๋ฆ ๋๋ค.
RAM 4 GB์์ ๋ก์ปฌ LLM์ ์คํํ ์ ์์ต๋๊น?
์ โ 1B ๋ชจ๋ธ์ 4 GB ์์คํ ์์ ํธ์ํ๊ฒ ์คํ๋ฉ๋๋ค (๋ชจ๋ธ๋น 1โ1.3 GB + OS ๋ฐ ์ฌ์ ๊ณต๊ฐ์ ์ํด 2โ3 GB). ๋ ํฐ ๋ชจ๋ธ์ ๋ ๋ง์ด ํ์ํฉ๋๋ค: 3B๋ 2โ3 GB, 7B๋ Q4์์ 5.5โ8 GB๊ฐ ํ์ํฉ๋๋ค. 4 GB ์์คํ ์์๋ Llama 3.2 1B ๋๋ TinyLlama 1.1B๊ฐ ์ค์ฉ์ ์ธ ์ ํ์ด์ง๋ง, ํ์ง์ ์ ํ๋ฉ๋๋ค.
์๋๋ฅผ ์ํด GPU๊ฐ ํ์ํฉ๋๊น?
์๋์, ํ์ง๋ง GPU๋ ์๋๋ฅผ ํฌ๊ฒ ํฅ์์ํต๋๋ค. CPU ์ ์ฉ ์์คํ ์ ์ต์ ํ๋ฅผ ํตํด 3B ๋ชจ๋ธ์์ ์ด๋น 10โ25 ํ ํฐ์ ๋๋ฌํ ์ ์์ผ๋ฉฐ, GPU๋ ์ด๋น 25โ60 ํ ํฐ์ ๋๋ฌํฉ๋๋ค. CPU ์ ์ฉ ์ฌ์ฉ์์๊ฒ๋ ์ํ ๋ชจ๋ธ (1Bโ3B)์ด ํ์์ ์ ๋๋ค. GPU๋ 7B ์ด์ ๋ชจ๋ธ์์ ๋ํํ ์๋๊ฐ ํ์ํ ๋๋ง ํ์ํฉ๋๋ค.
์ถ์ฒ
- Phi-4 Mini ๋ชจ๋ธ ์นด๋ โ Microsoft Research. MMLU 68%, HumanEval 70%. 2025๋ ์ถ์.
- Gemma 3 ๋ชจ๋ธ ์นด๋ โ Google DeepMind. 128K ์ปจํ ์คํธ ์ฐฝ์ Gemma 3 2B. 2025๋ ์ถ์.
- Llama 4 Scout 8B โ Meta. 1,000๋ง ์ปจํ ์คํธ ์ฐฝ, 2026๋ 3์ ์ถ์.
- TinyLlama 1.1B ์ ์ฅ์ โ Stability AI. 2024๋ ํ๋ จ ์๋ฃ. ๋ชจ๋ธ ์์ ์ , ๋ ์ด์ ์ ๋ฐ์ดํธ ์์. VRAM 4 GB ํฐ์ด์ ์ฌ์ ํ ๊ถ์ฅ.
- llama.cpp CPU ์ต์ ํ ๊ฐ์ด๋ โ AVX-512, NEON ๋ฐ ์ค๋ ๋ ๊ตฌ์ฑ์ ํฌํจํ CPU ๊ฐ์ ํ๋๊ทธ.