Key Takeaways
- CPU ์ ์ฉ ์ถ๋ก ์ 8~32GB RAM์ ํ์ฌํ ์ต์ ํ๋ก์ธ์์์ 3~13B ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ์คํํฉ๋๋ค.
- ์ต๊ณ ์ CPU ๋ชจ๋ธ: Phi-4 Mini(3.8B, 2.3GB, 12ํ ํฐ/์ด), Gemma 3 2B(1.5GB, 15ํ ํฐ/์ด), Llama 3.2 3B(2GB, 10ํ ํฐ/์ด).
- CPU ์ถ๋ก ์ GPU๋ณด๋ค 10~30๋ฐฐ ๋๋ฆฌ์ง๋ง ์ ์ฉ VRAM์ ์ ํ ์ฌ์ฉํ์ง ์์ต๋๋ค.
- Ollama ๋๋ llama.cpp์์ ๊ฐ๋จํ ๋ช ๋ น์ค ์ต์ ์ผ๋ก CPU ์ ์ฉ ๋ชจ๋๋ฅผ ํ์ฑํํ์ญ์์ค.
- CPU ์ถ๋ก ์ ํ๋ก๋์ API(GPU ์ค๋ฒํค๋ ์์), ์ฃ์ง ๋๋ฐ์ด์ค, ๋น์ฉ ์ ์ฝ ํ๊ฒฝ์ ์ด์์ ์ ๋๋ค.
CPU๋ก LLM์ ์คํํ ์ ์์ต๋๊น?
์, ์ต์ CPU(Intel i7 10์ธ๋ ์ด์, AMD Ryzen 5000 ์ด์, Apple M ์๋ฆฌ์ฆ)๋ 3~13B ๋ชจ๋ธ์ ์ด๋น 8~15ํ ํฐ์ผ๋ก ์คํํ ์ ์์ต๋๋ค. GPU๋ณด๋ค 10~30๋ฐฐ ๋๋ฆฌ์ง๋ง ์ ์ฉ VRAM์ด ํ์ํ์ง ์์ต๋๋ค. ์ถฉ๋ถํ ์์คํ RAM(8~32GB)์ ๊ฐ์ถ CPU๋ $300 ์ด์์ GPU๊ฐ ํ์ํ ๋ชจ๋ธ์ ์คํํ ์ ์์ต๋๋ค.
CPU ์ถ๋ก ์ ์๋๋ฅผ ์ ๊ทผ์ฑ๊ณผ ๊ตํํฉ๋๋ค. GPU ์ค๋ฒํค๋ ์์, ์๋ฒฝํ ์์ ์ฑ, ๋๋ผ์ด๋ฒ ๋ฌธ์ ์์์ด ์ฅ์ ์ ๋๋ค. ์ผ์์ ์ธ ์ฌ์ฉ ์ฌ๋ก(์ด๋น ๋ช ๊ฑด์ ์์ฒญ์ ์๋ตํ๋ ์ฑ๋ด, ์คํ๋ผ์ธ ๋ฌธ์ ์ฒ๋ฆฌ)์์ CPU ์ ์ฉ์ ์ค์ฉ์ ์ ๋๋ค.
์ต์ CPU์๋ ํ๋ ฌ ์ฐ์ฐ์ ๊ฐ์ํ๋ AVX-512 ๋๋ NEON/SVE ๋ฒกํฐ ๋ช ๋ น์ด๊ฐ ํ์ฌ๋์ด ์์ต๋๋ค. llama.cpp ๋ฐ Ollama์ ๊ฐ์ ๋๊ตฌ๊ฐ ์ด๋ฅผ ์๋์ผ๋ก ํ์ฉํ์ฌ CPU ์ถ๋ก ์๋๋ฅผ ๋จ์ ๊ตฌํ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ๋ง๋ญ๋๋ค.
2026๋ ์ต๊ณ ์ CPU ์ ์ฉ ๋ชจ๋ธ
์๋ ํ๋ CPU ์ ์ฉ ๋ชจ๋์ Intel i7-12700(12์ฝ์ด, AVX-512)์์ ์ฑ๋ฅ ์์ผ๋ก ๋ชจ๋ธ์ ์ ๋ ฌํ ๊ฒ์ ๋๋ค.
| ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ | GGUF ํฌ๊ธฐ | ํ์ RAM | CPU ์๋ | ์ต์ ์ฉ๋ |
|---|---|---|---|---|---|
| Phi-4 Mini | 3.8B | ~2.3 GB | 4 GB | 12ํ ํฐ/์ด | ์ผ๋ฐ ์ฑํ , ์ฝ๋ ์ง์ |
| Gemma 3 2B | 2B | ~1.5 GB | 3 GB | 15ํ ํฐ/์ด | ๋น ๋ฅธ ์๋ต, ๋ฎ์ VRAM |
| Llama 3.2 3B | 3B | ~2 GB | 3.5 GB | 10ํ ํฐ/์ด | ํ์ง/์๋ ๊ท ํ |
| Mistral Small Q4 | 7B | ~4.5 GB | 6 GB | 5ํ ํฐ/์ด | ๋์ ํ์ง, 16GB ์ด์ RAM |
| Llama 3.3 8B Q4 | 8B | ~5 GB | 7 GB | 4ํ ํฐ/์ด | ์ฝ๋ฉ, ๋ ผ๋ฆฌ ์์ |
์๋ ๋น๊ต: CPU vs GPU
์๋๋ ํ๋์จ์ด์ ๋ฐ๋ผ ๋ค๋ฆ ๋๋ค. ๋ค์ ๋ฒค์น๋งํฌ๋ Ollama ๋๋ llama.cpp๋ฅผ ์คํํ๋ 2026๋ ํ์ค ํ๋์จ์ด ๊ธฐ์ค์ ๋๋ค.
| ํ๋์จ์ด | ๋ชจ๋ธ | ์๋ | ๋น๊ณ |
|---|---|---|---|
| Intel i7-12700 (CPU) | Phi-4 Mini 3.8B | 12ํ ํฐ/์ด | AVX-512 ํ์ฑํ |
| AMD Ryzen 7 5700X (CPU) | Phi-4 Mini 3.8B | 9ํ ํฐ/์ด | ๊ตฌํ AVX2๋ง ์ง์ |
| Apple M3 (CPU) | Phi-4 Mini 3.8B | 14ํ ํฐ/์ด | ํตํฉ ๋ฉ๋ชจ๋ฆฌ ์ด์ |
| RTX 3060 (GPU, 12 GB) | Phi-4 Mini 3.8B | 80ํ ํฐ/์ด | GPU๊ฐ 6.7๋ฐฐ ๋น ๋ฆ |
| RTX 4090 (GPU, 24 GB) | Llama 3.3 8B Q4 | 120ํ ํฐ/์ด | GPU๊ฐ CPU๋ณด๋ค 30๋ฐฐ ๋น ๋ฆ |
๋ชจ๋ธ๋ณ RAM ์๊ตฌ ์ฌํญ
๊ฒฝํ์น: GGUF ํฌ๊ธฐ + 500MB ์ค๋ฒํค๋ = ์ต์ ํ์ RAM. 2GB GGUF ๋ชจ๋ธ์ 2.5~3GB์ ์ฌ์ ์์คํ RAM์ด ํ์ํฉ๋๋ค.
| ๋ชจ๋ธ | GGUF ํฌ๊ธฐ | ์ต์ RAM | ์ฌ์ RAM | ์ปจํ ์คํธ ๊ธธ์ด |
|---|---|---|---|---|
| Gemma 3 2B | ~1.5 GB | 2~2.5 GB | 4 GB | 8K |
| Phi-4 Mini 3.8B | ~2.3 GB | 3 GB | 6 GB | 4K |
| Llama 3.2 3B | ~2 GB | 2.5~3 GB | 6 GB | 8K |
| Mistral Small Q4 | ~4.5 GB | 5 GB | 8 GB | 32K |
| Llama 3.3 8B Q4 | ~5 GB | 6 GB | 12 GB | 128K |
CPU ์ ์ฉ ๋ชจ๋ ์คํ ๋ฐฉ๋ฒ
Ollama (๊ฐ์ฅ ๊ฐ๋จ): `ollama run phi:mini`๋ฅผ ์คํํ์ญ์์ค. Ollama๋ NVIDIA/AMD GPU๊ฐ ์๋ ์์คํ ์์ CPU ์ ์ฉ์ ์๋์ผ๋ก ๊ฐ์งํ๊ณ ์์คํ RAM์ ์ฌ์ฉํฉ๋๋ค. LM Studio: ์ค์ ์ด๊ธฐ โ GPU ํญ๋ชฉ์์ "์์"์ ์ ํํ์ฌ CPU ๋ชจ๋๋ฅผ ๊ฐ์ ์ ์ฉํฉ๋๋ค. Llama.cpp: `--n-gpu-layers 0` ํ๋๊ทธ๋ฅผ ์ฌ์ฉํ์ฌ GPU ์คํ๋ก๋ฉ์ ๋นํ์ฑํํฉ๋๋ค.
ollama run phi:mini
# Ollama auto-detects CPU-only systemsCPU ์ถ๋ก ์ต์ ํ ํ
CPU ์ถ๋ก ์์ ์ต๋ ์ฑ๋ฅ์ ๋์ด๋ด๋ ค๋ฉด ๋ค์์ ์ฐธ๊ณ ํ์ญ์์ค.
- Q4_K_M ์์ํ ์ฌ์ฉ โ GGUF ํฌ๊ธฐ๋ฅผ ์ฝ 70% ์ค์ด๊ณ ํ์ง ์์ค์ ์ต์ํํ๋ฉฐ, ์บ์ ๋์ ๊ฐ์ ์ผ๋ก ์๋๊ฐ 10~20% ํฅ์๋ฉ๋๋ค.
- ์ปจํ ์คํธ ์๋์ฐ ์ถ์ โ ๊ธด ์ปจํ ์คํธ๋ ์ถ๋ก ์ ๋๋ฆฌ๊ฒ ํฉ๋๋ค. `--context 2048`์ ์ฌ์ฉํ์ฌ ์ปจํ ์คํธ๋ฅผ 2K ํ ํฐ์ผ๋ก ์ ํํ์ญ์์ค.
- ๋ฉํฐ์ค๋ ๋ฉ ํ์ฑํ โ Ollama์ llama.cpp๋ CPU ์ฝ์ด ์๋ฅผ ์๋์ผ๋ก ๊ฐ์งํฉ๋๋ค. `nproc`์ผ๋ก ์ผ์น ์ฌ๋ถ๋ฅผ ํ์ธํ์ญ์์ค.
- AVX-512 ๋๋ ARM NEON ์ฌ์ฉ โ ์ต์ Intel/AMD/ARM CPU์๋ ๋ฒกํฐ ๋ช ๋ น์ด๊ฐ ํ์ฌ๋์ด ์์ต๋๋ค. CPU ํ๋๊ทธ ํ์ธ ๋ฐฉ๋ฒ: `cat /proc/cpuinfo | grep avx512`(Linux) ๋๋ Apple ์ ๋ณด โ ์์คํ ๋ฆฌํฌํธ(Mac).
- ๋ฐฐ์น ํฌ๊ธฐ = 1 โ CPU๋ ๋จ์ผ ์ํ์ค ์ถ๋ก ์ ๊ฐ์ฅ ์ ์ฒ๋ฆฌํฉ๋๋ค. CPU์์ ๋ฉํฐ ๋ฐฐ์น๋ฅผ ์๋ํ์ง ๋ง์ญ์์ค.
- ์ค๋ ๋๋ฅผ ์ฝ์ด์ ๊ณ ์ โ Linux์์ `numactl --cpunodebind=0 ollama run phi:mini`๋ฅผ ์ฌ์ฉํ์ฌ ์ฝ์ด ์ ํ ์ค๋ฒํค๋๋ฅผ ์ค์ด์ญ์์ค.
CPU vs GPU ์ฌ์ฉ ์์
| ์ฌ์ฉ ์ฌ๋ก | CPU | GPU |
|---|---|---|
| ์ค์๊ฐ ์ฑํ (1์ด ๋ฏธ๋ง ์ง์ฐ) | โ ๋๋ฌด ๋๋ฆผ (12ํ ํฐ/์ด = 60ํ ํฐ์ 5์ด) | โ 80ํ ํฐ/์ด ์ด์ |
| ๋ฐฐ์น ์ฒ๋ฆฌ (๋ฌธ์, ๋ก๊ทธ) | โ ์ ํฉ (์๋ ์ค์ํ์ง ์์) | โ ๏ธ ๊ณผ์ฌ์ |
| ํ๋ก๋์ API (๋น์ฉ ์ ๊ฐ) | โ ํ๋์จ์ด ๋น์ฉ $0 | โ ๏ธ $200 ์ด์ GPU + ์ ๊ธฐ๋ฃ |
| ์ฃ์ง ๋๋ฐ์ด์ค (Raspberry Pi) | โ ๋์ ์์ | โ GPU ์ต์ ์ ํ์ |
| ๊ฐ๋ฐ / ๋ก์ปฌ ํ ์คํธ | โ ์ ์ ๋ ฅ, ์กฐ์ฉํจ | โ ๏ธ ๊ณผ์ฌ์ |
| LLM ํ์ธํ๋ | โ ๋๋ฌด ๋๋ฆผ (์๊ฐ โ ๋ฉฐ์น ) | โ 10~30๋ฐฐ ๊ฐ์ |
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
CPU ์ ์ฉ ์ถ๋ก ์ GPU์ ๋นํด ์ผ๋ง๋ ๋น ๋ฆ ๋๊น?
CPU: ์ต์ ํ๋ก์ธ์์์ 8~15ํ ํฐ/์ด. GPU(RTX 3060): 80ํ ํฐ/์ด. GPU(RTX 4090): 120ํ ํฐ/์ด ์ด์. CPU๋ 10~30๋ฐฐ ๋๋ฆฌ์ง๋ง GPU ํฌ์ ๋น์ฉ์ด $0์ ๋๋ค.
CPU์์ ์ผ๊ด๋ ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฐ์ฅ ์์ ๋ชจ๋ธ์ ๋ฌด์์ ๋๊น?
Gemma 3 2B(1.5GB)๋ ํฉ๋ฆฌ์ ์ธ ์๋ต์ ์์ฑํฉ๋๋ค. 2B ๋ฏธ๋ง์์๋ ํ์ง์ด ์ ํ๋ฉ๋๋ค. 8GB RAM์์ ์ต๊ณ ํ์ง์ ์ํ๋ค๋ฉด Phi-4 Mini(3.8B) ๋๋ Llama 3.2 3B(2GB)๋ฅผ ์ฌ์ฉํ์ญ์์ค.
CPU์์ 13B ๋ชจ๋ธ์ ์คํํ ์ ์์ต๋๊น?
์, Q4_K_M ์์ํ๋ฅผ ์ ์ฉํ 13B ๋ชจ๋ธ์ ์ฝ 6.5GB์ ๋๋ค. 8~12GB ์์คํ RAM์ด ํ์ํฉ๋๋ค. ์๋: ์ฝ 2~3ํ ํฐ/์ด. ๋ํํ ์ฌ์ฉ์๋ ๋ถํธํ์ง๋ง ๋ฐฐ์น ์ฒ๋ฆฌ์๋ ํ์ฉํ ์ ์์ต๋๋ค.
CPU ์ถ๋ก ์ GPU๋ฅผ ์ ํ ์ฌ์ฉํ์ง ์์ต๋๊น?
๋ง์ต๋๋ค. Ollama/llama.cpp์ CPU ์ ์ฉ ๋ชจ๋๋ GPU ์ฌ์ฉ์ ๋ช ์์ ์ผ๋ก ๋นํ์ฑํํ๊ณ ์์คํ RAM๋ง ์ฌ์ฉํฉ๋๋ค.
CPU ์ ์ฉ ์ถ๋ก ์ ์์ ์ ์ ๋๊น?
์, GPU๋ณด๋ค ์์ ์ ์ ๋๋ค. ๋๋ผ์ด๋ฒ ์ถฉ๋์ด๋ GPU ๋ฉ๋ชจ๋ฆฌ ์ค๋ฅ๊ฐ ์์ต๋๋ค. ์ ์ผํ ์ํ์ ์์คํ RAM ํฌํ๋ก, ๋ชจ๋ธ ์ ํ์ผ๋ก ์ ์ดํ ์ ์์ต๋๋ค.
Apple Silicon CPU๋ฅผ ์ํด ์ค์ ์ ์กฐ์ ํด์ผ ํฉ๋๊น?
์๋๋๋ค. Ollama๋ M1/M2/M3/M4๋ฅผ ์๋์ผ๋ก ๊ฐ์งํ๊ณ ํตํฉ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. Apple Silicon์ ๋ฉ๋ชจ๋ฆฌ ์ํคํ ์ฒ ๋๋ถ์ ๋๊ธ Intel CPU๋ณด๋ค ์ฝ 10~20% ๋น ๋ฆ ๋๋ค.