Key Takeaways
- llama.cpp: ๊ฐ์ฅ ๋น ๋ฅธ ๋จ์ผ ํ ํฐ ๋ ์ดํด์(์ต์ ms/token). ๋ํํ ์ฑํ ์ ์ต์ . ์ต์ํ์ ์์กด์ฑ.
- Ollama: ๊ฐ์ฅ ์ฌ์ฉํ๊ธฐ ์ฌ์. ๋ช ๋ น ํ๋๋ก ์๋ ๋ชจ๋ธ ๋ค์ด๋ก๋. ๋จ์ : llama.cpp๋ณด๋ค ์ฒ๋ฆฌ๋์ด 5~10% ๋ฎ์.
- vLLM: ๋ฐฐ์น ์์ฒญ์์ ์ต๊ณ ์ ์ฒ๋ฆฌ๋(tokens/sec). ํ๋ก๋์ API ์๋ฒ์ ์ต์ . ํ์ต ๊ณก์ ์ด ๊ฐํ๋ฆ.
- ๋จ์ผ ์ฌ์ฉ์ ์ฑํ : llama.cpp ๋๋ Ollama(์๋๊ฐ ๊ฑฐ์ ๋์ผ).
- ๋ค์ค ์ฌ์ฉ์ API: vLLM(์ฒ๋ฆฌ๋์ด 3~5๋ฐฐ ๋์).
- ์ผ๋ฐ ์ฌ์ฉ: Ollama(๊ฐํธํจ์ด ์ฐ์ ).
- ์ธ ๊ฐ์ง ๋ชจ๋ ๋์ผํ ๋ชจ๋ธ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค โ ์๋์ ์ฒ๋ฆฌ๋๋ง ๋ค๋ฆ ๋๋ค.
- ๋์ผํ ์์คํ ์์ ์ธ ๊ฐ์ง ๋ชจ๋ ๋์์ ์คํํ ์ ์์ต๋๋ค(๋ค๋ฅธ ํฌํธ). ์ถฉ๋ํ์ง ์์ต๋๋ค.
์๋ ๋น๊ต ๋ฒค์น๋งํฌ โ RTX 4090 24 GB
llama.cpp๋ ๋จ์ผ ํ ํฐ์์ 38 tok/s๋ก ์์๊ณ , vLLM์ ๋ฐฐ์นญ์์ 250+ tok/s๋ก ์๋ํฉ๋๋ค. RTX 4090 24 GB, Llama 3.3 70B Q4_K_M, ๋จ์ผ ์์ฒญ, 2026๋ 4์ ๋ฒค์น๋งํฌ:
| ๋ฐฑ์๋ | Tokens/sec | ms/token | VRAM ์ฌ์ฉ๋ | ๋ฐฐ์น ์ฒ๋ฆฌ๋ |
|---|---|---|---|---|
| llama.cpp | 38 | 26 | 39 GB | N/A (๋ฐฐ์นญ ์์) |
| Ollama | 36 | 28 | 39 GB | N/A (๋จ์ผ ๋ฐฐ์น) |
| vLLM | 34 | 29 | 41 GB | 250+ tok/s (์ฐ์) |
์๋ ๋น๊ต โ RTX 3060 12 GB
RTX 3060 12 GB, Llama 3.2 8B Q4_K_M, ๋จ์ผ ์์ฒญ, 2026๋ 4์ ๋ฒค์น๋งํฌ:
| ๋ฐฑ์๋ | Tokens/sec | ms/token | VRAM ์ฌ์ฉ๋ | ๋ฐฐ์น ์ฒ๋ฆฌ๋ |
|---|---|---|---|---|
| llama.cpp | 52 | 19 | 5.2 GB | N/A |
| Ollama | 48 | 21 | 5.4 GB | N/A |
| vLLM | 45 | 22 | 6.1 GB | 180 tok/s (batch=8) |
๊ธฐ๋ฅ ๋น๊ต ํ
llama.cpp: ์ต๊ณ ์ ์์ํ ๋ฐ ์์ ์๋. Ollama: ๊ฐ์ฅ ๊ฐ๋จํ ์ค์น. vLLM: ํ๋ก๋์ ์ฉ ์ต๊ณ ์ ๋ฐฐ์นญ.
| ๊ธฐ๋ฅ | llama.cpp | Ollama | vLLM |
|---|---|---|---|
| ์ค์น ์๊ฐ | 30๋ถ (์ปดํ์ผ) | 5๋ถ (๋ช ๋ น ํ๋) | 15๋ถ (pip install) |
| OpenAI ํธํ API | โ (llama-server) | โ (๋ค์ดํฐ๋ธ) | โ (๋ค์ดํฐ๋ธ) |
| ๋ชจ๋ธ ํ์ | GGUF | GGUF | SafeTensors / HF |
| GPU ์ง์ | CUDA, ROCm, Metal | CUDA, ROCm, Metal | CUDA ์ ์ฉ |
| ๋ฐฐ์นญ | โ | โ | โ ์ฐ์ |
| ๋ค์ค GPU | โ | โ | โ ํ ์ ๋ณ๋ ฌ |
| Apple Silicon | โ Metal | โ Metal | โ |
| ์ฑํ UI | โ (์๋ฒ ์ ์ฉ) | โ (Open WebUI ํ์) | โ (API ์ ์ฉ) |
| ๋ผ์ด์ ์ค | MIT | MIT | Apache 2.0 |
๋ฐฐ์นญ ๋ฐ ์ฒ๋ฆฌ๋
vLLM์ 32๊ฐ ์ด์์ ์์ฒญ์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ์ง๋ง, llama.cpp์ Ollama๋ ํ ๋ฒ์ ํ๋์ฉ๋ง ์ฒ๋ฆฌํฉ๋๋ค. vLLM์ด ์ฐ์๋ฅผ ์ ํ๋ ์์ญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- llama.cpp: ๋ค์ดํฐ๋ธ ๋ฐฐ์นญ ์์. ํ ๋ฒ์ ํ๋์ ์์ฒญ. ๋ ์ดํด์: 27ms/token. ์ฒ๋ฆฌ๋: 36 tok/s.
- Ollama: ๋จ์ผ ๋ฐฐ์น๋ง ๊ฐ๋ฅ. 2๊ฐ ์ด์์ ์์ฒญ์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ ์ ์์. llama.cpp์ ๋์ผํ ์ฒ๋ฆฌ๋.
- vLLM: ๋ค์ดํฐ๋ธ ์ฐ์ ๋ฐฐ์นญ(๋์ ์์ฒญ์ ๋์ ์ผ๋ก ์ฒ๋ฆฌ). 32๊ฐ ์์ฒญ์ ๋์์ ์ฒ๋ฆฌ. ๋์ผํ RTX 4090์์ ์ฒ๋ฆฌ๋: 250+ tok/s.
- ๋์ ์ฌ์ฉ์๊ฐ ๋ง์์๋ก vLLM์ ์ฅ์ ์ด ๊ทน๋ํ๋ฉ๋๋ค. 10๋ช ์ด์์ ์ฌ์ฉ์๊ฐ ์๋ API ์๋ฒ์์๋ vLLM์ด ํ์์ ๋๋ค.
์ค์น ๋ณต์ก๋
Ollama๊ฐ ๊ฐ์ฅ ๊ฐ๋จํฉ๋๋ค(5๋ถ). vLLM์ Python์ด ํ์ํฉ๋๋ค(15๋ถ). llama.cpp๋ ์ปดํ์ผ์ด ํ์ํฉ๋๋ค(30๋ถ). ์์ธ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
llama.cpp: ์์ค์์ ์ปดํ์ผํ๊ฑฐ๋ ๋ฐ์ด๋๋ฆฌ๋ฅผ ๋ค์ด๋ก๋ํ์ญ์์ค. ์๋ ๋ชจ๋ธ ํ์ผ ๊ด๋ฆฌ. 30๋ถ ์ค์น.
Ollama: `brew install ollama` ๋๋ ์ธ์คํจ๋ฌ๋ฅผ ๋ค์ด๋ก๋ํ์ญ์์ค. `ollama run llama3.2`. 5๋ถ ์ค์น.
vLLM: `pip install vllm`, ์ดํ `python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3.3-8B-Instruct`. 15๋ถ ์ค์น(Python + ์์กด์ฑ).
๊ฐํธํจ์ ์น์: Ollama.
API ํธํ์ฑ
์ธ ๊ฐ์ง ๋ชจ๋ ์ด์ OpenAI ํธํ API๋ฅผ ์ง์ํ๋ฉฐ, Ollama์ vLLM์ด ๊ฐ์ฅ ๊ฐํธํฉ๋๋ค.
llama.cpp: OpenAI ํธํ API(`llama-server`๋ฅผ ํตํด, 2024๋ ๋ง ์ถ๊ฐ). IDE ํ์ฅ๊ณผ ํจ๊ป ์๋ํฉ๋๋ค.
Ollama: OpenAI ํธํ API(`ollama serve` + ํด๋ผ์ด์ธํธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด). ๋๋ถ๋ถ์ IDE ํ์ฅ๊ณผ ํจ๊ป ์๋ํฉ๋๋ค.
vLLM: OpenAI ํธํ API(๋ค์ดํฐ๋ธ `/v1/chat/completions`). ์ต๊ณ ์ ํธํ์ฑ.
IDE ํตํฉ(VS Code, Cursor)์ ๊ฒฝ์ฐ: Ollama ๋๋ vLLM. llama.cpp๋ ๊ฑด๋๋ฐ์ญ์์ค.
๊ฐ ๋๊ตฌ๋ฅผ ์ธ์ ์ฌ์ฉํด์ผ ํฉ๋๊น?
llama.cpp: ์ต์ํ์ ์์กด์ฑ, ์์ ์๋. ์ปค์คํ ์ถ๋ก ์์ง์ ๊ตฌ์ถํ๋ ๊ฒฝ์ฐ ์ฌ์ฉํ์ญ์์ค. Mac์ ์ต์ (Metal ๊ฐ์).
Ollama: ์ฌ์ธ์ ๊ฐํธํจ. ์ฑํ UI + ๊ฐ์ธ ์ฌ์ฉ์ ์ ํฉํฉ๋๋ค. Mac, Linux, Windows์์ ์๋ํฉ๋๋ค.
vLLM: ํ๋ก๋์ API ์๋ฒ. ๋ค์ค ์ฌ์ฉ์ ๋ฐฐํฌ, ๊ณ ์ฒ๋ฆฌ๋ ์๊ตฌ ์ฌํญ์ ์ฌ์ฉํ์ญ์์ค. NVIDIA CUDA๊ฐ ํ์ํฉ๋๋ค โ Apple Silicon(M1/M2/M3/M4)์์๋ ์๋ํ์ง ์์ต๋๋ค.
์ถ๋ก ๋ฐฑ์๋ ์ ํ ์ ์ผ๋ฐ์ ์ธ ์ค์
- ์ค์: llama.cpp๊ฐ ํญ์ ๊ฐ์ฅ ๋น ๋ฅด๋ค๊ณ ๊ฐ์ ํ๋ ๊ฒ. ์ด๋ ๋จ์ผ ํ ํฐ ๋ ์ดํด์์์๋ง ์ฌ์ค์ ๋๋ค. vLLM์ ๋ฐฐ์น ์์ฒญ์ ์ฒ๋ฆฌ๋์์ ์ฐ์๋ฅผ ์ ํฉ๋๋ค(10๋ช ์ด์์ ๋์ ์ฌ์ฉ์์์ 7๋ฐฐ ๋น ๋ฆ).
- ์ค์: Ollama๊ฐ ๋๋ฆฌ๋ค๊ณ ๋ฌด์ํ๋ ๊ฒ. Ollama๋ ์์ llama.cpp๋ณด๋ค 5~10%๋ง ๋๋ฆฝ๋๋ค โ 34 tok/s๊ฐ ์ฆ๊ฐ์ ์ผ๋ก ๋๊ปด์ง๋ ๋ํํ ์ฑํ ์์๋ ๋ฌด์ํ ์ ์๋ ์ฐจ์ด์ ๋๋ค.
- ์ค์: ํ๋์ ๋ฐฑ์๋๋ง ์ ํํด์ผ ํ๋ค๊ณ ์๊ฐํ๋ ๊ฒ. ์ธ ๊ฐ์ง ๋ชจ๋ ๋ค๋ฅธ ํฌํธ์์ ๋์์ ์คํํ ์ ์์ต๋๋ค. ๊ฐ์ธ ์ฑํ ์๋ Ollama, API ์๋ฒ์๋ vLLM์ ์ฌ์ฉํ์ญ์์ค.
- ์ค์: ๋จ์ผ ์ฌ์ฉ์ ์ฑํ ์ vLLM์ ์ฌ์ฉํ๋ ๊ฒ. vLLM์ ์ฅ์ ์ ๋ฐฐ์นญ์ ๋๋ค. ๋จ์ผ ์ฌ์ฉ์ ๋ํํ ์ฑํ ์์๋ Ollama์ ๋ ๊ฐ๋จํ ์ค์น๊ฐ ์ฐ์๋ฅผ ์ ํฉ๋๋ค.
์ง์ญ ์ปจํ ์คํธ ๋ฐ ๋ฐ์ดํฐ ๊ฑฐ์ฃผ
EU/GDPR: ์ธ ๊ฐ์ง ๋ฐฑ์๋ ๋ชจ๋ ์์ ํ ์จํ๋ ๋ฏธ์ค์์ ์คํ๋ฉ๋๋ค. ๋ฐ์ดํฐ๊ฐ ์ธํ๋ผ๋ฅผ ๋ฒ์ด๋์ง ์์ผ๋ฏ๋ก GDPR ์ 28์กฐ๋ฅผ ์ค์ํฉ๋๋ค(๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ๊ณ์ฝ์ด ํ์ ์์). EU ๊ธ์ต, ์๋ฃ, ๋ฒ๋ฅ ์ํฌ๋ก๋์ ๊ถ์ฅ๋ฉ๋๋ค.
์ผ๋ณธ/APPI: ์จํ๋ ๋ฏธ์ค ์ถ๋ก ์ ๋ฏผ๊ฐํ ๊ฐ์ธ ๋ฐ์ดํฐ์ ๋ํ APPI ์๊ฑด์ ์ถฉ์กฑํฉ๋๋ค. vLLM์ ์ผ๋ณธ ๊ธฐ์ ์ ๋ฐฐ์น ๋ฌธ์ ์ฒ๋ฆฌ ๋ฐฐํฌ์ ์ฌ์ฉ๋ฉ๋๋ค.
์ค๊ตญ/๋ฐ์ดํฐ ๋ณด์๋ฒ(2021): ๋ก์ปฌ ์ถ๋ก ์ ๊ตญ๊ฒฝ ๊ฐ ๋ฐ์ดํฐ ์ ์ก ์ ํ์ ํผํฉ๋๋ค. llama.cpp์ Ollama๋ Qwen3 ๋ชจ๋ธ๊ณผ ํจ๊ป ์ค๊ตญ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
FAQ
์ด๋ณด์์๊ฒ ์ด๋ค ๊ฒ์ ๊ถ์ฅํฉ๋๊น?
Ollama. ๋ช ๋ น ํ๋๋ก ์๋ ๋ชจ๋ธ ๋ค์ด๋ก๋, ๊น๋ํ ์ธํฐํ์ด์ค.
์ด๋ ๊ฒ์ด ๊ฐ์ฅ ๋น ๋ฆ ๋๊น?
๋จ์ผ ์์ฒญ์ ๊ฒฝ์ฐ: llama.cpp(Ollama๋ณด๋ค ์ฝ 3% ๋น ๋ฆ). 10๊ฐ์ ๋์ ์์ฒญ์ ๊ฒฝ์ฐ: vLLM(์ฝ 7๋ฐฐ ๋น ๋ฆ).
Ollama ๋์ llama.cpp๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๊น?
๊ฐ๋ฅํ์ง๋ง ์ค์ ์ด ๋ ๋ง์ด ํ์ํฉ๋๋ค. ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ์๋ ํฅ์์ ๋ฏธ๋ฏธํฉ๋๋ค(3~5%).
vLLM์ ํ๋ก๋์ ํ๊ฒฝ์์ ์ฌ์ฉํ ์ค๋น๊ฐ ๋์ด ์์ต๋๊น?
์. ์ค์ ๋ฐฐํฌ์ ์ฌ์ฉ๋ฉ๋๋ค. ํ์ต ๊ณก์ ์ด ๊ฐํ๋ฅด์ง๋ง ๋์ ์ฒ๋ฆฌ๋์๋ ์ถฉ๋ถํ ๊ฐ์น๊ฐ ์์ต๋๋ค.
์ฌํ๋ จ ์์ด ๋ฐฑ์๋๋ฅผ ์ ํํ ์ ์์ต๋๊น?
llama.cpp์ Ollama๋ GGUF ํ์์ ์ฌ์ฉํฉ๋๋ค(๊ต์ฒด ๊ฐ๋ฅ). vLLM์ SafeTensors๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ๋ชจ๋ธ ๋ณํ์ด ํ์ํฉ๋๋ค.
์ด๋ค ๋ฐฑ์๋๊ฐ ๊ฐ์ฅ ์์ ์ ์ ๋๊น?
Ollama(๋จ์ํ๊ณ ๋ฒ๊ทธ๊ฐ ์ ์). llama.cpp๋ ์์ ์ ์ ๋๋ค. vLLM์ ์์ฃผ ์ ๋ฐ์ดํธ๋ฉ๋๋ค(๋ ๋ง์ ๊ธฐ๋ฅ, ๊ฐ๋ ํธํ์ฑ์ด ๊นจ์ง๋ ๋ณ๊ฒฝ ์ฌํญ).
vLLM์ Mac์์ ์๋ํฉ๋๊น?
์๋์ค. vLLM์ NVIDIA CUDA๊ฐ ํ์ํฉ๋๋ค. Mac์์๋ Metal ๊ฐ์์ด ์ ์ฉ๋ llama.cpp ๋๋ Ollama๋ฅผ ์ฌ์ฉํ์ญ์์ค.
๊ด๋ จ ์ฝ๊ธฐ
- Ollama vs LM Studio: ์ด๋ ๊ฒ์ ์ ํํด์ผ ํฉ๋๊น? โ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ๋ ๊ฐ์ง ๋ก์ปฌ LLM ์ธํฐํ์ด์ค์ ๋๋ํ ๋น๊ต
- ์ฌ์ฉ ์ฌ๋ก๋ณ ์ต๊ณ ์ ๋ก์ปฌ LLM ์คํ(2026) โ ์ฑํ , ์ฝ๋ฉ, API ์๋น์ ๋ํ ๊ถ์ฅ ์กฐํฉ
- Text Generation WebUI vs vLLM vs llama.cpp โ AUTOMATIC1111 ์คํ์ผ ํ๋ก ํธ์๋๋ฅผ ํฌํจํ ์ฌ์ธต ๋น๊ต
- ์ต๊ณ ์ ๋ก์ปฌ LLM ํ๋ก ํธ์๋(2026) โ OpenWebUI, Chatbot UI ๋ฐ 8๊ฐ์ง ๋ค๋ฅธ ์ต์ ์์
- Ollama ์ค์น ๋ฐฉ๋ฒ โ macOS, Windows ๋ฐ Linux๋ฅผ ์ํ 2๋ถ ์ค์น ๊ฐ์ด๋
- ๋ก์ปฌ LLM OpenAI ํธํ API ๊ฐ์ด๋ โ ๋ก์ปฌ ๋ชจ๋ธ๋ก OpenAI API๋ฅผ ๋์ฒดํ๋ ๋ฐฉ๋ฒ