Key Takeaways
- 7B ๋ชจ๋ธ: ์ต์ 8GB(Q4), 10GB ๊ถ์ฅ(Q5), Q8 ์์ ์ ๋ฐ๋์๋ 14GB.
- 13B ๋ชจ๋ธ: ์ต์ 10GB(Q4), 12~14GB ๊ถ์ฅ(Q5), Q8์๋ 16GB.
- 70B ๋ชจ๋ธ: ์ต์ 24GB(Q4), Q5/Q8 ๋๋ ๋ค์ค ์ฌ์ฉ์ ์ค์ ์๋ 32GB ์ด์.
- ์์ํ(Q4, Q5, Q8)๋ ์์ ์ ๋ฐ๋(FP32) ๋๋น VRAM์ 50~75% ์ ๊ฐํฉ๋๋ค.
- ์ค๋ฒํค๋(KV ์บ์, ์ตํฐ๋ง์ด์ ์ํ, ์์คํ OS)๋ฅผ ์ํด ํญ์ 1~2GB๋ฅผ ์ถ๊ฐ๋ก ํ๋ณดํ์ญ์์ค.
- ๋ฐฐ์น ํฌ๊ธฐ โ ์ถ๋ก ๋น VRAM. ๋จ์ผ ์ถ๋ก ์ ๋ฐฐ์น ํฌ๊ธฐ์ ๊ด๊ณ์์ด ๋์ผํ VRAM์ ์ฌ์ฉํฉ๋๋ค(๋ฐฐ์น๋ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค).
- ๋ ๋ง์ VRAM์ด ๋จ์ผ ํ๋กฌํํธ ์ถ๋ก ์ ๋น ๋ฅด๊ฒ ๋ง๋ค์ง ์์ต๋๋ค. ๋ค์ค ์ฌ์ฉ์/๋ค์ค ์์ฒญ ์ค์ ์๋ง ๋์์ด ๋ฉ๋๋ค.
VRAM ๊ฒฝํ ๋ฒ์น โ ๋น ๋ฅธ ์ฐธ์กฐ
๊ณต์์ด ๋ณต์กํ์ญ๋๊น? ์ด ๊ฐ๋จํ ๊ท์น์ ์ฌ์ฉํ์ญ์์ค:
VRAM ์์ฐ์ ํ์ ํ์ จ๋ค๋ฉด, ๊ฐ ๋ฑ๊ธ์ ๋ง๋ GPU๋ฅผ ํ์ธํ์ญ์์ค โ
- 3B ๋ชจ๋ธ (Phi, StableLM): ์ต์ 4GB VRAM
- 7B ๋ชจ๋ธ (Llama, Mistral, Qwen): 8GB VRAM(Q4), 10GB(Q5)
- 13B ๋ชจ๋ธ (Llama 3.3, Mistral): ์ต์ 12GB VRAM(Q4)
- 22B ๋ชจ๋ธ (Qwen3, Gemma): 16GB VRAM(Q4)
- 70B ๋ชจ๋ธ (Llama 3.3, Qwen 3.6): 24~32GB VRAM(Q4~Q5)
- MoE ๋ชจ๋ธ: VRAM์ ๋ฉ๋ชจ๋ฆฌ์ ๋ณด๊ดํด์ผ ํ๋ ๊ฐ์ค์น์ ๋ฐ๋ผ ํ์ฅ๋ฉ๋๋ค. ์์: Qwen 3.6 35B-A3B(3B ํ์ฑ)๋ ์ฝ 2GB์ ์์ ๊ณต๊ฐ์ ๋ค์ด๋ง์ง๋ง, Llama 4 Scout(17B ํ์ฑ / 109B ์ด๋)๋ ๋ชจ๋ ์ ๋ฌธ๊ฐ๊ฐ ์์ฃผํ๊ธฐ ๋๋ฌธ์ Q4์์ ์ฌ์ ํ ์ฝ 55GB๊ฐ ํ์ํฉ๋๋ค.
# Quick VRAM formula (memorize this)
VRAM (GB) โ Model Size (B) รท 8 # at Q4 quantization
# Examples:
7B รท 8 = 0.875 GB per billion โ 8 GB total
70B รท 8 = 8.75 GB per billion โ 48 GB total
# For other quantizations:
Q8 (8-bit): Model Size รท 4
Q5 (5-bit): Model Size รท 5
FP32 (full): Model Size ร 4LLM์ VRAM ๊ณต์์ด๋ ๋ฌด์์ ๋๊น?
VRAM (GB) = (๋ชจ๋ธ ํฌ๊ธฐ(์ญ์ต ๋จ์) ร 4๋ฐ์ดํธ ร ์์ํ ๊ณ์)
- ๋ชจ๋ธ ํฌ๊ธฐ: ํ๋ผ๋ฏธํฐ ์(7B, 13B, 70B ๋ฑ)
- 4๋ฐ์ดํธ: FP32 ์ ๋ฐ๋(1๋ฐ์ดํธ = 8๋นํธ)
- ์์ํ ๊ณ์: 1.0(FP32), 0.5(Q8), 0.25(Q4)
์์: Llama 3 70B, FP32, ์์ํ ์์:
700์ต ร 4๋ฐ์ดํธ = 280GB. ๋น์ค์ฉ์ ์ ๋๋ค.
Llama 3 70B, Q4(4๋นํธ) ์์ํ:
700์ต ร 4๋ฐ์ดํธ ร 0.25 = 70GB ํ ๋น, ์์ถ ํ ์ฝ 24GB ์ฌ์ฉ.
MoE ๋ชจ๋ธ(ํฌ์ํ): ํ์ฑ ํ๋ผ๋ฏธํฐ๊ฐ ์ฐ์ฐ์ ์ฒ๋ฆฌํ์ง๋ง, ๋ชจ๋ ์ ๋ฌธ๊ฐ๋ VRAM์ ๋ก๋๋ ์ํ๋ฅผ ์ ์งํด์ผ ํฉ๋๋ค. ์์: Llama 4 Scout๋ 109B์ ์ด ํ๋ผ๋ฏธํฐ์์ ํ ํฐ๋น 17B๊ฐ ํ์ฑํ๋ฉ๋๋ค. Q4์์๋ ๋ชจ๋ ์ ๋ฌธ๊ฐ๋ฅผ ๋ณด๊ดํ๊ธฐ ์ํด ์ฝ 55GB์ VRAM์ด ํ์ํ๋ฉฐ, ๊ณต๊ฒฉ์ ์ธ 1.78๋นํธ ์์ํ(์ฝ 20 tok/s)์์๋ง 24GB GPU์ ๋ค์ด๋ง์ต๋๋ค. ์ฐ์ฐ์ ์ ๋ ดํ์ง๋ง, ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ ์ฝ ์กฐ๊ฑด์ ๋๋ค.
๊ฐ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ํ VRAM์ ์ผ๋ง์ ๋๊น?
| ๋ชจ๋ธ ํฌ๊ธฐ | FP32 (์์ํ ์์) | Q8 (8๋นํธ) | Q5 (5๋นํธ) | Q4 (4๋นํธ) | ๊ถ์ฅ GPU |
|---|---|---|---|---|---|
| 3B (Phi, StableLM) | 12 GB | 6 GB | 4 GB | 3 GB | RTX 2060 6 GB ๋๋ RTX 5070 12 GB |
| 7B (Llama 3.3, Mistral) | 28 GB | 14 GB | 9 GB | 7 GB | RTX 3060 12 GB ๋๋ RTX 5070 12 GB |
| 13B (Llama 3.3, Mistral) | 52 GB | 26 GB | 17 GB | 13 GB | RTX 3090 24 GB ๋๋ RTX 5080 16 GB |
| 22B (Qwen, Gemma) | 88 GB | 44 GB | 28 GB | 22 GB | RTX 4090 24 GB(Q4) ๋๋ RTX 5090 32 GB |
| 70B (Llama 3, Qwen) | 280 GB | 140 GB | 88 GB | 70 GB | 2ร RTX 4090(๊ฐ 24 GB), ๋๋ 1ร H100 80 GB |
| Qwen 3.6 35B-A3B (3B ํ์ฑ, MoE)* | 12 GB | 3 GB | 2 GB | 2 GB | RTX 2060 6 GB ๋๋ RTX 5070 12 GB |
| DeepSeek V4-Flash (13B ํ์ฑ / 284B ์ด๋, MoE)* | 52 GB | 13 GB | 8 GB | 7 GB | RTX 3060 12 GB ๋๋ RTX 5070 12 GB |
| Llama 4 Scout (17B ํ์ฑ / 109B ์ด๋, MoE)โ | 436 GB | 109 GB | 68 GB | 55 GB | 2ร RTX 4090(48 GB) โ 1.78๋นํธ์์๋ง 24 GB์ ๋ค์ด๋ง์(์ฝ 20 tok/s) |
| gpt-oss:20b (3.6B ํ์ฑ / 21B ์ด๋, MoE)* | 84 GB | 21 GB | 13 GB | 12 GB | RTX 5070 12 GB ๋๋ 16 GB GPU |
| Kimi K2.6 (32B ํ์ฑ / 1T ์ด๋, MoE)* | 128 GB | 32 GB | 20 GB | 16 GB | 2ร RTX 4090 ๋๋ RTX 5090 32 GB(Q4 ์ ์ฉ) |
* MoE ๋ชจ๋ธ: VRAM์ ์ด ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์๋ ํ์ฑ ํ๋ผ๋ฏธํฐ์์๋ง ๊ณ์ฐ๋ฉ๋๋ค. โ Llama 4 Scout๋ 109B ํ๋ผ๋ฏธํฐ๋ฅผ ๋ชจ๋ ์์ฃผ์ํค๋ฏ๋ก, ํ ํฐ๋น 17B๋ง ํ์ฑํ๋๋๋ผ๋ Q4์์ ์ฝ 55 GB๊ฐ ํ์ํฉ๋๋ค.
MoE ๋ชจ๋ธ์ ํฌ๊ธฐ์ ๋นํด ํจ์ฌ ์ ์ VRAM์ ํ์๋ก ํฉ๋๋ค
Mixture-of-Experts(MoE) ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ๋ฌ "์ ๋ฌธ๊ฐ" ์๋ธ๋คํธ์ํฌ์ ๋ถ์ฐ์ํค๊ณ ๊ฐ ํ ํฐ์ ๋ํด ์ผ๋ถ๋ง ํ์ฑํํฉ๋๋ค. ํ์ฑ ํ๋ผ๋ฏธํฐ๋ ์ฐ์ฐ์ ์ค์ด๊ณ ์ถ๋ก ์ ๋น ๋ฅด๊ฒ ํ์ง๋ง, ๋๋ถ๋ถ์ MoE ๋ชจ๋ธ์์ ๋ชจ๋ ์ ๋ฌธ๊ฐ๋ ์ฌ์ ํ VRAM์ ๋ก๋๋์ด ์์ด์ผ ํฉ๋๋ค โ ๋ฐ๋ผ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํ์ฑ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ํฉ๋๋ค.
๋ฐ์ง ๋ชจ๋ธ ๊ท์น: VRAM = ์ด_ํ๋ผ๋ฏธํฐ ร ํ๋ผ๋ฏธํฐ๋น_๋ฐ์ดํธ
MoE ๋ชจ๋ธ ๊ท์น(์ฐ์ฐ): ํ์ฑ_ํ๋ผ๋ฏธํฐ๊ฐ ์ด๋น ํ ํฐ ์๋ฅผ ๊ฒฐ์ ํฉ๋๋ค โ ํ์ง๋ง VRAM์ ์ฌ์ ํ ์ด ์์ฃผ ๊ฐ์ค์น์ ๋ฐ๋ผ ํ์ฅ๋ฉ๋๋ค.
์์: Llama 4 Scout๋ 109B์ ์ด ํ๋ผ๋ฏธํฐ์์ ํ ํฐ๋น 17B๋ง ํ์ฑํ๋ฉ๋๋ค. ํฌ๊ธฐ ๋๋น ๋น ๋ฅด์ง๋ง, Q4์์ ๋ชจ๋ ์ ๋ฌธ๊ฐ๋ฅผ ๋ณด๊ดํ๊ธฐ ์ํด ์ฌ์ ํ ์ฝ 55 GB์ VRAM์ด ํ์ํฉ๋๋ค โ ๊ณต๊ฒฉ์ ์ธ 1.78๋นํธ ์์ํ(RTX 4090์์ ์ฝ 20 tok/s)๋ฅผ ์ฌ์ฉํ์ง ์๋ ํ ๋จ์ผ 24 GB GPU๋ก๋ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
์ผ๋ถ ๋ฐํ์์ ๋นํ์ฑ ์ ๋ฌธ๊ฐ๋ฅผ ์์คํ RAM์ผ๋ก ์คํธ๋ฆฌ๋ฐํ๊ฑฐ๋ ์คํ๋ก๋ํ ์ ์์ด, ์๋๋ฅผ ํฌ์ํ๋ฉด์ VRAM ์ฌ์ฉ์ ์ค์ผ ์ ์์ต๋๋ค. ํต์ฌ ๊ฒฐ๋ก : MoE ๋ชจ๋ธ์ด ํ์ฑ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ VRAM์ ๋ค์ด๋ง๋๋ค๊ณ ๊ฐ์ ํ์ง ๋ง์ญ์์ค โ ์ ํํ ์์ํ ์์ค์์ ์ค์ ์จ๋์คํฌ ํฌ๊ธฐ๋ฅผ ํ์ธํ์ญ์์ค.
์์ํ๋ ์ด๋ป๊ฒ VRAM ์๊ตฌ ์ฌํญ์ ์ค์ ๋๊น?
์์ํ๋ ๊ฐ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ํํํ๋ ๋ฐ ํ์ํ ๋นํธ ์๋ฅผ ์ค์ ๋๋ค.
- FP32(32๋นํธ ๋ถ๋์์์ ): ์์ ์ ๋ฐ๋. ํ๋ผ๋ฏธํฐ 1๊ฐ = 4๋ฐ์ดํธ. ์์ค ์์. ๊ฐ์ฅ ๋๋ฆผ.
- Q8(8๋นํธ): ํ๋ผ๋ฏธํฐ 1๊ฐ = 1๋ฐ์ดํธ. ์ฝ 6% ์ ํ๋ ์์ค. 75% VRAM ์ ๊ฐ.
- Q5(5๋นํธ): ํ๋ผ๋ฏธํฐ 1๊ฐ = 0.625๋ฐ์ดํธ. ์ฝ 2% ์ ํ๋ ์์ค. 84% VRAM ์ ๊ฐ.
- Q4(4๋นํธ): ํ๋ผ๋ฏธํฐ 1๊ฐ = 0.5๋ฐ์ดํธ. ์ฝ 1% ์ ํ๋ ์์ค. 87.5% VRAM ์ ๊ฐ.
๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ Q4๊ฐ ์ต์ ์ ์ ๋๋ค: ๊ฐ์งํ๊ธฐ ์ด๋ ค์ด ์ ํ๋ ์์ค, 87% ๋ ์์ VRAM ๊ณต๊ฐ.
2026๋ 4์ ๊ธฐ์ค, Q4๊ฐ ํ์ค์ ๋๋ค. ์ฌ์ VRAM์ด ์๊ณ ์ฝ๊ฐ์ ํ์ง ํฅ์์ ์ํ์๋ฉด Q5์ Q8๋ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
VRAM์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ ํ์ง๋ง, ํ๋กฌํํธ ์ค๊ณ๊ฐ ์ถ๋ ฅ ํ์ง์ ๊ฒฐ์ ํฉ๋๋ค. ์ฐ์ ์ฌ๊ณ (chain-of-thought) ๋ฐ ํจ์ท(few-shot) ํ๋กฌํํ ๊ณผ ๊ฐ์ ๊ธฐ๋ฒ์ ์๊ท๋ชจ ๋ชจ๋ธ๊ณผ ๋๊ท๋ชจ ๋ชจ๋ธ ๊ฐ์ ํ์ง ๊ฒฉ์ฐจ๋ฅผ ์ค์ผ ์ ์์ต๋๋ค. ํ๋์จ์ด๊ฐ ์ง์ํ๋ ๋ชจ๋ธ์์ ๋ ๋ง์ ๊ฒ์ ์ป์ผ๋ ค๋ฉด ํ๋กฌํํธ ์์ง๋์ด๋ง ํดํท์ ์ดํด๋ณด์ญ์์ค. 12~16 GB VRAM์ด ์๊ณ ํด๋น ํดํท์ ์ ์ฉํ ๊ตฌ์ฒด์ ์ธ ์ฝ๋ฉ ์์ ์ด ํ์ํ๋ค๋ฉด, ๋ก์ปฌ LLM์ผ๋ก GitHub Copilot ๋์ฒดํ๊ธฐ์์ Continue.dev + Ollama + Qwen3-Coder ์คํ์ ์ ํํ ํด๋น VRAM ๋ฑ๊ธ์ ๋ง๊ฒ ์ค๋ช ํฉ๋๋ค.
๋ฐฐ์น ํฌ๊ธฐ์ ๋ค์ค ์ฌ์ฉ์ ์ถ๋ก ์ ๋ํด
๋ฐฐ์น ํฌ๊ธฐ๋ ์ฒ๋ฆฌ๋(์ด๋น ํ ํฐ ์)์ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ๋จ์ผ ์ถ๋ก ์ง์ฐ ์๊ฐ์๋ ์ํฅ์ ์ฃผ์ง ์์ต๋๋ค.
"2+2๋ ์ผ๋ง์ ๋๊น?"๋ผ๊ณ ๋ฌป๋ ๋จ์ผ ์ฌ์ฉ์๋ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ 1์ด๋ 32์ด๋ ๋์ผํ VRAM์ ์ฌ์ฉํฉ๋๋ค.
๋ฐฐ์น ํฌ๊ธฐ = 32๋ 32๊ฐ์ ํ๋กฌํํธ๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๋ค๋ ์๋ฏธ์ ๋๋ค. ์ด๋ ์ฝ 32๋ฐฐ ๋ ๋ง์ VRAM์ ์ฌ์ฉํ์ง๋ง, 32๊ฐ์ ์๋ต์ ๋ ๋น ๋ฅด๊ฒ ์์ฑํฉ๋๋ค.
๋จ์ผ ์ฌ์ฉ์(์ผ๋ฐ์ ์ธ ๋ก์ปฌ LLM ์ฌ์ฉ): ๋ฐฐ์น ํฌ๊ธฐ = 1. VRAM์ ๋ชจ๋ธ ํฌ๊ธฐ + 1~2GB ์ค๋ฒํค๋.
๋ค์ค ์ฌ์ฉ์ ์๋ฒ: ๋ฐฐ์น ํฌ๊ธฐ ร ๋ชจ๋ธ VRAM์ ํ ๋นํ์ญ์์ค. batch=4์ 70B ๋ชจ๋ธ์ ์ฝ 96GB(24GB ร 4)๊ฐ ํ์ํฉ๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ๋ณด๋ค ๋ ๋ง์ VRAM์ด ํ์ํฉ๋๊น?
์. ๋ชจ๋ธ ๊ฐ์ค์น ์ธ์ ์ถ๊ฐํ์ญ์์ค:
- KV ์บ์(์ปจํ ์คํธ์ฉ ํค-๊ฐ ์บ์): ์ฝ 5~10% ์ถ๊ฐ VRAM.
- ์ตํฐ๋ง์ด์ ์ํ(ํ์ธํ๋ ์): ๋ชจ๋ธ ํฌ๊ธฐ์ 2~4๋ฐฐ(ํ์ต์๋ง ํด๋น, ์ถ๋ก ์๋ ๋ฌด๊ด).
- ์์คํ ์ค๋ฒํค๋(OS, ๋๋ผ์ด๋ฒ, Ollama/LM Studio ๋ฐํ์): ์ฝ 1~2GB.
๊ท์น: 70B ๋ชจ๋ธ Q4(20GB) + KV ์บ์(2GB) + ์์คํ (2GB) = ์ฝ 24GB ํ ๋น.
ํญ์ ์ด๋ก ์ ์ต์์น๋ณด๋ค ์ต์ 1~2GB ์ฌ์ ๊ฐ ์๋ GPU๋ฅผ ๊ตฌ๋งคํ์ญ์์ค.
VRAM์ ๊ดํ ์ผ๋ฐ์ ์ธ ์คํด
- VRAM์ด ๋ง์์๋ก ์ถ๋ก ์ด ๋น ๋ฆ ๋๋ค. ํ๋ ธ์ต๋๋ค. VRAM ํฌ๊ธฐ๋ ์๋์ ์ํฅ์ ์ฃผ์ง ์์ต๋๋ค. ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ(GB/์ด)์ด ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ด๋ GPU๋ง๋ค ๊ณ ์ ๋์ด ์์ต๋๋ค.
- ๋ฐฐ์น ํฌ๊ธฐ = ์์ฐจ์ ํ ํฐ ํ๊ณ. ํ๋ ธ์ต๋๋ค. ๋ฐฐ์น ํฌ๊ธฐ = ๋ณ๋ ฌ ์์ฒญ. ๋จ์ผ ์ถ๋ก ์ VRAM ํฌ๊ธฐ์ ๊ด๊ณ์์ด batch=1์ ์ฌ์ฉํฉ๋๋ค.
- 70B ๋ชจ๋ธ์๋ 24GB๊ฐ ํ์ํฉ๋๋ค. ํ๋ ธ์ต๋๋ค. Q4๋ 24GB๊ฐ ํ์ํฉ๋๋ค. Q8์ 48GB๊ฐ ํ์ํฉ๋๋ค. ์์ํ์ ๋ฐ๋ผ ๋ค๋ฆ ๋๋ค.
VRAM ๊ณ์ฐ๊ธฐ
๋ชจ๋ธ ํฌ๊ธฐ์ ์์ํ๋ฅผ ์ ํํ์ฌ VRAM ์๊ตฌ ์ฌํญ์ ์ถ์ ํ์ญ์์ค.
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
๐ Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
๐ก Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
๐ Share this configuration:
FAQ
Mistral Small์ 6GB GPU์์ ์คํํ ์ ์์ต๋๊น?
Q4์์ ์ค๋ฒํค๋๋ฅผ ๋นก๋นกํ๊ฒ ์ก์ผ๋ฉด ๊ฐ์ ํ ๊ฐ๋ฅํฉ๋๋ค. ์ค์ง์ ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ์ต์ 8GB๋ฅผ ๊ตฌ๋งคํ์ญ์์ค. 6GB์์๋ OOM ์ค๋ฅ๊ฐ ๋ฐ์ํฉ๋๋ค.
7B ๋ชจ๋ธ์ ํ์ธํ๋ํ๋ ค๋ฉด VRAM์ด ์ผ๋ง๋ ํ์ํฉ๋๊น?
LoRA: 12~16GB. ์ ์ฒด ํ์ธํ๋: 28GB ์ด์. ํ์ธํ๋์ ์ตํฐ๋ง์ด์ ์ํ(๋ชจ๋ธ VRAM์ 2~4๋ฐฐ)๊ฐ ํ์ํ๋ฉฐ, ์ถ๋ก ๋ง์ด ์๋๋๋ค.
Llama 3 13B์ 12GB๋ก ์ถฉ๋ถํฉ๋๊น?
Q4์์๋ ๊ฐ์ ํ ๊ฐ๋ฅํฉ๋๋ค. Q5 ๋๋ Q8์์๋ ๋ถ๊ฐ๋ฅํฉ๋๋ค. 12GB๋ ๋น ๋ฏํฉ๋๋ค. 16GB๊ฐ ํธ์ํฉ๋๋ค.
70B ๋ชจ๋ธ์ 24GB๊ฐ ํ์ํฉ๋๊น?
Q4์์๋ ์. Q5 ์ด์์์๋ ์๋๋๋ค. ๋ ๋์ ์์ํ(Q5, Q8)๋ 70B์ 32GB ์ด์์ด ํ์ํฉ๋๋ค.
๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ฉด ๋จ์ผ ์ถ๋ก ์ VRAM์ด ์ค์ด๋ญ๋๊น?
์๋๋๋ค. ๋จ์ผ ์ถ๋ก ์ ํญ์ batch=1 VRAM์ ์ฌ์ฉํฉ๋๋ค. ๋ฐฐ์น ํฌ๊ธฐ๋ ์ฒ๋ฆฌ๋(๋ค์ค ์ฌ์ฉ์ ์๋๋ฆฌ์ค)์๋ง ๋์์ด ๋ฉ๋๋ค.
์ ํ๋๋ฅผ ์ํ ์ต๊ณ ์ ์์ํ๋ ๋ฌด์์ ๋๊น?
Q8์ ๊ฑฐ์ ๊ฐ์งํ๊ธฐ ์ด๋ ค์ด ์์ค์ ๋๋ค. Q5๋ ์ฝ 2% ์์ค. Q4๋ ์ฝ 1% ์์ค. ๋๋ถ๋ถ์ ๊ฒฝ์ฐ Q4๊ฐ ์ต์ ์ ์ ๋๋ค.
VRAM ์ผ๋ถ๋ฅผ CPU RAM์ผ๋ก ์คํ๋ก๋ํ ์ ์์ต๋๊น?
์, ๋ ์ด์ด ๋ถํ (NVLink)์ ํตํด ๊ฐ๋ฅํฉ๋๋ค. Llama.cpp์ Ollama๊ฐ ์ด๋ฅผ ์ง์ํฉ๋๋ค. ์ฑ๋ฅ์ 30~50% ์ ํ๋์ง๋ง ์๋ํฉ๋๋ค. VRAM์ด 8GB ๋ฏธ๋ง์ด์ญ๋๊น? **์ ํํ ํ๋์จ์ด ๋ฑ๊ธ์์ ๊ฐ์ฅ ๋น ๋ฅธ ๋ชจ๋ธ์ ํ์ธํ์ญ์์ค** โ CPU ์ ์ฉ, 4 GB, 6 GB, 8 GB VRAM์ ์ค์ tok/์ด ๋ฒค์น๋งํฌ.
์ฐธ๊ณ ์๋ฃ
- NVIDIA CUDA ๋ฉ๋ชจ๋ฆฌ ์ํคํ ์ฒ ๋ฐ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ ๋ชจ๋ธ ๋ฌธ์
- Ollama ๋ฐ LM Studio ๊ณต์ ๋ฌธ์: ๋ชจ๋ธ VRAM ์๊ตฌ ์ฌํญ ๋ฐ ์์ํ ์ฌ์
- llama.cpp ํ๋ก์ ํธ GitHub: ์์ํ ์์ค(Q4, Q5, Q8) ๋ฐ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ฐ