Key Takeaways
- VRAM = (๋ชจ๋ธ ํฌ๊ธฐ ร ์์ํ ๋นํธ) รท 8
- FP16 = 16๋นํธ, Q8 = 8๋นํธ, Q5 = 5๋นํธ, Q4 = 4๋นํธ
- ์์: 13B ๋ชจ๋ธ Q4 = (13 ร 4) รท 8 = 6.5 GB
- ์ปจํ ์คํธ, ์์คํ ์ค๋ฒํค๋, ์์ ๋ง์ง์ ์ํด ํญ์ 25% ๋ฒํผ๋ฅผ ์ถ๊ฐํ์ญ์์ค
- 2026๋ 4์ ๊ธฐ์ค, ์ด ๊ณต์์ ์ ํ๋๋ ยฑ10% ์ด๋ด์ ๋๋ค
๋น ๋ฅธ ์ฌ์ค: GPU๋ณ VRAM ์๊ตฌ ์ฌํญ
- RTX 4090 (24 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB), 70B๋ ์คํ๋ก๋ฉ ์ฌ์ฉ ์ Q4๋ก ๊ฐ๋ฅ
- RTX 4080 (16 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB), 32B(Q4, 16 GB)
- RTX 4070 Ti (12 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB, ์ฌ์ ๊ณต๊ฐ ๋ถ์กฑ)
- M5 Max Mac (36 GB ํตํฉ ๋ฉ๋ชจ๋ฆฌ): Llama 3.3 13B(FP16, 26 GB), 70B๋ ๊ทน๋จ์ ์์ํ ์์ด ๋ถ๊ฐ
- ๊ฒฝํ ๋ฒ์น: ์ปจํ ์คํธ, ๋ฐฐ์นญ, ์์คํ ์ค๋ฒํค๋๋ฅผ ์ํด ํญ์ ๊ณต์ ๊ฒฐ๊ณผ๋ณด๋ค 25~40% ์ถ๊ฐ VRAM์ ํ๋ณดํ์ญ์์ค
ํ ๋ฌธ์ฅ ์์ฝ
ํ์ํ VRAM(GB)์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์(B)์ ์์ํ ๋นํธ(FP16์ ๊ฒฝ์ฐ 16, Q8์ 8, Q4๋ 4 ๋ฑ)๋ฅผ ๊ณฑํ ๋ค 8๋ก ๋๋ ๊ฐ์ ๋๋ค.
์ฌ์ด ์ค๋ช
VRAM์ ์ฑ ์ฅ ๊ณต๊ฐ์ผ๋ก ์๊ฐํ์ญ์์ค. ๋๊บผ์ด ์ฑ (70B์ฒ๋ผ ํ๋ผ๋ฏธํฐ๊ฐ ๋ง์ ๋ชจ๋ธ)์ ๋ ๋ง์ ๊ณต๊ฐ์ ์ฐจ์งํ๊ณ , ์์ ์ฑ (Q4 ์์ํ)์ ๋๊บผ์ด ์ฑ (FP16)๋ณด๋ค ๊ณต๊ฐ์ ๋ ์ฐจ์งํฉ๋๋ค. ๊ณต์์ ํ์ํ "์ฑ ์ฅ ์นธ ์(GB)"๋ฅผ ์ ํํ ์๋ ค์ค๋๋ค. ๋ํ, ๋์ ์์ฒญ ์ฒ๋ฆฌ, ์์คํ ์ํํธ์จ์ด๋ฅผ ์ํด ํญ์ ์ฌ๋ถ์ ๊ณต๊ฐ์ ๋จ๊ฒจ ๋์ญ์์ค.
VRAM ๊ณต์์ด๋ ๋ฌด์์ ๋๊น?
VRAM ์๊ตฌ๋ ๊ณต์์ ๋๋๋๋ก ๋จ์ํฉ๋๋ค:
๐ก ํ๋ก ํ: ์ด ๊ณต์์ ๋ชจ๋ธ ๊ฐ์ค์น๋ง ๊ณ์ฐํฉ๋๋ค. ์ปจํ ์คํธ, ๋ฐฐ์นญ, ์์คํ ์ค๋ฒํค๋๋ก ์ธํด ์ค์ VRAM ์ฌ์ฉ๋์ 25~40% ๋ ๋์ต๋๋ค. ํญ์ ์์ ๋ง์ง์ ์ถ๊ฐํ์ญ์์ค.
VRAM (GB) = (๋ชจ๋ธ ํฌ๊ธฐ(B) ร ์์ํ ๋นํธ) รท 8
์์:
- 7B ๋ชจ๋ธ, 4๋นํธ ์์ํ
- (7 ร 4) รท 8 = 3.5 GB
- 13B ๋ชจ๋ธ, 5๋นํธ ์์ํ
- (13 ร 5) รท 8 = 8.125 GB
- 70B ๋ชจ๋ธ, 8๋นํธ ์์ํ
- (70 ร 8) รท 8 = 70 GB์ธํฐ๋ํฐ๋ธ VRAM ๊ณ์ฐ๊ธฐ
์ด ๊ณ์ฐ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ, ์์ํ, ์ปจํ ์คํธ, ๋ฐฐ์น ํฌ๊ธฐ์ ๋ชจ๋ ์กฐํฉ์ ๋ํด ์ ํํ VRAM ์๊ตฌ๋์ ๊ณ์ฐํ ์ ์์ต๋๋ค. ๊ตฌ์ฑ์ ์ ํํ๋ฉด ์ด๋ค GPU์ ์ ํฉํ์ง ํ์ธํ ์ ์์ต๋๋ค.
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
๐ Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
๐ก Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
๐ Share this configuration:
์์ํ ์์ค์ด๋ ๋ฌด์์ ๋๊น?
๐ ํต์ฌ ์ธ์ฌ์ดํธ: ์์ํ๋ ํ์ผ ํฌ๊ธฐ์ ํ์ง์ ๋ง๋ฐ๊ฟ๋๋ค. Q5๊ฐ ์ต์ ์ ๊ท ํ์ ์ ๋๋ค(ํ์ง 95%, ํฌ๊ธฐ 68% ๊ฐ์). Q4๋ ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ์ ํฉํฉ๋๋ค. Q3 ์ดํ๋ ์ฃ์ง ๋๋ฐ์ด์ค๋ VRAM์ด ์ฌ๊ฐํ๊ฒ ๋ถ์กฑํ ๊ฒฝ์ฐ์๋ง ์ฌ์ฉํ์ญ์์ค.
| ์์ํ | ํฌ๊ธฐ ๊ฐ์ | ํ์ง | ์๋ | ์ฌ์ฉ ์ฌ๋ก |
|---|---|---|---|---|
| FP16 (16๋นํธ) | ์์ (๊ธฐ์ค) | 100% (์๋ฒฝ) | ๊ธฐ์ค | ์ฐ๊ตฌ, ํ์ธํ๋ |
| Q8 (8๋นํธ) | 50% | 99% (์ฐจ์ด ์์) | ๊ธฐ์ค | ํ๋ก๋์ , ๋ก์ปฌ ์๋ฒ |
| Q6 (6๋นํธ) | 62.5% | 98% (๋ฏธ๋ฏธํ ์ฐจ์ด) | ๊ธฐ์ค | ๊ท ํ ์ฌ์ฉ |
| Q5 (5๋นํธ) | 68.75% | 95% (์ฝ๊ฐ์ ์์ค) | ๊ธฐ์ค | ์ข์ ์์ถ, ์๋น์์ฉ |
| Q4 (4๋นํธ) | 75% | 90~95% (ํ์ฉ ๊ฐ๋ฅ) | ๊ธฐ์ค | ์ต๋ ์์ถ |
| Q3 (3๋นํธ) | 81% | 80~85% (๋์ ๋๋ ์์ค) | ๋ ๋น ๋ฆ | ๊ทน๋จ์ ์์ถ, CPU์ฉ |
| Q2 (2๋นํธ) | 87.5% | 70% (๊ฐ์์ ์์ค) | ๊ฐ์ฅ ๋น ๋ฆ | ์ํ ๋ชจ๋ธ, ์ฃ์ง ๋๋ฐ์ด์ค |
๋น ๋ฅธ ์ฐธ์กฐ ํ: ๋ชจ๋ธ ๋ฐ ์์ํ๋ณ VRAM
| ๋ชจ๋ธ | FP16 | Q8 | Q5 | Q4 |
|---|---|---|---|---|
| 3B | 6 GB | 3 GB | 1.9 GB | 1.5 GB |
| 7B | 14 GB | 7 GB | 4.4 GB | 3.5 GB |
| 13B | 26 GB | 13 GB | 8.1 GB | 6.5 GB |
| 32B | 64 GB | 32 GB | 20 GB | 16 GB |
| 70B | 140 GB | 70 GB | 43.75 GB | 35 GB |
์ค์ ์ฌ๋ก
์ผ๋ฐ์ ์ธ ์๋๋ฆฌ์ค์ ๋ํ ์ค์ฉ์ ์ธ VRAM ๊ณ์ฐ:
โ ๏ธ ์ฃผ์: ์ด ๊ณ์ฐ์ ๋ชจ๋ธ ๊ฐ์ค์น๋ง์ ๋์์ผ๋ก ํฉ๋๋ค. ์ปจํ ์คํธ, ๋ฐฐ์น ์ฒ๋ฆฌ, ์์คํ ์ค๋ฒํค๋๋ฅผ ์ํด 25~40%๋ฅผ ์ถ๊ฐํ์ญ์์ค. ์: 13B Q5 = 8.1 GB ๋ชจ๋ธ + 2~3 GB ์ค๋ฒํค๋ = ์ค์ 10~11 GB.
- RTX 4070 Ti (12 GB): Llama 3.3 7B Q4 = 3.5 GB โ(์ฌ์ ์ถฉ๋ถ). Llama 3.3 13B Q5 = 8.1 GB โ(์ปจํ ์คํธ/๋ฐฐ์นญ ์์ด ์๋).
- RTX 4090 (24 GB): Llama 3.3 70B Q5 = 43.75 GB โ(๋๋ฌด ํผ). Llama 3.3 70B Q4 = 35 GB โ(์ฌ์ ํ ์ด๊ณผ). Llama 3.3 70B Q4 + ์คํ๋ก๋ฉ = ์๋(๋๋ฆผ, 3~5 tok/sec).
- M5 Max Mac (36 GB): Llama 3.3 13B FP16 = 26 GB โ(์๋). Llama 3.3 70B = ๋ถ๊ฐ(Q2์์๋ ํ์ง ์์ค ~70%).
๋ด GPU์ ๋ง๋ ๋ก์ปฌ LLM์? 2026 ๊ฐ์ด๋
์์ ์ธํฐ๋ํฐ๋ธ ๊ณ์ฐ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ํํ ์ ํฉ ์ฌ๋ถ๋ฅผ ํ์ธํ์ญ์์ค. ์๋๋ ์ผ๋ฐ์ ์ธ GPU ์๋๋ฆฌ์ค์ ๊ถ์ฅ ๋ชจ๋ธ์ ๋๋ค.
- RTX 3060 (12 GB): ์ต์ ์ ๋ชจ๋ธ: Qwen3 7B Q5(4.4 GB) โ. ๋์: Llama 3.2 8B Q4(4 GB) โ. ๋ถ๊ฐ: 32B ์ด์ ๋ชจ๋ธ.
- RTX 4070 (12 GB): ์ต์ ์ ๋ชจ๋ธ: Qwen3 13B Q4(6.5 GB) โ. ์ฌ์ ์๋ ์ต์ : Llama 3.2 8B Q5(5 GB) โ. ๋ถ๊ฐ: 32B ๋ชจ๋ธ.
- RTX 4070 Ti (12 GB): ์ต์ ์ ๋ชจ๋ธ: Qwen3 13B Q5(8.1 GB) โ. ๋นก๋นกํ ์ ํฉ: Llama 3.3 13B Q4(6.5 GB) โ. ๋น๊ถ์ฅ: ๋ฐฐ์น ์ฒ๋ฆฌ.
- RTX 4080 (16 GB): ์ต์ ์ ๋ชจ๋ธ: Qwen3 32B Q4(16 GB) โ ๋นก๋นก. ์ฌ์ ์๋ ์ต์ : Mistral 3.1 24B Q5(15 GB) โ. ๊ถ์ฅ: Llama 3.3 13B Q8(13 GB) โ.
- RTX 4090 (24 GB): ์ต์ ์ ๋ชจ๋ธ: Qwen3 32B Q5(20 GB) โ. ์คํ๋ก๋ฉ ์ฌ์ฉ: Llama 3.3 70B Q4(35 GB, ์คํ๋ก๋ฉ ํ์). ์ฌ์ ์๋ ์ต์ : 32B ๋ชจ๋ธ Q5/Q8.
- RTX 5090 (32 GB, ์ถ์ ์์ ): ์ต์ ์ ๋ชจ๋ธ: Llama 3.3 70B Q4(35 GB, ๋นก๋นก). ๋ ๋์ ์ต์ : Qwen3 72B Q3(27 GB) โ. ์ฌ์ ์๋ ์ต์ : 70B Q5+ + ๋ฐฐ์นญ.
๊ณต์์ ์ผ๋ง๋ ์ ํํฉ๋๊น?
๊ณต์์ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ยฑ10% ์ด๋ด๋ก ์ ํํฉ๋๋ค. ์ค์ VRAM ์ฌ์ฉ๋์ ๊ตฌํ ๋ฐฉ์, ๋ชจ๋ธ ์ํคํ ์ฒ, ์ถ๋ก ์์ง ์ต์ ํ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.
๋ณ๋ ์์ธ์๋ ๋ค์์ด ํฌํจ๋ฉ๋๋ค: ๋ค์ํ ์์ํ ํ์(GGUF vs safetensors vs AWQ), ๋ชจ๋ธ ์ํคํ ์ฒ(Transformer vs ๋น-Transformer), ์ถ๋ก ์์ง๋ณ ์ต์ ํ(vLLM, llama.cpp, Ollama).
2026๋ 4์ ๊ธฐ์ค, ๊ณต์์ ๋ณด์์ ์ธ ์ถ์ ๊ฐ์ผ๋ก ์ฌ์ฉํ์ญ์์ค. GPU ๊ตฌ๋งค ์ ์ปจํ ์คํธ ์ค๋ฒํค๋, ๋ฐฐ์นญ, ์์คํ ํ๋ก์ธ์ค๋ฅผ ๊ณ ๋ คํ์ฌ ํญ์ 25% ์์ ๋ง์ง์ ์ถ๊ฐํ์ญ์์ค.
VRAM ๊ณ์ฐ์์ ํํ ์ ์ง๋ฅด๋ ์ค์
- ์ปจํ ์คํธ ์ค๋ฒํค๋๋ฅผ ์์ด๋ฒ๋ฆฌ๋ ๊ฒ. 7B ๋ชจ๋ธ Q4๋ 3.5 GB์ด์ง๋ง, 4k ์ปจํ ์คํธ๊ฐ ์ถ๊ฐ๋๋ฉด ์ด 5~6 GB๊ฐ ํ์ํฉ๋๋ค.
- ์์ํ๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ HuggingFace์์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ. 70B๋ 700์ต ํ๋ผ๋ฏธํฐ๋ฅผ ์๋ฏธํ๋ฉฐ 70 GB VRAM์ด ์๋๋๋ค.
- ์์คํ ์ค๋ฒํค๋๋ฅผ ๊ณ ๋ คํ์ง ์๋ ๊ฒ. ๋ชจ๋ธ์ด GPU VRAM์ 100% ์ฌ์ฉํ์ง๋ ์์ต๋๋ค. OS์ ์ถ๋ก ์์ง์ ์ํด 1~2 GB๋ฅผ ํ๋ณดํ์ญ์์ค.
- ๊ณ์ฐ๋ ํฌ๊ธฐ์ ๋ฑ ๋ง๋ GPU๋ฅผ ๊ตฌ๋งคํ๋ ๊ฒ. ํญ์ 25% ์ด์ ์ฌ์ ์๋ GPU๋ฅผ ๊ตฌ๋งคํ์ญ์์ค. ๊ณ์ฐ ๊ฒฐ๊ณผ๊ฐ 18 GB๋ผ๋ฉด 24 GB GPU๋ฅผ ์ ํํ์ญ์์ค.
์ง์ญ๋ณ ๋ฐฐํฌ ์ ๊ณ ๋ ค ์ฌํญ
์ ๋ฝ ์ฐํฉ (GDPR): ๋ก์ปฌ ์ถ๋ก (์จํ๋ ๋ฏธ์ค)์ GDPR์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ ๊ฑฐ์ฃผ ์๊ฑด์ ๋ณด์ฅํฉ๋๋ค. ์์ฒด GPU์์ ๋ชจ๋ธ์ ์คํํ๋ฉด ์ฌ์ฉ์ ๋ฐ์ดํฐ๊ฐ ๊ตญ๋ด์ ์ ์ง๋ฉ๋๋ค. ์ด VRAM ๊ณ์ฐ๊ธฐ๋ ํ๋ผ์ด๋ฒ์ ์ฐ์ ๋ฐฐํฌ๋ฅผ ์ํ ํ๋์จ์ด ํฌ๊ธฐ ์ฐ์ ์ ๋์์ ๋๋ฆฝ๋๋ค.
์ผ๋ณธ (APPI): ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ๊ดํ ๋ฒ๋ฅ (APPI)์ ์ ์คํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์๊ตฌํฉ๋๋ค. ๋๋ฐ์ด์ค ๋ด LLM ์ถ๋ก ์ ์ผ๋ณธ ์ธ๋ถ๋ก์ ๋ฐ์ดํฐ ์ ์ก ๋ฐ ์ฒ๋ฆฌ๋ฅผ ์ค์ ๋๋ค. ์ด ๊ณ์ฐ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ผ๋ณธ ๊ธฐ์ ๋ฐฐํฌ ์์คํ ์ ํฌ๊ธฐ๋ฅผ ์ฐ์ ํ์ญ์์ค.
์ค๊ตญ (๋ฐ์ดํฐ๋ณด์๋ฒ): ์ค๊ตญ์ 2021๋ ๋ฐ์ดํฐ๋ณด์๋ฒ์ ์ค๊ตญ ๋ด ๋ฐ์ดํฐ ๊ฑฐ์ฃผ๋ฅผ ์๋ฌดํํฉ๋๋ค. ๊ตญ๋ด ์๋ฒ(์๋ฆฌ๋ฐ๋ฐ ํด๋ผ์ฐ๋, ํ ์ผํธ ํด๋ผ์ฐ๋)์์์ ๋ก์ปฌ LLM ์ถ๋ก ์ ๋ฒ๊ท๋ฅผ ์ค์ํฉ๋๋ค. ์ด ๊ณต์์ Qwen3 ๊ฐ์ ์ค๊ตญ ์ต์ ํ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ฐฐํฌ ํฌ๊ธฐ ์ฐ์ ์๋ ์ ์ฉ๋ฉ๋๋ค.
๋ชจ๋ ์ง์ญ์์ ๋ก์ปฌ ์ถ๋ก ์ ํด๋ผ์ฐ๋ API๋ณด๋ค ๊ฐ๋ ฅํ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์๋ฅผ ๋ณด์ฅํฉ๋๋ค. ์ด VRAM ๊ณ์ฐ๊ธฐ๋ ๊ท์ ์ค์ ๋ฐ ํ๋ผ์ด๋ฒ์ ๋ณดํธ AI ์์คํ ์ค๊ณ์ ํ์์ ์ ๋๋ค.
FAQ: VRAM ๋ฐ GPU ์๊ตฌ ์ฌํญ
์ด ๊ณต์์ ๋ชจ๋ ๋ชจ๋ธ ์ ํ์ ์ ์ฉ๋ฉ๋๊น?
์. (๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์(B) ร ์์ํ ๋นํธ) รท 8 ๊ณต์์ ๋ชจ๋ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ(Llama, Qwen, Mistral, Claude ๋ฑ)์ ์ ์ฉ๋ฉ๋๋ค. ๋น-Transformer ์ํคํ ์ฒ(RNN ๋ฑ)๋ ๋๋ฌผ๋ฉฐ ์กฐ์ ์ด ํ์ํ ์ ์์ต๋๋ค.
์ด๋ค ์์ํ ์์ค์ ์ฌ์ฉํด์ผ ํฉ๋๊น?
๋๋ถ๋ถ์ ์ฉ๋์์: Q5๊ฐ ์ต์ ์ ๊ท ํ์ ์ ๊ณตํฉ๋๋ค(ํ์ง 95%, ํฌ๊ธฐ 68% ๊ฐ์). ์๋น์์ฉ GPU: Q4๊ฐ ํ์ค์ ๋๋ค(ํ์ง 90~95%, 75% ๊ฐ์). ํ๋ก๋์ ์ฉ: VRAM์ด ํ์ฉํ๋ค๋ฉด Q8(ํ์ง 99%). ๋ค๋ฅธ ์ ํ์ด ์๋ ๊ฒฝ์ฐ๋ฅผ ์ ์ธํ๊ณ Q3 ์ดํ๋ ํผํ์ญ์์ค.
์์คํ RAM์ ์ผ๋ง๋ ํ์ํฉ๋๊น?
์คํ๋ก๋ฉ์ ์ํด ์ต์ 16 GB๊ฐ ํ์ํฉ๋๋ค. VRAM ์คํ๋ก๋ฉ(CPU ์ ์ถ)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์์คํ RAM์ด ๋์ฒด ์ ์ฅ์๊ฐ ๋ฉ๋๋ค. ๋ฐฐ์น ์ฒ๋ฆฌ์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์คํ๋ก๋ ์๊ตฌ ์ฌํญ ์ธ์ 8~16 GB์ ์์คํ RAM์ ์ถ๊ฐํ์ญ์์ค. ๋จ์ผ ์ฌ์ฉ์ ์ฑํ ์ ๊ฒฝ์ฐ 16 GB๋ก ์ถฉ๋ถํฉ๋๋ค.
๋ฐฐ์น ํฌ๊ธฐ๊ฐ VRAM ๊ณ์ฐ์ ์ํฅ์ ์ค๋๊น?
์. ๊ณต์์ ๋จ์ผ ์์ฒญ์ ๋ํ VRAM์ ๊ณ์ฐํฉ๋๋ค. ๋ฐฐ์น ํฌ๊ธฐ๋ VRAM์ ์ ํ์ผ๋ก ์ฆ๊ฐ์ํต๋๋ค: ๋์ ์์ฒญ์ด ์ถ๊ฐ๋ ๋๋ง๋ค ์ปจํ ์คํธ ๊ธธ์ด์ ๋ฐ๋ผ ์ฝ 500 MB~2 GB๊ฐ ์ถ๊ฐ๋ฉ๋๋ค. batch=4๋ก ์คํํ๋ ๊ฒฝ์ฐ ๊ณ์ฐ๋ ์์ 2~8 GB๋ฅผ ์ถ๊ฐํ์ญ์์ค.
12 GB GPU์์ 70B ๋ชจ๋ธ์ ์คํํ ์ ์์ต๋๊น?
๊ทน๋จ์ ์์ํ(Q2, ํ์ง ์์ค ~70%)์ CPU ์คํ๋ก๋ฉ(๋งค์ฐ ๋๋ฆผ, 1~3 tokens/sec)์ ์ฌ์ฉํด์ผ๋ง ๊ฐ๋ฅํฉ๋๋ค. ์ค์ฉ์ ์ด์ง ์์ต๋๋ค. ๋ ๋์ ์ต์ : 13B ๋ชจ๋ธ Q4(๋์ผํ VRAM, ํจ์ฌ ๋น ๋ฅด๊ณ ํ์ง๋ ์ฐ์)๋ฅผ ์ฌ์ฉํ์ญ์์ค.
์ค์ VRAM ์ฌ์ฉ๋์ด ๊ณ์ฐ๋ ๊ฐ๋ณด๋ค ๋ฎ์ผ๋ฉด ์ด๋ป๊ฒ ๋ฉ๋๊น?
๊ณต์์ ๋ณด์์ ์ด๋ฉฐ ์ค๋ฒํค๋๋ฅผ ํฌํจํฉ๋๋ค. ์ค์ ์ฌ์ฉ๋์ด ๋ฎ๋ค๋ ๊ฒ์ ๋ฐฐ์น ์ฒ๋ฆฌ, ๊ธด ์ปจํ ์คํธ, ๋๋ ์์ ๋ง์ง์ ์ํ ์ฌ์ ๊ณต๊ฐ์ด ๋ ์๋ค๋ ์๋ฏธ์ ๋๋ค. nvidia-smi๋ฅผ ์ฌ์ฉํ์ฌ ์ค์ ์ฌ์ฉ๋์ ์ธก์ ํ ๋ค์ ๋ชจ๋ธ์ ๋ฒค์น๋งํฌํ์ฌ ์ฑ๋ฅ์ ํ์ธํ์ญ์์ค.
์ถ์ฒ
- GGUF ๋ช ์ธ -- ggerganov/ggml์ ์์ํ ํ์ผ ํ์ ๋ฌธ์.
- Transformers ์์ํ ๋ฌธ์ -- Hugging Face ๊ณต์ ์์ํ ๋ฐฉ๋ฒ ๊ฐ์ด๋.
- Ollama ๋ฌธ์ -- ๋ชจ๋ธ ๊ด๋ฆฌ๋ฅผ ์ํ ๊ณต์ Ollama ๊ฐ์ด๋.
- vLLM ์ฑ๋ฅ ๊ฐ์ด๋ -- vLLM ํ๋ ์์ํฌ ์ต์ ํ ๋ฌธ์.
- VRAM์ด ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ ํํ์ง๋ง, ๋ชจ๋ธ ํฌ๊ธฐ๋ง์ด ์ถ๋ ฅ ํ์ง์ ์ ์ผํ ์ ํ ์์๋ ์๋๋๋ค. ๋ ํฐ ์ปจํ ์คํธ ์๋์ฐ๋ ๋ ๋์ ์๋ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค: ์ปจํ ์คํธ ์๋์ฐ ์ค๋ช ์์ ์ ํ ์์์ ์๋ํ๋ ๋ฐฉ๋ฒ์ ํ์ธํ์ญ์์ค.