Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/VRAM ๊ณ„์‚ฐ๊ธฐ 2026: 7B/13B/70B LLM GPU ์š”๊ตฌ ์‚ฌํ•ญ (Q4, Q5, Q8)
Hardware & Performance

VRAM ๊ณ„์‚ฐ๊ธฐ 2026: 7B/13B/70B LLM GPU ์š”๊ตฌ ์‚ฌํ•ญ (Q4, Q5, Q8)

ยท10๋ถ„ ์†Œ์š”ยทBy Hans Kuepper ยท Founder of PromptQuorum, multi-model AI dispatch tool ยท PromptQuorum

์ด ๊ฐ€์ด๋“œ๋Š” ๋ชจ๋“  ๋ชจ๋ธ๊ณผ ํ•˜๋“œ์›จ์–ด ์กฐํ•ฉ์— ๋Œ€ํ•œ ์ •ํ™•ํ•œ VRAM ์š”๊ตฌ ์‚ฌํ•ญ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๊ณต์‹์€ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค: (๋ชจ๋ธ ํฌ๊ธฐ GB ร— ์–‘์žํ™” ๋น„ํŠธ) รท 8 = ํ•„์š” VRAM.

๋กœ์ปฌ LLM์„ ์œ„ํ•œ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ VRAM ๊ณ„์‚ฐ๊ธฐ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ ํฌ๊ธฐ, ์–‘์žํ™”, ์ปจํ…์ŠคํŠธ ๊ธธ์ด, ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ์ •ํ™•ํ•œ GPU VRAM ์š”๊ตฌ๋Ÿ‰์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. FP16, Q8, Q5, Q4 ์–‘์žํ™” ๋ฐฉ์‹์œผ๋กœ 1B~405B ๋ชจ๋ธ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. RTX 4090, 4080, 3060 ์ ํ•ฉ์„ฑ ๋ถ„์„ ๋ฐ ์˜ค๋ฒ„ํ—ค๋“œ ๊ณ„์‚ฐ์ด 2026๋…„ 4์›” ๊ธฐ์ค€์œผ๋กœ ์—…๋ฐ์ดํŠธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Slide Deck: VRAM ๊ณ„์‚ฐ๊ธฐ 2026: 7B/13B/70B LLM GPU ์š”๊ตฌ ์‚ฌํ•ญ (Q4, Q5, Q8)

์•„๋ž˜ ์Šฌ๋ผ์ด๋“œ ๋ฑ์€ ๋‹ค์Œ ๋‚ด์šฉ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค: VRAM ๊ณต์‹ (๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(B) ร— ์–‘์žํ™” ๋น„ํŠธ) รท 8, Q2~FP16 ์–‘์žํ™” ์ˆ˜์ค€๊ณผ ํ’ˆ์งˆ ์ ˆ์ถฉ์ , ๋น ๋ฅธ ์ฐธ์กฐ ํ‘œ(3B~70B ๋ชจ๋ธ), ์‹ค์ œ GPU ์‹œ๋‚˜๋ฆฌ์˜ค(RTX 4090, 4080, M5 Max), ์ง€์—ญ ๊ทœ์ • ์ค€์ˆ˜(EU GDPR, ์ผ๋ณธ APPI, ์ค‘๊ตญ ๋ฐ์ดํ„ฐ๋ณด์•ˆ๋ฒ•). PDF๋ฅผ VRAM ๊ณ„์‚ฐ๊ธฐ ์ฐธ์กฐ ์นด๋“œ๋กœ ๋‹ค์šด๋กœ๋“œํ•˜์‹ญ์‹œ์˜ค.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • VRAM = (๋ชจ๋ธ ํฌ๊ธฐ ร— ์–‘์žํ™” ๋น„ํŠธ) รท 8
  • FP16 = 16๋น„ํŠธ, Q8 = 8๋น„ํŠธ, Q5 = 5๋น„ํŠธ, Q4 = 4๋น„ํŠธ
  • ์˜ˆ์‹œ: 13B ๋ชจ๋ธ Q4 = (13 ร— 4) รท 8 = 6.5 GB
  • ์ปจํ…์ŠคํŠธ, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ, ์•ˆ์ „ ๋งˆ์ง„์„ ์œ„ํ•ด ํ•ญ์ƒ 25% ๋ฒ„ํผ๋ฅผ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค
  • 2026๋…„ 4์›” ๊ธฐ์ค€, ์ด ๊ณต์‹์˜ ์ •ํ™•๋„๋Š” ยฑ10% ์ด๋‚ด์ž…๋‹ˆ๋‹ค

๋น ๋ฅธ ์‚ฌ์‹ค: GPU๋ณ„ VRAM ์š”๊ตฌ ์‚ฌํ•ญ

  • RTX 4090 (24 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB), 70B๋Š” ์˜คํ”„๋กœ๋”ฉ ์‚ฌ์šฉ ์‹œ Q4๋กœ ๊ฐ€๋Šฅ
  • RTX 4080 (16 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB), 32B(Q4, 16 GB)
  • RTX 4070 Ti (12 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB, ์—ฌ์œ  ๊ณต๊ฐ„ ๋ถ€์กฑ)
  • M5 Max Mac (36 GB ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ): Llama 3.3 13B(FP16, 26 GB), 70B๋Š” ๊ทน๋‹จ์  ์–‘์žํ™” ์—†์ด ๋ถˆ๊ฐ€
  • ๊ฒฝํ—˜ ๋ฒ•์น™: ์ปจํ…์ŠคํŠธ, ๋ฐฐ์นญ, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์œ„ํ•ด ํ•ญ์ƒ ๊ณต์‹ ๊ฒฐ๊ณผ๋ณด๋‹ค 25~40% ์ถ”๊ฐ€ VRAM์„ ํ™•๋ณดํ•˜์‹ญ์‹œ์˜ค

ํ•œ ๋ฌธ์žฅ ์š”์•ฝ

ํ•„์š”ํ•œ VRAM(GB)์€ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(B)์— ์–‘์žํ™” ๋น„ํŠธ(FP16์˜ ๊ฒฝ์šฐ 16, Q8์€ 8, Q4๋Š” 4 ๋“ฑ)๋ฅผ ๊ณฑํ•œ ๋’ค 8๋กœ ๋‚˜๋ˆˆ ๊ฐ’์ž…๋‹ˆ๋‹ค.

์‰ฌ์šด ์„ค๋ช…

VRAM์„ ์ฑ…์žฅ ๊ณต๊ฐ„์œผ๋กœ ์ƒ๊ฐํ•˜์‹ญ์‹œ์˜ค. ๋‘๊บผ์šด ์ฑ…(70B์ฒ˜๋Ÿผ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งŽ์€ ๋ชจ๋ธ)์€ ๋” ๋งŽ์€ ๊ณต๊ฐ„์„ ์ฐจ์ง€ํ•˜๊ณ , ์–‡์€ ์ฑ…(Q4 ์–‘์žํ™”)์€ ๋‘๊บผ์šด ์ฑ…(FP16)๋ณด๋‹ค ๊ณต๊ฐ„์„ ๋œ ์ฐจ์ง€ํ•ฉ๋‹ˆ๋‹ค. ๊ณต์‹์€ ํ•„์š”ํ•œ "์ฑ…์žฅ ์นธ ์ˆ˜(GB)"๋ฅผ ์ •ํ™•ํžˆ ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ๋Œ€ํ™”, ๋™์‹œ ์š”์ฒญ ์ฒ˜๋ฆฌ, ์‹œ์Šคํ…œ ์†Œํ”„ํŠธ์›จ์–ด๋ฅผ ์œ„ํ•ด ํ•ญ์ƒ ์—ฌ๋ถ„์˜ ๊ณต๊ฐ„์„ ๋‚จ๊ฒจ ๋‘์‹ญ์‹œ์˜ค.

VRAM ๊ณต์‹์ด๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

VRAM ์š”๊ตฌ๋Ÿ‰ ๊ณต์‹์€ ๋†€๋ž๋„๋ก ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค:

๐Ÿ’ก ํ”„๋กœ ํŒ: ์ด ๊ณต์‹์€ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋งŒ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ปจํ…์ŠคํŠธ, ๋ฐฐ์นญ, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ๋กœ ์ธํ•ด ์‹ค์ œ VRAM ์‚ฌ์šฉ๋Ÿ‰์€ 25~40% ๋” ๋†’์Šต๋‹ˆ๋‹ค. ํ•ญ์ƒ ์•ˆ์ „ ๋งˆ์ง„์„ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค.

bash
VRAM (GB) = (๋ชจ๋ธ ํฌ๊ธฐ(B) ร— ์–‘์žํ™” ๋น„ํŠธ) รท 8

์˜ˆ์‹œ:
- 7B ๋ชจ๋ธ, 4๋น„ํŠธ ์–‘์žํ™”
- (7 ร— 4) รท 8 = 3.5 GB

- 13B ๋ชจ๋ธ, 5๋น„ํŠธ ์–‘์žํ™”
- (13 ร— 5) รท 8 = 8.125 GB

- 70B ๋ชจ๋ธ, 8๋น„ํŠธ ์–‘์žํ™”
- (70 ร— 8) รท 8 = 70 GB
VRAM ๊ณต์‹๊ณผ 3๊ฐ€์ง€ ๊ณ„์‚ฐ ์˜ˆ์‹œ: 7B ๋ชจ๋ธ Q4 = 3.5 GB, 13B Q5 = 8.1 GB, 70B Q8 = 70 GB. ์ปจํ…์ŠคํŠธ, ๋ฐฐ์นญ, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์œ„ํ•ด ํ•ญ์ƒ 25~40% ๋ฒ„ํผ๋ฅผ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค.
VRAM ๊ณต์‹๊ณผ 3๊ฐ€์ง€ ๊ณ„์‚ฐ ์˜ˆ์‹œ: 7B ๋ชจ๋ธ Q4 = 3.5 GB, 13B Q5 = 8.1 GB, 70B Q8 = 70 GB. ์ปจํ…์ŠคํŠธ, ๋ฐฐ์นญ, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์œ„ํ•ด ํ•ญ์ƒ 25~40% ๋ฒ„ํผ๋ฅผ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค.

์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ VRAM ๊ณ„์‚ฐ๊ธฐ

์ด ๊ณ„์‚ฐ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ, ์–‘์žํ™”, ์ปจํ…์ŠคํŠธ, ๋ฐฐ์น˜ ํฌ๊ธฐ์˜ ๋ชจ๋“  ์กฐํ•ฉ์— ๋Œ€ํ•ด ์ •ํ™•ํ•œ VRAM ์š”๊ตฌ๋Ÿ‰์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์„ฑ์„ ์„ ํƒํ•˜๋ฉด ์–ด๋–ค GPU์— ์ ํ•ฉํ•œ์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

๐Ÿ‘‰ Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

โš ๏ธ Tight

RTX 4070 (12 GB)

0.8 GB headroom

โš ๏ธ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

โš ๏ธ Tight

RTX 4080 (16 GB)

4.8 GB headroom

โœ… Fits

RTX 4090 (24 GB)

12.8 GB headroom

โœ… Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

โœ… Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

โœ… Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

โœ… Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

โœ… Fits

๐Ÿ’ก Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

๐Ÿ“‹ Share this configuration:

Loading...

์–‘์žํ™” ์ˆ˜์ค€์ด๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

๐Ÿ” ํ•ต์‹ฌ ์ธ์‚ฌ์ดํŠธ: ์–‘์žํ™”๋Š” ํŒŒ์ผ ํฌ๊ธฐ์™€ ํ’ˆ์งˆ์„ ๋งž๋ฐ”๊ฟ‰๋‹ˆ๋‹ค. Q5๊ฐ€ ์ตœ์ ์˜ ๊ท ํ˜•์ ์ž…๋‹ˆ๋‹ค(ํ’ˆ์งˆ 95%, ํฌ๊ธฐ 68% ๊ฐ์†Œ). Q4๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. Q3 ์ดํ•˜๋Š” ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค๋‚˜ VRAM์ด ์‹ฌ๊ฐํ•˜๊ฒŒ ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ์—๋งŒ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

์–‘์žํ™”ํฌ๊ธฐ ๊ฐ์†Œํ’ˆ์งˆ์†๋„์‚ฌ์šฉ ์‚ฌ๋ก€
FP16 (16๋น„ํŠธ)์—†์Œ (๊ธฐ์ค€)100% (์™„๋ฒฝ)๊ธฐ์ค€์—ฐ๊ตฌ, ํŒŒ์ธํŠœ๋‹
Q8 (8๋น„ํŠธ)50%99% (์ฐจ์ด ์—†์Œ)๊ธฐ์ค€ํ”„๋กœ๋•์…˜, ๋กœ์ปฌ ์„œ๋ฒ„
Q6 (6๋น„ํŠธ)62.5%98% (๋ฏธ๋ฏธํ•œ ์ฐจ์ด)๊ธฐ์ค€๊ท ํ˜• ์‚ฌ์šฉ
Q5 (5๋น„ํŠธ)68.75%95% (์•ฝ๊ฐ„์˜ ์†์‹ค)๊ธฐ์ค€์ข‹์€ ์••์ถ•, ์†Œ๋น„์ž์šฉ
Q4 (4๋น„ํŠธ)75%90~95% (ํ—ˆ์šฉ ๊ฐ€๋Šฅ)๊ธฐ์ค€์ตœ๋Œ€ ์••์ถ•
Q3 (3๋น„ํŠธ)81%80~85% (๋ˆˆ์— ๋„๋Š” ์†์‹ค)๋” ๋น ๋ฆ„๊ทน๋‹จ์  ์••์ถ•, CPU์šฉ
Q2 (2๋น„ํŠธ)87.5%70% (๊ฐ€์‹œ์  ์†์‹ค)๊ฐ€์žฅ ๋น ๋ฆ„์†Œํ˜• ๋ชจ๋ธ, ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค
์–‘์žํ™” ์ˆ˜์ค€ ๋น„๊ต: FP16(ํ’ˆ์งˆ 100%), Q8(99%), Q5(95%, ๊ถŒ์žฅ), Q4(90~95%), Q3(80~85%), Q2(70%). Q5๋Š” 7B ๋ชจ๋ธ์„ 14 GB์—์„œ 4.4 GB๋กœ ์ค„์ด๋ฉด์„œ ํ’ˆ์งˆ ์†์‹ค์€ 5%์— ๋ถˆ๊ณผํ•ฉ๋‹ˆ๋‹ค.
์–‘์žํ™” ์ˆ˜์ค€ ๋น„๊ต: FP16(ํ’ˆ์งˆ 100%), Q8(99%), Q5(95%, ๊ถŒ์žฅ), Q4(90~95%), Q3(80~85%), Q2(70%). Q5๋Š” 7B ๋ชจ๋ธ์„ 14 GB์—์„œ 4.4 GB๋กœ ์ค„์ด๋ฉด์„œ ํ’ˆ์งˆ ์†์‹ค์€ 5%์— ๋ถˆ๊ณผํ•ฉ๋‹ˆ๋‹ค.

๋น ๋ฅธ ์ฐธ์กฐ ํ‘œ: ๋ชจ๋ธ ๋ฐ ์–‘์žํ™”๋ณ„ VRAM

๋ชจ๋ธFP16Q8Q5Q4
3B6 GB3 GB1.9 GB1.5 GB
7B14 GB7 GB4.4 GB3.5 GB
13B26 GB13 GB8.1 GB6.5 GB
32B64 GB32 GB20 GB16 GB
70B140 GB70 GB43.75 GB35 GB
VRAM ๋น ๋ฅธ ์ฐธ์กฐ ๋งคํŠธ๋ฆญ์Šค: FP16, Q8, Q5, Q4 ์–‘์žํ™”์—์„œ 3B~70B ๋ชจ๋ธ. ์ดˆ๋ก์ƒ‰ = 12 GB GPU์— ์ ํ•ฉ. ํ™ฉ์ƒ‰ = 16~24 GB ํ•„์š”. ๋นจ๊ฐ„์ƒ‰ = 40 GB ์ด์ƒ ๋˜๋Š” ๋ฉ€ํ‹ฐ GPU ํ•„์š”.
VRAM ๋น ๋ฅธ ์ฐธ์กฐ ๋งคํŠธ๋ฆญ์Šค: FP16, Q8, Q5, Q4 ์–‘์žํ™”์—์„œ 3B~70B ๋ชจ๋ธ. ์ดˆ๋ก์ƒ‰ = 12 GB GPU์— ์ ํ•ฉ. ํ™ฉ์ƒ‰ = 16~24 GB ํ•„์š”. ๋นจ๊ฐ„์ƒ‰ = 40 GB ์ด์ƒ ๋˜๋Š” ๋ฉ€ํ‹ฐ GPU ํ•„์š”.

์‹ค์ œ ์‚ฌ๋ก€

์ผ๋ฐ˜์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•œ ์‹ค์šฉ์ ์ธ VRAM ๊ณ„์‚ฐ:

โš ๏ธ ์ฃผ์˜: ์ด ๊ณ„์‚ฐ์€ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋งŒ์„ ๋Œ€์ƒ์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ปจํ…์ŠคํŠธ, ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์œ„ํ•ด 25~40%๋ฅผ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค. ์˜ˆ: 13B Q5 = 8.1 GB ๋ชจ๋ธ + 2~3 GB ์˜ค๋ฒ„ํ—ค๋“œ = ์‹ค์ œ 10~11 GB.

  • RTX 4070 Ti (12 GB): Llama 3.3 7B Q4 = 3.5 GB โœ“(์—ฌ์œ  ์ถฉ๋ถ„). Llama 3.3 13B Q5 = 8.1 GB โœ“(์ปจํ…์ŠคํŠธ/๋ฐฐ์นญ ์—†์ด ์ž‘๋™).
  • RTX 4090 (24 GB): Llama 3.3 70B Q5 = 43.75 GB โœ—(๋„ˆ๋ฌด ํผ). Llama 3.3 70B Q4 = 35 GB โœ—(์—ฌ์ „ํžˆ ์ดˆ๊ณผ). Llama 3.3 70B Q4 + ์˜คํ”„๋กœ๋”ฉ = ์ž‘๋™(๋А๋ฆผ, 3~5 tok/sec).
  • M5 Max Mac (36 GB): Llama 3.3 13B FP16 = 26 GB โœ“(์ž‘๋™). Llama 3.3 70B = ๋ถˆ๊ฐ€(Q2์—์„œ๋„ ํ’ˆ์งˆ ์†์‹ค ~70%).
์‹ค์ œ GPU ์‹œ๋‚˜๋ฆฌ์˜ค: RTX 4090(24 GB), RTX 4080(16 GB), RTX 4070 Ti(12 GB), M5 Max Mac(36 GB), RTX 3060(12 GB) โ€” ๊ฐ GPU์—์„œ ๋‹ค์–‘ํ•œ ์–‘์žํ™” ์ˆ˜์ค€์œผ๋กœ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ Llama 3.3 ๋ชจ๋ธ.
์‹ค์ œ GPU ์‹œ๋‚˜๋ฆฌ์˜ค: RTX 4090(24 GB), RTX 4080(16 GB), RTX 4070 Ti(12 GB), M5 Max Mac(36 GB), RTX 3060(12 GB) โ€” ๊ฐ GPU์—์„œ ๋‹ค์–‘ํ•œ ์–‘์žํ™” ์ˆ˜์ค€์œผ๋กœ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ Llama 3.3 ๋ชจ๋ธ.

์ˆจ๊ฒจ์ง„ VRAM ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

๊ณต์‹์€ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋งŒ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ VRAM ์‚ฌ์šฉ๋Ÿ‰์€ ์—ฌ๋Ÿฌ ์š”์†Œ๋กœ ์ธํ•ด ๋” ๋†’์Šต๋‹ˆ๋‹ค. ๊ณ„์‚ฐ๋œ ์–‘ ์ด์ƒ์œผ๋กœ 25~40%๋ฅผ ์ถ”๊ฐ€๋กœ ํ™•๋ณดํ•˜์‹ญ์‹œ์˜ค.

์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ(ํ‚ค-๊ฐ’ ์บ์‹œ)๋Š” ์ถ”๋ก  ์ค‘ ๋Œ€ํ™” ๊ธฐ๋ก์„ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. 7B ๋ชจ๋ธ์—์„œ 4k ํ† ํฐ ์ปจํ…์ŠคํŠธ๋Š” ์•ฝ 2~3 GB๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“Œ ํ•ต์‹ฌ ํฌ์ธํŠธ: ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ๋Š” VRAM ์‚ฌ์šฉ๋Ÿ‰์„ ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค. ๋™์‹œ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ถ”๊ฐ€๋  ๋•Œ๋งˆ๋‹ค(์—ฌ๋Ÿฌ ์š”์ฒญ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ๋•Œ) ์ปจํ…์ŠคํŠธ ๊ธธ์ด์— ๋”ฐ๋ผ 500 MB~2 GB์˜ ์ถ”๊ฐ€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. batch=4๋กœ ์‹คํ–‰ํ•˜๋ฉด ๋‹จ์ผ ์š”์ฒญ VRAM์— 4๋ฅผ ๊ณฑํ•˜๊ณ  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค.

์šด์˜ ์ฒด์ œ์™€ ์ถ”๋ก  ์—”์ง„ ํ”„๋ ˆ์ž„์›Œํฌ(Ollama, vLLM, llama.cpp)์˜ ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ๋กœ 500 MB~1 GB๊ฐ€ ์˜ˆ์•ฝ๋ฉ๋‹ˆ๋‹ค. GPU๋ฅผ ์„ ํƒํ•  ๋•Œ๋Š” ํ•ญ์ƒ ์•ˆ์ „ ๋งˆ์ง„์„ ์œ ์ง€ํ•˜์‹ญ์‹œ์˜ค.

์ˆจ๊ฒจ์ง„ VRAM ์˜ค๋ฒ„ํ—ค๋“œ ๋ถ„์„: ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ(4k ํ† ํฐ ๊ธฐ์ค€ 2~3 GB), ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ(batch=4 ์‹œ ร—4), ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ(500 MB~1 GB), ์ด ์•ˆ์ „ ๋งˆ์ง„ 25~40%.
์ˆจ๊ฒจ์ง„ VRAM ์˜ค๋ฒ„ํ—ค๋“œ ๋ถ„์„: ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ(4k ํ† ํฐ ๊ธฐ์ค€ 2~3 GB), ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ(batch=4 ์‹œ ร—4), ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ(500 MB~1 GB), ์ด ์•ˆ์ „ ๋งˆ์ง„ 25~40%.

๋‚ด GPU์— ๋งž๋Š” ๋กœ์ปฌ LLM์€? 2026 ๊ฐ€์ด๋“œ

์œ„์˜ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๊ณ„์‚ฐ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •ํ™•ํ•œ ์ ํ•ฉ ์—ฌ๋ถ€๋ฅผ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค. ์•„๋ž˜๋Š” ์ผ๋ฐ˜์ ์ธ GPU ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ๊ถŒ์žฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • RTX 3060 (12 GB): ์ตœ์„ ์˜ ๋ชจ๋ธ: Qwen3 7B Q5(4.4 GB) โœ“. ๋Œ€์•ˆ: Llama 3.2 8B Q4(4 GB) โœ“. ๋ถˆ๊ฐ€: 32B ์ด์ƒ ๋ชจ๋ธ.
  • RTX 4070 (12 GB): ์ตœ์„ ์˜ ๋ชจ๋ธ: Qwen3 13B Q4(6.5 GB) โœ“. ์—ฌ์œ  ์žˆ๋Š” ์˜ต์…˜: Llama 3.2 8B Q5(5 GB) โœ“. ๋ถˆ๊ฐ€: 32B ๋ชจ๋ธ.
  • RTX 4070 Ti (12 GB): ์ตœ์„ ์˜ ๋ชจ๋ธ: Qwen3 13B Q5(8.1 GB) โœ“. ๋นก๋นกํ•œ ์ ํ•ฉ: Llama 3.3 13B Q4(6.5 GB) โœ“. ๋น„๊ถŒ์žฅ: ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ.
  • RTX 4080 (16 GB): ์ตœ์„ ์˜ ๋ชจ๋ธ: Qwen3 32B Q4(16 GB) โœ“ ๋นก๋นก. ์—ฌ์œ  ์žˆ๋Š” ์˜ต์…˜: Mistral 3.1 24B Q5(15 GB) โœ“. ๊ถŒ์žฅ: Llama 3.3 13B Q8(13 GB) โœ“.
  • RTX 4090 (24 GB): ์ตœ์„ ์˜ ๋ชจ๋ธ: Qwen3 32B Q5(20 GB) โœ“. ์˜คํ”„๋กœ๋”ฉ ์‚ฌ์šฉ: Llama 3.3 70B Q4(35 GB, ์˜คํ”„๋กœ๋”ฉ ํ•„์š”). ์—ฌ์œ  ์žˆ๋Š” ์˜ต์…˜: 32B ๋ชจ๋ธ Q5/Q8.
  • RTX 5090 (32 GB, ์ถœ์‹œ ์˜ˆ์ •): ์ตœ์„ ์˜ ๋ชจ๋ธ: Llama 3.3 70B Q4(35 GB, ๋นก๋นก). ๋” ๋‚˜์€ ์˜ต์…˜: Qwen3 72B Q3(27 GB) โœ“. ์—ฌ์œ  ์žˆ๋Š” ์˜ต์…˜: 70B Q5+ + ๋ฐฐ์นญ.

๊ณต์‹์€ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•ฉ๋‹ˆ๊นŒ?

๊ณต์‹์€ ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ยฑ10% ์ด๋‚ด๋กœ ์ •ํ™•ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ VRAM ์‚ฌ์šฉ๋Ÿ‰์€ ๊ตฌํ˜„ ๋ฐฉ์‹, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ์ถ”๋ก  ์—”์ง„ ์ตœ์ ํ™”์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.

๋ณ€๋™ ์š”์ธ์—๋Š” ๋‹ค์Œ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค: ๋‹ค์–‘ํ•œ ์–‘์žํ™” ํ˜•์‹(GGUF vs safetensors vs AWQ), ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜(Transformer vs ๋น„-Transformer), ์ถ”๋ก  ์—”์ง„๋ณ„ ์ตœ์ ํ™”(vLLM, llama.cpp, Ollama).

2026๋…„ 4์›” ๊ธฐ์ค€, ๊ณต์‹์„ ๋ณด์ˆ˜์ ์ธ ์ถ”์ •๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. GPU ๊ตฌ๋งค ์‹œ ์ปจํ…์ŠคํŠธ ์˜ค๋ฒ„ํ—ค๋“œ, ๋ฐฐ์นญ, ์‹œ์Šคํ…œ ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ํ•ญ์ƒ 25% ์•ˆ์ „ ๋งˆ์ง„์„ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค.

VRAM ๊ณต์‹ ์ •ํ™•๋„ ยฑ10%: ์–‘์žํ™” ํ˜•์‹(GGUF vs GPTQ vs AWQ), ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜(Transformer vs MoE), ์ถ”๋ก  ์—”์ง„(vLLM vs llama.cpp vs Ollama)์— ๋”ฐ๋ฅธ ์ฐจ์ด.
VRAM ๊ณต์‹ ์ •ํ™•๋„ ยฑ10%: ์–‘์žํ™” ํ˜•์‹(GGUF vs GPTQ vs AWQ), ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜(Transformer vs MoE), ์ถ”๋ก  ์—”์ง„(vLLM vs llama.cpp vs Ollama)์— ๋”ฐ๋ฅธ ์ฐจ์ด.

VRAM ๊ณ„์‚ฐ์—์„œ ํ”ํžˆ ์ €์ง€๋ฅด๋Š” ์‹ค์ˆ˜

  • ์ปจํ…์ŠคํŠธ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์žŠ์–ด๋ฒ„๋ฆฌ๋Š” ๊ฒƒ. 7B ๋ชจ๋ธ Q4๋Š” 3.5 GB์ด์ง€๋งŒ, 4k ์ปจํ…์ŠคํŠธ๊ฐ€ ์ถ”๊ฐ€๋˜๋ฉด ์ด 5~6 GB๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ์–‘์žํ™”๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  HuggingFace์—์„œ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ. 70B๋Š” 700์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ 70 GB VRAM์ด ์•„๋‹™๋‹ˆ๋‹ค.
  • ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š” ๊ฒƒ. ๋ชจ๋ธ์ด GPU VRAM์„ 100% ์‚ฌ์šฉํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. OS์™€ ์ถ”๋ก  ์—”์ง„์„ ์œ„ํ•ด 1~2 GB๋ฅผ ํ™•๋ณดํ•˜์‹ญ์‹œ์˜ค.
  • ๊ณ„์‚ฐ๋œ ํฌ๊ธฐ์™€ ๋”ฑ ๋งž๋Š” GPU๋ฅผ ๊ตฌ๋งคํ•˜๋Š” ๊ฒƒ. ํ•ญ์ƒ 25% ์ด์ƒ ์—ฌ์œ  ์žˆ๋Š” GPU๋ฅผ ๊ตฌ๋งคํ•˜์‹ญ์‹œ์˜ค. ๊ณ„์‚ฐ ๊ฒฐ๊ณผ๊ฐ€ 18 GB๋ผ๋ฉด 24 GB GPU๋ฅผ ์„ ํƒํ•˜์‹ญ์‹œ์˜ค.
4๊ฐ€์ง€ ํ”ํ•œ VRAM ์‹ค์ˆ˜: ์ปจํ…์ŠคํŠธ ์˜ค๋ฒ„ํ—ค๋“œ ๊ฐ„๊ณผ(1.5~3 GB ์ถ”๊ฐ€), 70B ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ 70 GB VRAM์œผ๋กœ ํ˜ผ๋™, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ 1~2 GB ๋ฌด์‹œ, ๊ณ„์‚ฐ๋œ ํฌ๊ธฐ ๊ทธ๋Œ€๋กœ์˜ GPU ๊ตฌ๋งค(25% ๋งˆ์ง„ ์—†์Œ).
4๊ฐ€์ง€ ํ”ํ•œ VRAM ์‹ค์ˆ˜: ์ปจํ…์ŠคํŠธ ์˜ค๋ฒ„ํ—ค๋“œ ๊ฐ„๊ณผ(1.5~3 GB ์ถ”๊ฐ€), 70B ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ 70 GB VRAM์œผ๋กœ ํ˜ผ๋™, ์‹œ์Šคํ…œ ์˜ค๋ฒ„ํ—ค๋“œ 1~2 GB ๋ฌด์‹œ, ๊ณ„์‚ฐ๋œ ํฌ๊ธฐ ๊ทธ๋Œ€๋กœ์˜ GPU ๊ตฌ๋งค(25% ๋งˆ์ง„ ์—†์Œ).

์ง€์—ญ๋ณ„ ๋ฐฐํฌ ์‹œ ๊ณ ๋ ค ์‚ฌํ•ญ

์œ ๋Ÿฝ ์—ฐํ•ฉ (GDPR): ๋กœ์ปฌ ์ถ”๋ก (์˜จํ”„๋ ˆ๋ฏธ์Šค)์€ GDPR์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ ๊ฑฐ์ฃผ ์š”๊ฑด์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ์ž์ฒด GPU์—์„œ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•˜๋ฉด ์‚ฌ์šฉ์ž ๋ฐ์ดํ„ฐ๊ฐ€ ๊ตญ๋‚ด์— ์œ ์ง€๋ฉ๋‹ˆ๋‹ค. ์ด VRAM ๊ณ„์‚ฐ๊ธฐ๋Š” ํ”„๋ผ์ด๋ฒ„์‹œ ์šฐ์„  ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ํ•˜๋“œ์›จ์–ด ํฌ๊ธฐ ์‚ฐ์ •์— ๋„์›€์„ ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

์ผ๋ณธ (APPI): ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์— ๊ด€ํ•œ ๋ฒ•๋ฅ (APPI)์€ ์‹ ์ค‘ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋””๋ฐ”์ด์Šค ๋‚ด LLM ์ถ”๋ก ์€ ์ผ๋ณธ ์™ธ๋ถ€๋กœ์˜ ๋ฐ์ดํ„ฐ ์ „์†ก ๋ฐ ์ฒ˜๋ฆฌ๋ฅผ ์ค„์ž…๋‹ˆ๋‹ค. ์ด ๊ณ„์‚ฐ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ผ๋ณธ ๊ธฐ์—… ๋ฐฐํฌ ์‹œ์Šคํ…œ์˜ ํฌ๊ธฐ๋ฅผ ์‚ฐ์ •ํ•˜์‹ญ์‹œ์˜ค.

์ค‘๊ตญ (๋ฐ์ดํ„ฐ๋ณด์•ˆ๋ฒ•): ์ค‘๊ตญ์˜ 2021๋…„ ๋ฐ์ดํ„ฐ๋ณด์•ˆ๋ฒ•์€ ์ค‘๊ตญ ๋‚ด ๋ฐ์ดํ„ฐ ๊ฑฐ์ฃผ๋ฅผ ์˜๋ฌดํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ตญ๋‚ด ์„œ๋ฒ„(์•Œ๋ฆฌ๋ฐ”๋ฐ” ํด๋ผ์šฐ๋“œ, ํ…์„ผํŠธ ํด๋ผ์šฐ๋“œ)์—์„œ์˜ ๋กœ์ปฌ LLM ์ถ”๋ก ์€ ๋ฒ•๊ทœ๋ฅผ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณต์‹์€ Qwen3 ๊ฐ™์€ ์ค‘๊ตญ ์ตœ์ ํ™” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฐํฌ ํฌ๊ธฐ ์‚ฐ์ •์—๋„ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

๋ชจ๋“  ์ง€์—ญ์—์„œ ๋กœ์ปฌ ์ถ”๋ก ์€ ํด๋ผ์šฐ๋“œ API๋ณด๋‹ค ๊ฐ•๋ ฅํ•œ ๋ฐ์ดํ„ฐ ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด VRAM ๊ณ„์‚ฐ๊ธฐ๋Š” ๊ทœ์ • ์ค€์ˆ˜ ๋ฐ ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ AI ์‹œ์Šคํ…œ ์„ค๊ณ„์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

FAQ: VRAM ๋ฐ GPU ์š”๊ตฌ ์‚ฌํ•ญ

์ด ๊ณต์‹์€ ๋ชจ๋“  ๋ชจ๋ธ ์œ ํ˜•์— ์ ์šฉ๋ฉ๋‹ˆ๊นŒ?

์˜ˆ. (๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(B) ร— ์–‘์žํ™” ๋น„ํŠธ) รท 8 ๊ณต์‹์€ ๋ชจ๋“  Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(Llama, Qwen, Mistral, Claude ๋“ฑ)์— ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋น„-Transformer ์•„ํ‚คํ…์ฒ˜(RNN ๋“ฑ)๋Š” ๋“œ๋ฌผ๋ฉฐ ์กฐ์ •์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์–ด๋–ค ์–‘์žํ™” ์ˆ˜์ค€์„ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

๋Œ€๋ถ€๋ถ„์˜ ์šฉ๋„์—์„œ: Q5๊ฐ€ ์ตœ์ ์˜ ๊ท ํ˜•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค(ํ’ˆ์งˆ 95%, ํฌ๊ธฐ 68% ๊ฐ์†Œ). ์†Œ๋น„์ž์šฉ GPU: Q4๊ฐ€ ํ‘œ์ค€์ž…๋‹ˆ๋‹ค(ํ’ˆ์งˆ 90~95%, 75% ๊ฐ์†Œ). ํ”„๋กœ๋•์…˜์šฉ: VRAM์ด ํ—ˆ์šฉํ•œ๋‹ค๋ฉด Q8(ํ’ˆ์งˆ 99%). ๋‹ค๋ฅธ ์„ ํƒ์ด ์—†๋Š” ๊ฒฝ์šฐ๋ฅผ ์ œ์™ธํ•˜๊ณ  Q3 ์ดํ•˜๋Š” ํ”ผํ•˜์‹ญ์‹œ์˜ค.

์‹œ์Šคํ…œ RAM์€ ์–ผ๋งˆ๋‚˜ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ?

์˜คํ”„๋กœ๋”ฉ์„ ์œ„ํ•ด ์ตœ์†Œ 16 GB๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. VRAM ์˜คํ”„๋กœ๋”ฉ(CPU ์œ ์ถœ)์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ์‹œ์Šคํ…œ RAM์ด ๋Œ€์ฒด ์ €์žฅ์†Œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ์˜ ๊ฒฝ์šฐ ๋ชจ๋ธ ์˜คํ”„๋กœ๋“œ ์š”๊ตฌ ์‚ฌํ•ญ ์™ธ์— 8~16 GB์˜ ์‹œ์Šคํ…œ RAM์„ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค. ๋‹จ์ผ ์‚ฌ์šฉ์ž ์ฑ„ํŒ…์˜ ๊ฒฝ์šฐ 16 GB๋กœ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

๋ฐฐ์น˜ ํฌ๊ธฐ๊ฐ€ VRAM ๊ณ„์‚ฐ์— ์˜ํ–ฅ์„ ์ค๋‹ˆ๊นŒ?

์˜ˆ. ๊ณต์‹์€ ๋‹จ์ผ ์š”์ฒญ์— ๋Œ€ํ•œ VRAM์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” VRAM์„ ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค: ๋™์‹œ ์š”์ฒญ์ด ์ถ”๊ฐ€๋  ๋•Œ๋งˆ๋‹ค ์ปจํ…์ŠคํŠธ ๊ธธ์ด์— ๋”ฐ๋ผ ์•ฝ 500 MB~2 GB๊ฐ€ ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. batch=4๋กœ ์‹คํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ ๊ณ„์‚ฐ๋œ ์–‘์— 2~8 GB๋ฅผ ์ถ”๊ฐ€ํ•˜์‹ญ์‹œ์˜ค.

12 GB GPU์—์„œ 70B ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

๊ทน๋‹จ์  ์–‘์žํ™”(Q2, ํ’ˆ์งˆ ์†์‹ค ~70%)์™€ CPU ์˜คํ”„๋กœ๋”ฉ(๋งค์šฐ ๋А๋ฆผ, 1~3 tokens/sec)์„ ์‚ฌ์šฉํ•ด์•ผ๋งŒ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์‹ค์šฉ์ ์ด์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋” ๋‚˜์€ ์˜ต์…˜: 13B ๋ชจ๋ธ Q4(๋™์ผํ•œ VRAM, ํ›จ์”ฌ ๋น ๋ฅด๊ณ  ํ’ˆ์งˆ๋„ ์šฐ์ˆ˜)๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

์‹ค์ œ VRAM ์‚ฌ์šฉ๋Ÿ‰์ด ๊ณ„์‚ฐ๋œ ๊ฐ’๋ณด๋‹ค ๋‚ฎ์œผ๋ฉด ์–ด๋–ป๊ฒŒ ๋ฉ๋‹ˆ๊นŒ?

๊ณต์‹์€ ๋ณด์ˆ˜์ ์ด๋ฉฐ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ์‚ฌ์šฉ๋Ÿ‰์ด ๋‚ฎ๋‹ค๋Š” ๊ฒƒ์€ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ, ๊ธด ์ปจํ…์ŠคํŠธ, ๋˜๋Š” ์•ˆ์ „ ๋งˆ์ง„์„ ์œ„ํ•œ ์—ฌ์œ  ๊ณต๊ฐ„์ด ๋” ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. nvidia-smi๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹ค์ œ ์‚ฌ์šฉ๋Ÿ‰์„ ์ธก์ •ํ•œ ๋‹ค์Œ ๋ชจ๋ธ์„ ๋ฒค์น˜๋งˆํฌํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค.

์ถœ์ฒ˜

  • GGUF ๋ช…์„ธ -- ggerganov/ggml์˜ ์–‘์žํ™” ํŒŒ์ผ ํ˜•์‹ ๋ฌธ์„œ.
  • Transformers ์–‘์žํ™” ๋ฌธ์„œ -- Hugging Face ๊ณต์‹ ์–‘์žํ™” ๋ฐฉ๋ฒ• ๊ฐ€์ด๋“œ.
  • Ollama ๋ฌธ์„œ -- ๋ชจ๋ธ ๊ด€๋ฆฌ๋ฅผ ์œ„ํ•œ ๊ณต์‹ Ollama ๊ฐ€์ด๋“œ.
  • vLLM ์„ฑ๋Šฅ ๊ฐ€์ด๋“œ -- vLLM ํ”„๋ ˆ์ž„์›Œํฌ ์ตœ์ ํ™” ๋ฌธ์„œ.
  • VRAM์ด ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ œํ•œํ•˜์ง€๋งŒ, ๋ชจ๋ธ ํฌ๊ธฐ๋งŒ์ด ์ถœ๋ ฅ ํ’ˆ์งˆ์˜ ์œ ์ผํ•œ ์ œํ•œ ์š”์†Œ๋Š” ์•„๋‹™๋‹ˆ๋‹ค. ๋” ํฐ ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ๋Š” ๋” ๋‚˜์€ ์‘๋‹ต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค: ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ ์„ค๋ช…์—์„œ ์ œํ•œ ์•ˆ์—์„œ ์ž‘๋™ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each providerโ€™s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both โ€” you pick the backend.

Join the PromptQuorum Waitlist โ†’

โ† Back to Local LLMs

VRAM ๊ณ„์‚ฐ๊ธฐ 2026: 7B/13B/70B LLM GPU ์š”๊ตฌ ์‚ฌํ•ญ (Q4, Q5, Q8)