Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Q4 vs Q5 vs Q8: ์–ด๋–ค ์–‘์žํ™” ์ˆ˜์ค€์„ ์‚ฌ์šฉํ•ด์•ผ ํ• ๊นŒ์š”?
Models by Use Case

Q4 vs Q5 vs Q8: ์–ด๋–ค ์–‘์žํ™” ์ˆ˜์ค€์„ ์‚ฌ์šฉํ•ด์•ผ ํ• ๊นŒ์š”?

ยท8๋ถ„ยทBy Hans Kuepper ยท Founder of PromptQuorum, multi-model AI dispatch tool ยท PromptQuorum

Q4(4๋น„ํŠธ)๊ฐ€ ์ตœ์ ์˜ ์„ ํƒ์ž…๋‹ˆ๋‹ค: VRAM์„ 87% ์ ˆ์•ฝํ•˜๋ฉด์„œ๋„ ํ’ˆ์งˆ ์ €ํ•˜๋Š” ๊ฑฐ์˜ ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. 2026๋…„ 6์›” ๊ธฐ์ค€์œผ๋กœ Q5๋Š” ๋ถˆํ•„์š”ํ•˜๋ฉฐ(ํ’ˆ์งˆ์ด 5%๋ฐ–์— ํ–ฅ์ƒ๋˜์ง€ ์•Š์œผ๋ฉด์„œ Q4์™€ ๋™์ผํ•œ VRAM ๋น„์šฉ), Q8์€ ์—ฌ๋ถ„์˜ VRAM์„ ๋ณด์œ ํ•œ ์™„๋ฒฝ์ฃผ์˜์ž๋ฅผ ์œ„ํ•œ ์„ ํƒ์ž…๋‹ˆ๋‹ค.

Q4(4๋น„ํŠธ)๊ฐ€ ์ตœ์ ์˜ ์„ ํƒ์ž…๋‹ˆ๋‹ค: VRAM์„ 87% ์ ˆ์•ฝํ•˜๋ฉด์„œ๋„ ํ’ˆ์งˆ ์ €ํ•˜๋Š” ๊ฑฐ์˜ ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. 2026๋…„ 6์›” ๊ธฐ์ค€์œผ๋กœ Q5๋Š” ๋ถˆํ•„์š”ํ•ฉ๋‹ˆ๋‹ค(ํ’ˆ์งˆ์ด 5%๋ฐ–์— ํ–ฅ์ƒ๋˜์ง€ ์•Š์œผ๋ฉด์„œ Q4์™€ ๋™์ผํ•œ VRAM์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค). Q8์€ ์—ฌ๋ถ„์˜ VRAM์„ ๋ณด์œ ํ•œ ์™„๋ฒฝ์ฃผ์˜์ž๋ฅผ ์œ„ํ•œ ์„ ํƒ์ž…๋‹ˆ๋‹ค. FP32(์ „์ฒด ์ •๋ฐ€๋„)๋Š” ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์—์„œ ์ถ”๋ก ์— ์‚ฌ์šฉํ•  ํ•„์š”๊ฐ€ ์ „ํ˜€ ์—†์Šต๋‹ˆ๋‹ค.

Key Takeaways

  • Q4(4๋น„ํŠธ): VRAM 87.5% ์ ˆ์•ฝ, ํ’ˆ์งˆ ์†์‹ค ์•ฝ 1%. ๋ชจ๋“  ์šฉ๋„์— ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.
  • Q5(5๋น„ํŠธ): VRAM 84% ์ ˆ์•ฝ, ํ’ˆ์งˆ ์†์‹ค ์•ฝ 0.5%. ๋ถˆํ•„์š”ํ•ฉ๋‹ˆ๋‹ค; Q4์™€ Q8์ด Q5๋ฅผ ๋Œ€์ฒดํ•ฉ๋‹ˆ๋‹ค.
  • Q8(8๋น„ํŠธ): VRAM 50% ์ ˆ์•ฝ, ํ’ˆ์งˆ ์†์‹ค 0.1% ๋ฏธ๋งŒ. ์—ฌ๋ถ„์˜ VRAM์„ ๋ณด์œ ํ•œ ์™„๋ฒฝ์ฃผ์˜์ž๋ฅผ ์œ„ํ•œ ์„ ํƒ.
  • FP32(32๋น„ํŠธ): ์ „์ฒด ์ •๋ฐ€๋„, ์†์‹ค 0%, ์ ˆ์•ฝ 0%. ๋น„์‹ค์šฉ์ ์ž…๋‹ˆ๋‹ค; ์‚ฌ์šฉํ•˜์ง€ ๋งˆ์‹ญ์‹œ์˜ค.
  • ์†๋„: ๋ชจ๋“  ์–‘์žํ™”๋Š” ๋™์ผํ•œ token/sec์œผ๋กœ ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค(๋ฉ”๋ชจ๋ฆฌ ๋ฐ”์šด๋“œ, ์ปดํ“จํŠธ ๋ฐ”์šด๋“œ ์•„๋‹˜).
  • VRAM ์‚ฌ์šฉ๋Ÿ‰(70B Llama ๋ชจ๋ธ): FP32=280GB, Q8=140GB, Q5=88GB, Q4=70GB.
  • ๊ถŒ์žฅ ์‚ฌํ•ญ: 7B-70B์—๋Š” Q4๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. VRAM์ด 32GB ์ด์ƒ์ด๊ณ  ์ตœ๊ณ  ํ’ˆ์งˆ์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋งŒ Q8์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.
  • ์•„๋ฌด๋„ Q5๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ์ด์œ : Q4 + ์†Œ๊ทœ๋ชจ ์—…๊ทธ๋ ˆ์ด๋“œ = ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด์—์„œ Q5๋ณด๋‹ค ๋‚˜์€ ๊ฒฐ๊ณผ.

๋น ๋ฅธ ์‚ฌ์‹ค ์ •๋ฆฌ

  • Q4 VRAM ์ ˆ์•ฝ: FP32 ๋Œ€๋น„ 87.5% (Llama 3 70B์˜ ๊ฒฝ์šฐ 70GB)
  • Q4 ํ’ˆ์งˆ ์†์‹ค: MMLU ๋ฒค์น˜๋งˆํฌ์—์„œ 1.2% ๋ฏธ๋งŒ
  • Q8 VRAM ์ ˆ์•ฝ: FP32 ๋Œ€๋น„ 50% (Llama 3 70B์˜ ๊ฒฝ์šฐ 140GB)
  • ์†๋„ ์ฐจ์ด: 0% โ€” ๋ชจ๋“  ์–‘์žํ™”๊ฐ€ ๋™์ผํ•œ tokens/sec์œผ๋กœ ์‹คํ–‰๋จ
  • Q5 ํ‰๊ฐ€: ๋ฐ๋“œ์กด โ€” Q4 + ๋” ํฐ ๋ชจ๋ธ = ๋™์ผํ•œ VRAM์—์„œ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ

์–‘์žํ™” ์ˆ˜์ค€ ๋น„๊ต: Q2๋ถ€ํ„ฐ Q8๊นŒ์ง€

QuantizationRAM UsageSpeedQualityBest For
Q2๋งค์šฐ ๋‚ฎ์Œ๋งค์šฐ ๋น ๋ฆ„๋‚ฎ์Œ์‹คํ—˜์šฉ
Q3๋‚ฎ์Œ๋น ๋ฆ„๋ณดํ†ต ์ดํ•˜์†Œํ˜• ๊ธฐ๊ธฐ
Q4์ค‘๊ฐ„๋น ๋ฆ„์–‘ํ˜ธ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž
Q5์ค‘๊ฐ„+๋ณดํ†ต๋งค์šฐ ์–‘ํ˜ธ์ฝ”๋”ฉ
Q6๋†’์Œ๋А๋ฆผ์šฐ์ˆ˜์ •ํ™•๋„ ์ค‘์‹ฌ
Q8๋งค์šฐ ๋†’์Œ๋А๋ฆผFP16์— ๊ฐ€๊นŒ์›€๋ฒค์น˜๋งˆํ‚น
์–‘์žํ™” ์ˆ˜์ค€๋ณ„ VRAM ์ ˆ์•ฝ๋Ÿ‰: FP32 = 280GB, Q8 = 140GB (50% ์ ˆ์•ฝ), Q4 = 70GB (75% ์ ˆ์•ฝ), Q3 = 53GB (81% ์ ˆ์•ฝ). Q4๊ฐ€ ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ตœ์ ์˜ ์„ ํƒ์ž…๋‹ˆ๋‹ค.
์–‘์žํ™” ์ˆ˜์ค€๋ณ„ VRAM ์ ˆ์•ฝ๋Ÿ‰: FP32 = 280GB, Q8 = 140GB (50% ์ ˆ์•ฝ), Q4 = 70GB (75% ์ ˆ์•ฝ), Q3 = 53GB (81% ์ ˆ์•ฝ). Q4๊ฐ€ ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ตœ์ ์˜ ์„ ํƒ์ž…๋‹ˆ๋‹ค.

์‚ฌ์šฉ ์‚ฌ๋ก€๋ณ„ ์ตœ์  ์–‘์žํ™” ์ˆ˜์ค€

  • 8GB RAM: Q3 ๋˜๋Š” Q4 (์†Œํ˜• 7B ๋ชจ๋ธ๋งŒ ๊ฐ€๋Šฅ)
  • 16GB RAM: Q4_K_M (๋Œ€๋ถ€๋ถ„์˜ ๋…ธํŠธ๋ถ์— ๊ถŒ์žฅ)
  • 32GB RAM: Q5, Q6 ๋˜๋Š” Q8 (๋” ํฐ ๋ชจ๋ธ, ๋” ๋†’์€ ํ’ˆ์งˆ)
  • ์ตœ๋Œ€ ์ •ํ™•๋„: Q8 (VRAM์ด ์ œ์•ฝ ์กฐ๊ฑด์ด ์•„๋‹Œ ๊ฒฝ์šฐ)
ํ•˜๋“œ์›จ์–ด ์„ ํƒ ๊ฐ€์ด๋“œ: 8GB RAM โ†’ Q3/Q4 (7B ๋ชจ๋ธ), 16GB โ†’ Q4_K_M (๊ถŒ์žฅ), 32GB+ โ†’ Q5/Q6/Q8 (๋” ํฐ ๋ชจ๋ธ, ๋” ๋†’์€ ํ’ˆ์งˆ), 64GB+ โ†’ Q8 ๋˜๋Š” FP32 (์—ฐ๊ตฌ/์˜๋ฃŒ).
ํ•˜๋“œ์›จ์–ด ์„ ํƒ ๊ฐ€์ด๋“œ: 8GB RAM โ†’ Q3/Q4 (7B ๋ชจ๋ธ), 16GB โ†’ Q4_K_M (๊ถŒ์žฅ), 32GB+ โ†’ Q5/Q6/Q8 (๋” ํฐ ๋ชจ๋ธ, ๋” ๋†’์€ ํ’ˆ์งˆ), 64GB+ โ†’ Q8 ๋˜๋Š” FP32 (์—ฐ๊ตฌ/์˜๋ฃŒ).

์–‘์žํ™”๊ฐ€ VRAM๊ณผ ์†๋„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

VRAM ๊ณ„์‚ฐ: ๋ชจ๋ธ ํฌ๊ธฐ(GB) ร— ์–‘์žํ™” ๊ณ„์ˆ˜.

Llama 3 70B:

  • FP32: 70B ร— 4๋ฐ”์ดํŠธ = 280GB (๋น„์‹ค์šฉ์ )
  • Q8: 70B ร— 1๋ฐ”์ดํŠธ = 140GB (140GB VRAM ํ•„์š”)
  • Q4: 70B ร— 0.5๋ฐ”์ดํŠธ = 70GB (RTX 4090์— ์ ํ•ฉ + ์ผ๋ถ€ ์˜ค๋ฒ„ํ—ค๋“œ)

์†๋„: ๋ชจ๋“  ์–‘์žํ™”๋Š” ๋ฉ”๋ชจ๋ฆฌ ๋ฐ”์šด๋“œ(DRAM ๋Œ€๊ธฐ)๋กœ, ์ปดํ“จํŠธ ๋ฐ”์šด๋“œ๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค.

๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด์—์„œ Q2-FP32 ์ „์ฒด์— ๊ฑธ์ณ Tokens/sec์€ ๋™์ผํ•ฉ๋‹ˆ๋‹ค.

VRAM ๋Œ€์—ญํญ์ด ๋ณ‘๋ชฉ์ด์ง€, ์—ฐ์‚ฐ์ด ์•„๋‹™๋‹ˆ๋‹ค. ์–‘์žํ™”๋Š” VRAM์„ ์ ˆ์•ฝํ•˜์ง€, ์‹œ๊ฐ„์„ ์ ˆ์•ฝํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์ˆ˜์ค€๋ณ„ ํ’ˆ์งˆ ์†์‹ค: MMLU ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ

MMLU ๋ฒค์น˜๋งˆํฌ(์ผ๋ฐ˜ ์ง€์‹, 57๊ฐ€์ง€ ๊ณผ์ œ)์—์„œ ์ธก์ •:

  • Llama 3 70B FP32 ๊ธฐ์ค€: 85.2% ์ •ํ™•๋„.
  • Llama 3 70B Q8: 85.1% ์ •ํ™•๋„ (-0.1% ์†์‹ค).
  • Llama 3 70B Q5: 84.7% ์ •ํ™•๋„ (-0.5% ์†์‹ค).
  • Llama 3 70B Q4: 84.0% ์ •ํ™•๋„ (-1.2% ์†์‹ค).
  • Llama 3 70B Q3: 81.5% ์ •ํ™•๋„ (-3.7% ์†์‹ค).
  • ์‹ค์ œ ์˜ํ–ฅ: Q4 vs Q8 = 100๊ฐœ ์งˆ๋ฌธ ์ค‘ 1-2๊ฐœ ๋” ์ ์€ ์ •๋‹ต.
  • ์ฑ„ํŒ…/๊ธ€์“ฐ๊ธฐ์˜ ๊ฒฝ์šฐ: ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ฐจ์ด. STEM ๋ฌธ์ œ์˜ ๊ฒฝ์šฐ: Q8์ด ๋” ์•ˆ์ „.
ํ’ˆ์งˆ ์†์‹ค ๋ฒค์น˜๋งˆํฌ: Q8 = -0.1% ์†์‹ค, Q5 = -0.5% ์†์‹ค, Q4 = -1.2% ์†์‹ค, Q3 = -3.7% ์†์‹ค (MMLU ๊ธฐ์ค€). Q4์˜ ํ’ˆ์งˆ ์†์‹ค์€ ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.
ํ’ˆ์งˆ ์†์‹ค ๋ฒค์น˜๋งˆํฌ: Q8 = -0.1% ์†์‹ค, Q5 = -0.5% ์†์‹ค, Q4 = -1.2% ์†์‹ค, Q3 = -3.7% ์†์‹ค (MMLU ๊ธฐ์ค€). Q4์˜ ํ’ˆ์งˆ ์†์‹ค์€ ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

๊ฐ ์ˆ˜์ค€์˜ ์‚ฌ์šฉ ์‹œ๊ธฐ

Q4: ๊ธฐ๋ณธ๊ฐ’. ๋ชจ๋“  ๋ชจ๋ธ์— ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. ์••์ถ•๊ณผ ํ’ˆ์งˆ์˜ ์ตœ์  ๊ท ํ˜•์ .

Q5: ์‚ฌ์šฉํ•˜์ง€ ๋งˆ์‹ญ์‹œ์˜ค. ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. Q5 ํ’ˆ์งˆ์ด ํ•„์š”ํ•˜๋‹ค๋ฉด ์•ฝ๊ฐ„ ๋” ํฐ ๋ชจ๋ธ๊ณผ Q4๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. Q5์˜ VRAM(88GB)์ด ์žˆ๋‹ค๋ฉด 70B์—์„œ Q4๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

Q8: VRAM์ด 32GB ์ด์ƒ์ด๊ณ  ๋ชจ๋ธ์ด 70B ๋ฏธ๋งŒ์ด๋ฉฐ ์™„๋ฒฝํ•œ ์ •ํ™•๋„๊ฐ€ ํ•„์š”ํ•œ ๊ฒฝ์šฐ(์—ฐ๊ตฌ, ์˜๋ฃŒ ์šฉ๋„)์—๋งŒ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

Q3: ์˜ˆ์‚ฐ ์••๋ฐ• ์‹œ. 3% ํ’ˆ์งˆ ์†์‹ค์„ ๊ฐ์ˆ˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด Q3๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. ๊ทธ๋ ‡์ง€ ์•Š๋‹ค๋ฉด GPU๋ฅผ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๊ฑฐ๋‚˜ ๋” ์ž‘์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

Q2: ์ตœํ›„์˜ ์ˆ˜๋‹จ. ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ํ’ˆ์งˆ ์ €ํ•˜๊ฐ€ ๋„ˆ๋ฌด ํฝ๋‹ˆ๋‹ค. Q3์—์„œ OOM์ด ๋ฐœ์ƒํ•  ๋•Œ๋งŒ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

Q4๊ฐ€ ์—…๊ณ„ ํ‘œ์ค€์ธ ์ด์œ 

Q4๊ฐ€ ์ตœ์ ์ธ ์ด์œ :

1. VRAM 87.5% ์ ˆ์•ฝ (์ตœ๊ณ ์˜ ๋น„์œจ).

2. ํ’ˆ์งˆ ์†์‹ค 1.2% ๋ฏธ๋งŒ (์‚ฌ์šฉ์ž๊ฐ€ ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜์ค€).

3. ์†๋„ ํŒจ๋„ํ‹ฐ ์—†์Œ (๋ฉ”๋ชจ๋ฆฌ ๋ฐ”์šด๋“œ, ์ปดํ“จํŠธ ๋ฐ”์šด๋“œ ์•„๋‹˜).

4. ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์— ์ ํ•ฉ (RTX 4090 24GB์—์„œ 70B ์‹คํ–‰ ๊ฐ€๋Šฅ).

5. ์—…๊ณ„ ํ‘œ์ค€ (HuggingFace, Ollama๊ฐ€ Q4๋ฅผ ๊ธฐ๋ณธ๊ฐ’์œผ๋กœ ์‚ฌ์šฉ).

2024๋…„ ์ดํ›„ ์ถœ์‹œ๋œ ๋ชจ๋“  ๋ชจ๋ธ์€ ํ”„๋กœ๋•์…˜ ์‚ฌ์šฉ์„ ์œ„ํ•œ Q4 ๋ณ€ํ˜•์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ์ด FP32/Q8/Q5๋งŒ ์žˆ๋‹ค๋ฉด ํ•ด๋‹น ํ”„๋กœ์ ํŠธ๋Š” ํ”„๋กœ๋•์…˜ ์ค€๋น„๊ฐ€ ๋˜์ง€ ์•Š์€ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ผ๋ฐ˜์ ์ธ ์˜คํ•ด

  • Q4๋Š” 4๋น„ํŠธ์ฒ˜๋Ÿผ ๋“ค๋ ค "์ €ํ’ˆ์งˆ"๋กœ ๋“ค๋ฆฝ๋‹ˆ๋‹ค. ํ‹€๋ ธ์Šต๋‹ˆ๋‹ค. 1% ํ’ˆ์งˆ ์†์‹ค์€ ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.
  • ์–‘์žํ™”๊ฐ€ ์ถ”๋ก ์„ ๋А๋ฆฌ๊ฒŒ ๋งŒ๋“ ๋‹ค. ํ‹€๋ ธ์Šต๋‹ˆ๋‹ค. ์†๋„๋Š” ๋™์ผํ•ฉ๋‹ˆ๋‹ค(๋ฉ”๋ชจ๋ฆฌ ๋ฐ”์šด๋“œ, ์ปดํ“จํŠธ ๋ฐ”์šด๋“œ ์•„๋‹˜).
  • ์•ˆ์ „์„ ์œ„ํ•ด Q8์„ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค. ํ‹€๋ ธ์Šต๋‹ˆ๋‹ค. Q4๋Š” ๊ฒ€์ฆ๋˜๊ณ  ์•ˆ์ „ํ•˜๋ฉฐ ํ‘œ์ค€์ž…๋‹ˆ๋‹ค. Q8์€ ๋‚ญ๋น„์ ์ž…๋‹ˆ๋‹ค.
  • ์ •ํ™•๋„๋ฅผ ์œ„ํ•ด FP32๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ํ‹€๋ ธ์Šต๋‹ˆ๋‹ค. ์ ˆ๋Œ€ ๊ทธ๋ ‡์ง€ ์•Š์Šต๋‹ˆ๋‹ค. Q8์€ ์—ฐ๊ตฌ์—๋„ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

FAQ

LLM ์–‘์žํ™”๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

์–‘์žํ™”๋Š” ์ˆ˜์น˜ ์ •๋ฐ€๋„๋ฅผ ๋‚ฎ์ถฐ ๋ชจ๋ธ์„ ์••์ถ•ํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๊ณ  ์†๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค.

์ตœ์ ์˜ ์–‘์žํ™” ์ˆ˜์ค€์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

Q4_K_M์ด ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ ์„ฑ๋Šฅ๊ณผ ํ’ˆ์งˆ์„ ๊ท ํ˜• ์žˆ๊ฒŒ ์ œ๊ณตํ•˜๋Š” ์ตœ์ ์˜ ๊ธฐ๋ณธ๊ฐ’์ž…๋‹ˆ๋‹ค.

์–‘์žํ™”๊ฐ€ ์ •ํ™•๋„๋ฅผ ๋‚ฎ์ถฅ๋‹ˆ๊นŒ?

๋„ค, ํ•˜์ง€๋งŒ Q4โ€“Q5๋Š” ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ ์‚ฌํ•ญ์„ ํฌ๊ฒŒ ์ค„์ด๋ฉด์„œ๋„ ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

Q8์„ ์‚ฌ์šฉํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ?

์ตœ๋Œ€ ์ •ํ™•๋„๊ฐ€ ํ•„์š”ํ•˜๊ณ  ์ถฉ๋ถ„ํ•œ RAM์ด ์žˆ๋Š” ๊ฒฝ์šฐ์—๋งŒ ํ•ด๋‹น๋ฉ๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž๋Š” Q8์˜ ์ด์ ์„ ๋А๋ผ์ง€ ๋ชปํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ฝ”๋”ฉ์—๋Š” Q4์™€ Q8 ์ค‘ ์–ด๋А ๊ฒƒ์„ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

Q4. ์†๋„๋Š” ๋™์ผํ•˜๊ณ  ํ’ˆ์งˆ ์ฐจ์ด๋Š” 1%๋กœ, ์ฝ”๋“œ ์ƒ์„ฑ์—์„œ๋Š” ์ธ์ง€ํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

VRAM์ด ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ Q3๋ฅผ ์‚ฌ์šฉํ•ด๋„ ๋ฉ๋‹ˆ๊นŒ?

๋„ค. 3% ํ’ˆ์งˆ ์†์‹ค์€ ์ฑ„ํŒ…/์ฐฝ์ž‘ ๊ธ€์“ฐ๊ธฐ์—๋Š” ํ—ˆ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ถ”๋ก /์ˆ˜ํ•™์—๋Š” ํ—ˆ์šฉ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

Q6์ด๋‚˜ Q7์ด ์žˆ์Šต๋‹ˆ๊นŒ?

Q6์€ ํ‘œ์ค€ GGUF ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. Q6_K(์•ฝ 6.6๋น„ํŠธ)๋Š” ๊ฑฐ์˜ ๋ฌด์†์‹ค์ž…๋‹ˆ๋‹ค: Q6 vs Q8์€ ํ’ˆ์งˆ์—์„œ ๊ฑฐ์˜ ๋™๋“ฑํ•˜์ง€๋งŒ Q6์ด ๋” ์ž‘๊ณ , Q4 vs Q6์€ Q6์ด ํ’ˆ์งˆ์—์„œ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค(Q4๋Š” ํฌ๊ธฐ์™€ VRAM์—์„œ ์œ ๋ฆฌ). Q7์€ ํ‘œ์ค€์ด ์•„๋‹™๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์‚ฌ๋‹ค๋ฆฌ: Q4_K_M (์ตœ์  ๊ท ํ˜•), Q5_K_M, Q6_K (Q8์— ๊ฐ€๊นŒ์›€), Q8_0 (๊ฑฐ์˜ ๋ฌด์†์‹ค).

์–ด๋А ์–‘์žํ™”๊ฐ€ ๊ฐ€์žฅ ๋น ๋ฆ…๋‹ˆ๊นŒ?

๋ชจ๋‘ ๋™์ผํ•œ ์†๋„์ž…๋‹ˆ๋‹ค(๋ฉ”๋ชจ๋ฆฌ ๋ฐ”์šด๋“œ). Q2๋Š” ๋ฉ”๋ชจ๋ฆฌ ์ „์†ก์ด ์ ์–ด ์•ฝ๊ฐ„ ๋น ๋ฅด์ง€๋งŒ ์ฐจ์ด๋Š” 5% ๋ฏธ๋งŒ์ž…๋‹ˆ๋‹ค.

Q4๋ฅผ ๋‹ค์‹œ FP32๋กœ ์—ญ์–‘์žํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์•„๋‹ˆ์š”, ๋ฐ์ดํ„ฐ๊ฐ€ ์†์‹ค๋ฉ๋‹ˆ๋‹ค. Q4 โ†’ FP32 ๋ณด๊ฐ„์€ ์›๋ณธ์„ ๋ณต์›ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์–‘์žํ™”๋Š” ๋‹จ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค.

ํŒŒ์ธํŠœ๋‹ํ•œ ๋ชจ๋ธ์„ ์–‘์žํ™”ํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

๋„ค, ํ•™์Šต ํ›„์— ์ˆ˜ํ–‰ํ•˜์‹ญ์‹œ์˜ค. ๋ฐฐํฌ๋ฅผ ์œ„ํ•ด ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜๋ฅผ Q4๋กœ ์–‘์žํ™”ํ•˜์‹ญ์‹œ์˜ค.

GGUF Q4_K_M์€ ๋ฌด์—‡์„ ์˜๋ฏธํ•ฉ๋‹ˆ๊นŒ?

Q4_K_M์€ K-quants(ํ˜ผํ•ฉ ์ •๋ฐ€๋„)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ •์ œ๋œ Q4 ๋ณ€ํ˜•์ž…๋‹ˆ๋‹ค. K ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์–ดํ…์…˜ ๋ ˆ์ด์–ด์—์„œ ๋” ๋งŽ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค. Q4_K_M์€ ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์—์„œ HuggingFace์˜ ๊ถŒ์žฅ ๋‹ค์šด๋กœ๋“œ๋กœ, ๋™์ผํ•œ VRAM ๋น„์šฉ์œผ๋กœ ์•ฝ 0.3% ๋” ๋†’์€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•˜๋Š” ์‚ฌ์‹ค์ƒ์˜ Q4์ž…๋‹ˆ๋‹ค.

์–‘์žํ™”๊ฐ€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด์— ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๊นŒ?

์•„๋‹ˆ์š”. ์–‘์žํ™”๋Š” ์ปจํ…์ŠคํŠธ ์ฐฝ์ด ์•„๋‹Œ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋ฅผ ์••์ถ•ํ•ฉ๋‹ˆ๋‹ค. Q4 ๋ชจ๋ธ์€ FP32 ๋ฒ„์ „๊ณผ ๋™์ผํ•œ ์ตœ๋Œ€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด(์˜ˆ: 128k ํ† ํฐ)๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ปจํ…์ŠคํŠธ ๋ฉ”๋ชจ๋ฆฌ(KV ์บ์‹œ)๋Š” ์–‘์žํ™”์™€ ๋ณ„๊ฐœ์˜ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

์ถœ์ฒ˜

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each providerโ€™s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both โ€” you pick the backend.

Join the PromptQuorum Waitlist โ†’

โ† Back to Local LLMs

Q4 vs Q5 vs Q8: ์†๋„, RAM, ํ’ˆ์งˆ์„ ์œ„ํ•œ ์ตœ์ ์˜ LLM ์–‘์žํ™” (2026)