Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/๋น„์ฆˆ๋‹ˆ์Šค ํŒ€์„ ์œ„ํ•œ ๋กœ์ปฌ LLM ์„œ๋ฒ„ ์„ค์ •: ๋‹ค์ค‘ ์‚ฌ์šฉ์ž ์ ‘๊ทผ ๋ฐ ๋น„์šฉ ๊ด€๋ฆฌ
ํ”„๋ผ์ด๋ฒ„์‹œ ๋ฐ ๋น„์ฆˆ๋‹ˆ์Šค

๋น„์ฆˆ๋‹ˆ์Šค ํŒ€์„ ์œ„ํ•œ ๋กœ์ปฌ LLM ์„œ๋ฒ„ ์„ค์ •: ๋‹ค์ค‘ ์‚ฌ์šฉ์ž ์ ‘๊ทผ ๋ฐ ๋น„์šฉ ๊ด€๋ฆฌ

ยท10๋ถ„ยทBy Hans Kuepper ยท Founder of PromptQuorum, multi-model AI dispatch tool ยท PromptQuorum

vLLM + nginx ๋กœ๋“œ ๋ฐธ๋Ÿฐ์„œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 5~20๋ช…์˜ ํŒ€์›์„ ์œ„ํ•œ ๊ณต์œ  ๋กœ์ปฌ LLM ์„œ๋ฒ„๋ฅผ ๊ตฌ์ถ•ํ•˜์‹ญ์‹œ์˜ค. 2026๋…„ 4์›” ๊ธฐ์ค€์œผ๋กœ, ํŒ€ ๊ทœ๋ชจ์˜ ์ถ”๋ก  ๋น„์šฉ์€ ์›” $50(์ „๊ธฐ๋ฃŒ)์ธ ๋ฐ˜๋ฉด ํด๋ผ์šฐ๋“œ API๋Š” ์›” $1,000 ์ด์ƒ์ž…๋‹ˆ๋‹ค.

vLLM + nginx ๋กœ๋“œ ๋ฐธ๋Ÿฐ์„œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 5~20๋ช…์˜ ํŒ€์›์„ ์œ„ํ•œ ๊ณต์œ  ๋กœ์ปฌ LLM ์„œ๋ฒ„๋ฅผ ๊ตฌ์ถ•ํ•˜์‹ญ์‹œ์˜ค. 2026๋…„ 4์›” ๊ธฐ์ค€์œผ๋กœ, ํŒ€ ๊ทœ๋ชจ์˜ ์ถ”๋ก  ๋น„์šฉ์€ ์›” $50(์ „๊ธฐ๋ฃŒ)์ธ ๋ฐ˜๋ฉด ํด๋ผ์šฐ๋“œ API๋Š” ์›” $1,000 ์ด์ƒ์ž…๋‹ˆ๋‹ค. ์ด ๊ฐ€์ด๋“œ์—์„œ๋Š” ๋‹ค์ค‘ ์‚ฌ์šฉ์ž ์ ‘๊ทผ, ์—ญํ•  ๊ธฐ๋ฐ˜ ๊ถŒํ•œ, ์‚ฌ์šฉ๋Ÿ‰ ์ธก์ • ๋ฐ ๋น„์šฉ ๊ท€์†์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

Slide Deck: ๋น„์ฆˆ๋‹ˆ์Šค ํŒ€์„ ์œ„ํ•œ ๋กœ์ปฌ LLM ์„œ๋ฒ„ ์„ค์ •: ๋‹ค์ค‘ ์‚ฌ์šฉ์ž ์ ‘๊ทผ ๋ฐ ๋น„์šฉ ๊ด€๋ฆฌ

์•„๋ž˜ ์Šฌ๋ผ์ด๋“œ ๋ฑ์—์„œ๋Š” ํŒ€ LLM ์„œ๋ฒ„ ์•„ํ‚คํ…์ฒ˜(๋‹จ์ผ, ๋“€์–ผ GPU, ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ), ๋น„์šฉ ๋น„๊ต($600/๋…„ vs $12,000 ์ด์ƒ), ์ธ์ฆ ๋ฐ ์ ‘๊ทผ ์ œ์–ด, ์‚ฌ์šฉ๋Ÿ‰ ์ธก์ • ๋ฐ ๋น„์šฉ ๊ท€์†, ํ™•์žฅ ์ „๋žต, ์„ฑ๋Šฅ ๋ชจ๋‹ˆํ„ฐ๋ง ๋ฐ ์ผ๋ฐ˜์ ์ธ ์„ค์ • ์‹ค์ˆ˜๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. PDF๋ฅผ ํŒ€ LLM ๋ฐฐํฌ ์ฐธ์กฐ ์นด๋“œ๋กœ ๋‹ค์šด๋กœ๋“œํ•˜์‹ญ์‹œ์˜ค.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • ์†Œ๊ทœ๋ชจ ํŒ€(5~10๋ช…): ๋‹จ์ผ ์„œ๋ฒ„(vLLM) + nginx + ์ธ์ฆ = ํ•˜๋“œ์›จ์–ด $3K, ์›” ์ „๊ธฐ๋ฃŒ $50.
  • ์ค‘๊ฐ„ ๊ทœ๋ชจ ํŒ€(10~50๋ช…): ๋“€์–ผ GPU ํด๋Ÿฌ์Šคํ„ฐ + ๋กœ๋“œ ๋ฐธ๋Ÿฐ์„œ + Prometheus ๋ชจ๋‹ˆํ„ฐ๋ง = ํ•˜๋“œ์›จ์–ด $6K, ์›” ์ „๊ธฐ๋ฃŒ $100.
  • ๋Œ€๊ทœ๋ชจ ํŒ€(50๋ช… ์ด์ƒ): ์ด์ค‘ํ™”, ์บ์‹ฑ ๋ ˆ์ด์–ด(Redis), ์ž๋™ ํ™•์žฅ์„ ๊ฐ–์ถ˜ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ์„ค์ • = ๋ณ„๋„ ๊ฒฌ์ .
  • ์‚ฌ์šฉ์ž๋‹น ๋น„์šฉ: ์ถ”๋ก  ๋ณผ๋ฅจ์— ๋”ฐ๋ผ ์›” $10~100(ํด๋ผ์šฐ๋“œ API ์›” $200~500 ๋Œ€๋น„).
  • ์„ค์ • ์‹œ๊ฐ„: ๋‹จ์ผ ์„œ๋ฒ„ = 1์ผ. ํด๋Ÿฌ์Šคํ„ฐ = 1์ฃผ. ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ = 1๊ฐœ์›”(๋ณด์•ˆ ๊ฐ์‚ฌ ํฌํ•จ).
  • API ์ธ์ฆ: ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ์šฉ OAuth 2.0(AD/Okta๋ฅผ ํ†ตํ•œ SSO). ์ค‘์†Œ๊ธฐ์—…์šฉ ๊ฐ„๋‹จํ•œ ํ† ํฐ ์ธ์ฆ.
  • ์‚ฌ์šฉ๋Ÿ‰ ์ถ”์ : ๋ชจ๋“  ์ฟผ๋ฆฌ๊ฐ€ ์‚ฌ์šฉ์ž ID, ํƒ€์ž„์Šคํƒฌํ”„, ์ƒ์„ฑ๋œ ํ† ํฐ ์ˆ˜์™€ ํ•จ๊ป˜ ๊ธฐ๋ก๋ฉ๋‹ˆ๋‹ค(๋น„์šฉ ๊ท€์†์šฉ).
  • ๊ด€๋ฆฌ ๋ถ€๋‹ด: ์ตœ์†Œํ™”(์ž๋™ํ™”๋œ ๋ชจ๋‹ˆํ„ฐ๋ง). ํ™•์žฅ ์ด๋ฒคํŠธ = GPU ์นด๋“œ ์ถ”๊ฐ€ + ์žฌ์กฐ์ •(์ฝ”๋“œ ๋ณ€๊ฒฝ ์—†์Œ).
1๋…„์ฐจ: ๋กœ์ปฌ LLM ๋น„์šฉ์€ ํ•˜๋“œ์›จ์–ด + ์ „๊ธฐ๋ฃŒ $3,100์ธ ๋ฐ˜๋ฉด ํด๋ผ์šฐ๋“œ API๋Š” $12,000~$36,000์ž…๋‹ˆ๋‹ค. 3๋…„์ฐจ ์ดํ›„: ์›”๊ฐ„ ๋น„์šฉ์ด ์ƒ๊ฐ ๊ธฐ์ค€ $120์œผ๋กœ ์ค„์–ด๋“ค์–ด ํ™œ์„ฑ ํŒ€์˜ ๊ฒฝ์šฐ ์—ฐ๊ฐ„ $16,000 ์ด์ƒ์„ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
1๋…„์ฐจ: ๋กœ์ปฌ LLM ๋น„์šฉ์€ ํ•˜๋“œ์›จ์–ด + ์ „๊ธฐ๋ฃŒ $3,100์ธ ๋ฐ˜๋ฉด ํด๋ผ์šฐ๋“œ API๋Š” $12,000~$36,000์ž…๋‹ˆ๋‹ค. 3๋…„์ฐจ ์ดํ›„: ์›”๊ฐ„ ๋น„์šฉ์ด ์ƒ๊ฐ ๊ธฐ์ค€ $120์œผ๋กœ ์ค„์–ด๋“ค์–ด ํ™œ์„ฑ ํŒ€์˜ ๊ฒฝ์šฐ ์—ฐ๊ฐ„ $16,000 ์ด์ƒ์„ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์–ด๋–ค ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ ํƒํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ: ๋‹จ์ผ ์„œ๋ฒ„ ๋˜๋Š” ๋ฉ€ํ‹ฐ GPU ํด๋Ÿฌ์Šคํ„ฐ?

๋‹จ์ผ vLLM ์„œ๋ฒ„(5~10๋ช…):

  • 1ร— RTX 4090 + 64GB RAM + 1TB SSD.
  • 10๋ช…์˜ ๋™์‹œ ์‚ฌ์šฉ์ž ์ฒ˜๋ฆฌ(๊ฐ 5 tok/s).
  • ๋น„์šฉ: ํ•˜๋“œ์›จ์–ด $2,500 + ์›” ์ „๊ธฐ๋ฃŒ $50.

๋“€์–ผ GPU ํด๋Ÿฌ์Šคํ„ฐ(10~50๋ช…):

  • 2ร— vLLM ์ธ์Šคํ„ด์Šค(GPU๋‹น ํ•˜๋‚˜) + nginx ๋กœ๋“œ ๋ฐธ๋Ÿฐ์„œ.
  • 20๋ช…์˜ ๋™์‹œ ์‚ฌ์šฉ์ž ์ฒ˜๋ฆฌ(๊ฐ 10 tok/s).
  • ๋น„์šฉ: ํ•˜๋“œ์›จ์–ด $5,000 + ์›” ์ „๊ธฐ๋ฃŒ $100.

Redis ์บ์‹ฑ ๋ ˆ์ด์–ด(์„ ํƒ ์‚ฌํ•ญ):

  • ์ผ๋ฐ˜์ ์ธ ํ”„๋กฌํ”„ํŠธ ์บ์‹œ(์‹œ์Šคํ…œ ๋ฉ”์‹œ์ง€, ํ…œํ”Œ๋ฆฟ).
  • ๋ฐ˜๋ณต ์ฟผ๋ฆฌ์— ๋Œ€ํ•ด ์ง€์—ฐ ์‹œ๊ฐ„ 30% ๊ฐ์†Œ.
  • ๋น„์šฉ: ์ถ”๊ฐ€ ํ•˜๋“œ์›จ์–ด $1K.
๋‹จ์ผ vLLM ์„œ๋ฒ„๋Š” ๊ฐ„๋‹จํ•œ ์„ค์ •์œผ๋กœ 5~10๋ช…์˜ ์‚ฌ์šฉ์ž๋ฅผ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ ๋‹จ์ผ ์žฅ์•  ์ง€์ ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๋“€์–ผ GPU ํด๋Ÿฌ์Šคํ„ฐ(10~50๋ช…)๋Š” ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์„ ํ†ตํ•ด ์ž๋™ ์žฅ์•  ์กฐ์น˜์™€ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹จ์ผ vLLM ์„œ๋ฒ„๋Š” ๊ฐ„๋‹จํ•œ ์„ค์ •์œผ๋กœ 5~10๋ช…์˜ ์‚ฌ์šฉ์ž๋ฅผ ์ฒ˜๋ฆฌํ•˜์ง€๋งŒ ๋‹จ์ผ ์žฅ์•  ์ง€์ ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๋“€์–ผ GPU ํด๋Ÿฌ์Šคํ„ฐ(10~50๋ช…)๋Š” ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์„ ํ†ตํ•ด ์ž๋™ ์žฅ์•  ์กฐ์น˜์™€ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์šฉ์ž ์ธ์ฆ ๋ฐ ์ ‘๊ทผ ์ œ์–ด๋ฅผ ์–ด๋–ป๊ฒŒ ์„ค์ •ํ•ฉ๋‹ˆ๊นŒ?

๊ฐ„๋‹จํ•œ ์ธ์ฆ(์ค‘์†Œ๊ธฐ์—…, 50๋ช… ๋ฏธ๋งŒ): ์‚ฌ์šฉ์ž๋‹น API ํ‚ค. ์‚ฌ์šฉ์ž๋Š” ์š”์ฒญ ํ—ค๋”์— `Authorization: Bearer $API_KEY`๋ฅผ ์ „์†กํ•ฉ๋‹ˆ๋‹ค. ๊ทœ์ • ์ค€์ˆ˜์— ๋Œ€ํ•ด์„œ๋Š” ๋กœ์ปฌ LLM์„ ํ†ตํ•œ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ๊ทœ์ • ์ค€์ˆ˜๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ์ธ์ฆ: Okta/Azure AD์™€์˜ OAuth 2.0 + SAML 2.0 ํ†ตํ•ฉ. SSO ๋กœ๊ทธ์ธ, ์ž๋™ ๊ทธ๋ฃน ํ• ๋‹น.

์†๋„ ์ œํ•œ: ์‚ฌ์šฉ์ž๋‹น ํ† ํฐ ํ• ๋‹น๋Ÿ‰(์˜ˆ: ํ•˜๋ฃจ 10๋งŒ ํ† ํฐ). ํ•œ ํŒ€์ด ์„œ๋ฒ„๋ฅผ ๊ณผ๋„ํ•˜๊ฒŒ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.

๊ฐ์‚ฌ ์ถ”์ : ๋ชจ๋“  API ํ˜ธ์ถœ์„ ์‚ฌ์šฉ์ž ID, IP, ์š”์ฒญ ํฌ๊ธฐ, ์‘๋‹ต ํฌ๊ธฐ, ํƒ€์ž„์Šคํƒฌํ”„์™€ ํ•จ๊ป˜ ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค.

์ค‘์†Œ๊ธฐ์—… ํŒ€์„ ์œ„ํ•œ ๊ฐ„๋‹จํ•œ ํ† ํฐ ๊ธฐ๋ฐ˜ ์ธ์ฆ, ์ž๋™ ๊ทธ๋ฃน ํ• ๋‹น ๋ฐ ์—ญํ•  ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ์ œ์–ด๋ฅผ ๊ฐ–์ถ˜ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ SSO ํ†ตํ•ฉ์„ ์œ„ํ•œ OAuth 2.0 ๋ฐ SAML 2.0.
์ค‘์†Œ๊ธฐ์—… ํŒ€์„ ์œ„ํ•œ ๊ฐ„๋‹จํ•œ ํ† ํฐ ๊ธฐ๋ฐ˜ ์ธ์ฆ, ์ž๋™ ๊ทธ๋ฃน ํ• ๋‹น ๋ฐ ์—ญํ•  ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ์ œ์–ด๋ฅผ ๊ฐ–์ถ˜ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ SSO ํ†ตํ•ฉ์„ ์œ„ํ•œ OAuth 2.0 ๋ฐ SAML 2.0.

๋น„์šฉ ๊ท€์† ๋ฐ ์‚ฌ์šฉ๋Ÿ‰ ์ธก์ •์„ ์–ด๋–ป๊ฒŒ ์ถ”์ ํ•ฉ๋‹ˆ๊นŒ?

์ถ”์ : ์‚ฌ์šฉ์ž๋‹น ํ•˜๋ฃจ ์ƒ์„ฑ๋œ ํ† ํฐ ์ˆ˜. ํŒ€ ์ „์ฒด๋ฅผ ํ•ฉ์‚ฐํ•˜์—ฌ ์ด ๋น„์šฉ์„ ์‚ฐ์ถœํ•ฉ๋‹ˆ๋‹ค. ํ”„๋ผ์ด๋ฒ„์‹œ ์šฐ์„  ์ธก์ •์— ๋Œ€ํ•ด์„œ๋Š” ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ํ”„๋ผ์ด๋น— ๋กœ์ปฌ LLM์„ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

๊ท€์†: ์„œ๋ฒ„ ๋น„์šฉ์„ ๋น„๋ก€์ ์œผ๋กœ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค(์˜ˆ: Alice๊ฐ€ ํ† ํฐ์˜ 40%๋ฅผ ์ƒ์„ฑํ•˜๋ฉด ์ฒญ๊ตฌ์„œ์˜ 40%๋ฅผ ๋ถ€๋‹ดํ•ฉ๋‹ˆ๋‹ค).

์‡ผ๋ฐฑ ๋ณด๊ณ ์„œ: ์‚ฌ์šฉ์ž๋‹น ์›”๊ฐ„ ๋ณด๊ณ ์„œ: ์‚ฌ์šฉ๋œ ํ† ํฐ ์ˆ˜, ์˜ˆ์ƒ ํด๋ผ์šฐ๋“œ API ๋น„์šฉ, ๋‚ด๋ถ€ ๋น„์šฉ, ์ ˆ๊ฐ์•ก.

๋„๊ตฌ: Prometheus + ๋งž์ถคํ˜• ์ฒญ๊ตฌ ์„œ๋น„์Šค. ๋˜๋Š” ์˜คํ”ˆ ์†Œ์Šค ์˜ต์…˜ ์‚ฌ์šฉ: Metered.io(ํด๋ผ์šฐ๋“œ ๊ธฐ๋ฐ˜ ๋น„์šฉ ์ถ”์ ).

ํŒ€ ๊ทœ๋ชจ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋กœ์ปฌ LLM ์„œ๋ฒ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ™•์žฅํ•ฉ๋‹ˆ๊นŒ?

5~10๋ช…: 1ร— RTX 4090. ์„œ๋ฒ„: ๋ชจ๋“  ์‚ฌ๋žŒ์ด ๋™์‹œ์— ์ถ”๋ก ์„ ์‹คํ–‰ํ•  ๋•Œ ํฌํ™” ์ƒํƒœ. ํ—ˆ์šฉ ๊ฐ€๋Šฅํ•œ ์ง€์—ฐ ์‹œ๊ฐ„ ๊ธ‰๋“ฑ.

10~30๋ช…: 2ร— RTX 4090(๋“€์–ผ GPU ๊ธฐ๊ธฐ). Nginx ๋กœ๋“œ ๋ฐธ๋Ÿฐ์„œ๋กœ ๋ถ€ํ•˜๋ฅผ ๋ถ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. 20๋ช… ๋™์‹œ ์ ‘์† = ์•ˆ์ •์ .

30~100๋ช…: 3~4ร— GPU ํด๋Ÿฌ์Šคํ„ฐ(๋ณ„๋„ ๊ธฐ๊ธฐ) + ์ „์šฉ ๋กœ๋“œ ๋ฐธ๋Ÿฐ์„œ(ํ•˜๋“œ์›จ์–ด ๋˜๋Š” ์†Œํ”„ํŠธ์›จ์–ด). Kubernetes ์„ ํƒ ์‚ฌํ•ญ.

100๋ช… ์ด์ƒ: ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ์•„ํ‚คํ…์ฒ˜(ํด๋ผ์šฐ๋“œ ์žฅ์•  ์กฐ์น˜, ์บ์‹œ ๋ ˆ์ด์–ด, API ๊ฒŒ์ดํŠธ์›จ์ด) = ํ•˜์ด๋ธŒ๋ฆฌ๋“œ(๋กœ์ปฌ + ํด๋ผ์šฐ๋“œ ๋ฒ„์ŠคํŠธ) ๊ณ ๋ ค.

๋‹จ์ผ GPU์—์„œ 5~10๋ช…๋ถ€ํ„ฐ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ๋‹ค์ค‘ ๋ฆฌ์ „ ๋ฐฐํฌ์—์„œ 100๋ช… ์ด์ƒ๊นŒ์ง€์˜ ํ™•์žฅ ๊ณผ์ •. ํŒ€ ๊ทœ๋ชจ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ ์‚ฌํ•ญ๊ณผ ์„ค์ • ์‹œ๊ฐ„๋„ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
๋‹จ์ผ GPU์—์„œ 5~10๋ช…๋ถ€ํ„ฐ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ๋‹ค์ค‘ ๋ฆฌ์ „ ๋ฐฐํฌ์—์„œ 100๋ช… ์ด์ƒ๊นŒ์ง€์˜ ํ™•์žฅ ๊ณผ์ •. ํŒ€ ๊ทœ๋ชจ๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ ์‚ฌํ•ญ๊ณผ ์„ค์ • ์‹œ๊ฐ„๋„ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

์„ฑ๋Šฅ์„ ์–ด๋–ป๊ฒŒ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๊นŒ?

Prometheus ๋ฉ”ํŠธ๋ฆญ: vLLM์ด ์š”์ฒญ ์ง€์—ฐ ์‹œ๊ฐ„, tokens/sec, ํ ๊ธธ์ด๋ฅผ ๋‚ด๋ณด๋ƒ…๋‹ˆ๋‹ค. 15์ดˆ๋งˆ๋‹ค ์Šคํฌ๋žฉํ•ฉ๋‹ˆ๋‹ค.

Grafana ๋Œ€์‹œ๋ณด๋“œ: ํ ๊นŠ์ด, ์ง€์—ฐ ์‹œ๊ฐ„ ๋ฐฑ๋ถ„์œ„์ˆ˜(p50, p99), GPU ํ™œ์šฉ๋ฅ ์„ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.

์•Œ๋ฆผ: ์ง€์—ฐ ์‹œ๊ฐ„ > 2์ดˆ ๋˜๋Š” ํ > 10๊ฐœ ์š”์ฒญ์ด๋ฉด ์˜จ์ฝœ ์—”์ง€๋‹ˆ์–ด์—๊ฒŒ ํŽ˜์ด์ง€๋ฅผ ๋ณด๋ƒ…๋‹ˆ๋‹ค.

๋กœ๊ทธ: vLLM + nginx ๋กœ๊ทธ๋ฅผ ELK Stack์—์„œ ์ค‘์•™ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž, ํƒ€์ž„์Šคํƒฌํ”„, ์˜ค๋ฅ˜๋กœ ๊ฒ€์ƒ‰ํ•ฉ๋‹ˆ๋‹ค.

๋ณ‘๋ชฉ ํ˜„์ƒ ์‹๋ณ„: GPU๊ฐ€ ํฌํ™” ์ƒํƒœ(ํ™œ์šฉ๋ฅ  >90%)์ด๊ณ  ์ง€์—ฐ ์‹œ๊ฐ„ > 1์ดˆ์ด๋ฉด GPU๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. CPU๊ฐ€ ํฌํ™” ์ƒํƒœ์ด๋ฉด CPU๋ฅผ ์—…๊ทธ๋ ˆ์ด๋“œํ•ฉ๋‹ˆ๋‹ค.

GPU ํ™œ์šฉ๋ฅ , ์š”์ฒญ ์ง€์—ฐ ์‹œ๊ฐ„, ํ ๊นŠ์ด ๋ฐ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋ณด์—ฌ์ฃผ๋Š” ์‹ค์‹œ๊ฐ„ Prometheus ๋ฉ”ํŠธ๋ฆญ ๋Œ€์‹œ๋ณด๋“œ. ์ง€์—ฐ ์‹œ๊ฐ„์ด 2์ดˆ๋ฅผ ์ดˆ๊ณผํ•˜๊ฑฐ๋‚˜ ํ ๊นŠ์ด๊ฐ€ 10๊ฐœ ์š”์ฒญ์„ ์ดˆ๊ณผํ•˜๋ฉด ์•Œ๋ฆผ์ด ํŠธ๋ฆฌ๊ฑฐ๋ฉ๋‹ˆ๋‹ค.
GPU ํ™œ์šฉ๋ฅ , ์š”์ฒญ ์ง€์—ฐ ์‹œ๊ฐ„, ํ ๊นŠ์ด ๋ฐ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋ณด์—ฌ์ฃผ๋Š” ์‹ค์‹œ๊ฐ„ Prometheus ๋ฉ”ํŠธ๋ฆญ ๋Œ€์‹œ๋ณด๋“œ. ์ง€์—ฐ ์‹œ๊ฐ„์ด 2์ดˆ๋ฅผ ์ดˆ๊ณผํ•˜๊ฑฐ๋‚˜ ํ ๊นŠ์ด๊ฐ€ 10๊ฐœ ์š”์ฒญ์„ ์ดˆ๊ณผํ•˜๋ฉด ์•Œ๋ฆผ์ด ํŠธ๋ฆฌ๊ฑฐ๋ฉ๋‹ˆ๋‹ค.

์ผ๋ฐ˜์ ์ธ ์„ค์ • ์‹ค์ˆ˜

  • ๋‹จ์ผ ์žฅ์•  ์ง€์ (GPU ํ•˜๋‚˜, ์žฅ์•  ์กฐ์น˜ ์—†์Œ). GPU ์žฅ์•  ์‹œ ํŒ€์ด ์ ‘๊ทผ๊ถŒ์„ ์žƒ์Šต๋‹ˆ๋‹ค. ์ตœ์†Œ ๋“€์–ผ GPU๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.
  • ์†๋„ ์ œํ•œ ์—†์Œ. ํ•œ ์‚ฌ์šฉ์ž๊ฐ€ 100๋งŒ ํ† ํฐ ์ถ”๋ก ์„ ์‹คํ–‰ํ•˜๋ฉด ๋‹ค๋ฅธ ๋ชจ๋“  ์‚ฌ๋žŒ์ด ์ฐจ๋‹จ๋ฉ๋‹ˆ๋‹ค. ํ† ํฐ ํ• ๋‹น๋Ÿ‰์„ ๊ตฌํ˜„ํ•˜์‹ญ์‹œ์˜ค.
  • ๊ฐ์‚ฌ ๋กœ๊ทธ ์—†์Œ. ๋ˆ„๊ฐ€ ์–ด๋–ค ๋ฐ์ดํ„ฐ์— ์ ‘๊ทผํ–ˆ๋Š”์ง€ ์ถ”์ ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋กœ๊น…์€ ๊ทœ์ • ์ค€์ˆ˜ ํŒ€์— ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค.

FAQ

์ƒˆ ํ•˜๋“œ์›จ์–ด๋ฅผ ๊ตฌ์ž…ํ•˜์ง€ ์•Š๊ณ  ์‚ฌ์šฉ์ž๋ฅผ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

GPU๋‹น ์ตœ๋Œ€ 20~30๋ช…์˜ ๋™์‹œ ์‚ฌ์šฉ์ž๊นŒ์ง€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ด์ƒ์ด๋ฉด ๋‘ ๋ฒˆ์งธ RTX 4090์„ ์ถ”๊ฐ€ํ•˜๊ณ  nginx๋กœ ๋ถ€ํ•˜๋ฅผ ์žฌ์กฐ์ •ํ•˜์‹ญ์‹œ์˜ค. RTX 4090 ํ•˜๋‚˜๋Š” ๋™์‹œ ์‚ฌ์šฉ์ž๋‹น ์•ฝ 5 tok/s๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ์—…๋ฐ์ดํŠธ(์ƒˆ Llama 3 ๋ณ€ํ˜• ๋“ฑ)๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๊นŒ?

๋ฐฐํฌ ์ „์— ๋ณ„๋„์˜ ๊ธฐ๊ธฐ์—์„œ ์ƒˆ ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•˜๊ณ  ํ…Œ์ŠคํŠธํ•˜์‹ญ์‹œ์˜ค. vLLM์€ ์ƒˆ ์š”์ฒญ์„ ์ผ์‹œ ์ค‘์ง€ํ•˜๊ณ , ์ง„ํ–‰ ์ค‘์ธ ์ฟผ๋ฆฌ๋ฅผ ์™„๋ฃŒํ•œ ํ›„ ๋ชจ๋ธ ํŒŒ์ผ์„ ๊ต์ฒดํ•จ์œผ๋กœ์จ ๋‹ค์šดํƒ€์ž„ ์—†์ด ๋ชจ๋ธ ํ•ซ ์Šค์™€ํ•‘์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

ํŒ€ ๋ฐฐํฌ์— Kubernetes๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

50๋ช… ๋ฏธ๋งŒ์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ๋Š” ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜ Docker + docker-compose๊ฐ€ ๋” ๋‹จ์ˆœํ•˜๊ณ  ํˆฌ๋ช…ํ•˜๋ฉฐ ์šด์˜ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์ ์Šต๋‹ˆ๋‹ค. Kubernetes๋Š” ์†Œ๊ทœ๋ชจ ํŒ€์—๊ฒŒ๋Š” ์ƒ์‘ํ•˜๋Š” ์ด์  ์—†์ด ๋ณต์žก์„ฑ๋งŒ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

ํ† ํฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ฒญ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

๋„ค, Prometheus ๋ฉ”ํŠธ๋ฆญ์„ ์‚ฌ์šฉํ•œ ์‡ผ๋ฐฑ ๋ณด๊ณ ์„œ๋ฅผ ํ†ตํ•ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๋‹น ํ•˜๋ฃจ ํ† ํฐ ์ˆ˜๋ฅผ ์ถ”์ ํ•˜๊ณ  ์„œ๋ฒ„ ๋น„์šฉ์„ ๋น„๋ก€์ ์œผ๋กœ ํ• ๋‹นํ•˜์‹ญ์‹œ์˜ค. ๋จผ์ € ์ •์ฑ…์„ ๊ฒฐ์ •ํ•˜์‹ญ์‹œ์˜ค: ํŒ€ ์ „์ฒด ๊ณต์œ  ๋น„์šฉ ๋˜๋Š” ๊ฐœ๋ณ„ ๋ถ€์„œ๋ณ„ ๋น„์šฉ ์ฒญ๊ตฌ.

์‚ฌ์šฉ์ž๊ฐ€ ์‹ค์ˆ˜๋กœ ์„œ๋ฒ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ญ์ œํ•˜๋ฉด ์–ด๋–ป๊ฒŒ ๋ฉ๋‹ˆ๊นŒ?

๋ชจ๋“  ์ž…์ถœ๋ ฅ ๋กœ๊ทธ์˜ ์ผ์ผ ๋ฐฑ์—…์„ ์™ธ๋ถ€ ์Šคํ† ๋ฆฌ์ง€์— ์‹คํ–‰ํ•˜์‹ญ์‹œ์˜ค. ํ•˜๋“œ์›จ์–ด ์ด์ค‘ํ™”๋ฅผ ์œ„ํ•ด RAID 6 ๊ตฌ์„ฑ(๋™์‹œ ๋“œ๋ผ์ด๋ธŒ 2๊ฐœ ์žฅ์• ์—๋„ ์ƒ์กด)์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. ๋ฐฑ์—…์ด ์œ ํšจํ•œ์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์›”๋ณ„๋กœ ๋ณต๊ตฌ ์ ˆ์ฐจ๋ฅผ ํ…Œ์ŠคํŠธํ•˜์‹ญ์‹œ์˜ค.

Slack/Teams์™€ ํ†ตํ•ฉํ•˜์—ฌ ์‰ฝ๊ฒŒ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

๋„ค. vLLM API๋ฅผ ํ˜ธ์ถœํ•˜๊ณ  ์ฑ„๋„์— ์‘๋‹ต์„ ๋ฐ˜ํ™˜ํ•˜๋Š” Slack ๋ด‡์„ ๊ตฌ์ถ•ํ•˜์‹ญ์‹œ์˜ค. ์ธ๊ธฐ ์žˆ๋Š” ํ†ตํ•ฉ: vLLM์˜ OpenAI ํ˜ธํ™˜ ์—”๋“œํฌ์ธํŠธ์™€ ํ˜ธํ™˜๋˜๋Š” Slack์šฉ OpenAI API ๋ž˜ํผ๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

์ถœ์ฒ˜

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each providerโ€™s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both โ€” you pick the backend.

Join the PromptQuorum Waitlist โ†’

โ† Back to Local LLMs

ํŒ€์šฉ ๋กœ์ปฌ LLM ์„œ๋ฒ„: ์ ‘๊ทผ ์ œ์–ด ๋ฐ ๋น„์šฉ ์ถ”์  | PromptQuorum