Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/๋ฉ€ํ‹ฐ GPU ๋กœ์ปฌ LLM 2026: vLLM๊ณผ Ollama๋กœ 2๊ฐœ ์ด์ƒ์˜ GPU์—์„œ 70B ๋ชจ๋ธ ์‹คํ–‰ํ•˜๊ธฐ
Hardware & Performance

๋ฉ€ํ‹ฐ GPU ๋กœ์ปฌ LLM 2026: vLLM๊ณผ Ollama๋กœ 2๊ฐœ ์ด์ƒ์˜ GPU์—์„œ 70B ๋ชจ๋ธ ์‹คํ–‰ํ•˜๊ธฐ

ยท11๋ถ„ ๋ถ„๋Ÿ‰ยทBy Hans Kuepper ยท Founder of PromptQuorum, multi-model AI dispatch tool ยท PromptQuorum

๋“€์–ผ RTX 4090(ํ•ฉ์‚ฐ 48 GB)์€ Llama 3.3 70B๋ฅผ ์ดˆ๋‹น ์•ฝ 100 ํ† ํฐ์˜ ์†๋„๋กœ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ก ์ƒ์˜ ๋‹จ์ผ 48 GB GPU ๋Œ€๋น„ ์†๋„ ์†์‹ค์€ 5~10%์— ๋ถˆ๊ณผํ•ฉ๋‹ˆ๋‹ค. 2026๋…„์— 70B ๋ชจ๋ธ์„ ์œ„ํ•œ ๊ฐ€์žฅ ๋น„์šฉ ํšจ์œจ์ ์ธ ๋ฉ€ํ‹ฐ GPU ๊ตฌ์„ฑ์ž…๋‹ˆ๋‹ค.

์—ฌ๋Ÿฌ ๊ฐœ์˜ GPU๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋‹จ์ผ GPU์˜ VRAM์— ๋งž์ง€ ์•Š๋Š” 70B ์ด์ƒ์˜ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋“€์–ผ RTX 4090(ํ•ฉ์‚ฐ 48 GB)์€ Llama 3.3 70B๋ฅผ Q4 ์–‘์žํ™”๋กœ ์ดˆ๋‹น ์•ฝ 100 ํ† ํฐ์˜ ์†๋„๋กœ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. GPU ๊ฐ„ ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋กœ ์ธํ•ด ์ด๋ก ์ƒ์˜ ๋‹จ์ผ 48 GB GPU๋ณด๋‹ค ์•ฝ 5~10% ๋А๋ฆฐ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. 2026๋…„ 4์›” ๊ธฐ์ค€์œผ๋กœ vLLM(ํ…์„œ ๋ณ‘๋ ฌํ™”)๊ณผ Ollama(์ž๋™ ๋ ˆ์ด์–ด ๋ถ„ํ• )๋Š” ๋ชจ๋‘ ๋ฉ€ํ‹ฐ GPU๋ฅผ ๊ธฐ๋ณธ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. NVLink๋Š” ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ 3~5%๋กœ ์ค„์—ฌ ์ฃผ์ง€๋งŒ ์†Œ๋น„์ž์šฉ RTX ์นด๋“œ์—๋Š” ์ œ๊ณต๋˜์ง€ ์•Š์œผ๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ ๋“€์–ผ GPU ๊ตฌ์„ฑ์—๋Š” PCIe 4.0/5.0์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

Key Takeaways

  • ๋ฉ€ํ‹ฐ GPU: ๋Œ€ํ˜• ๋ชจ๋ธ์„ 2๊ฐœ ์ด์ƒ์˜ GPU์— ๋ถ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์‹œ: 70B ๋ชจ๋ธ์„ 2ร— RTX 4090์— ๊ท ๋“ฑ ๋ถ„ํ•  = ์ด VRAM 48 GB.
  • ์†๋„ ์†์‹ค: ๋‹จ์ผ GPU ๋Œ€๋น„ ์•ฝ 5~10% ๋А๋ฆผ(GPU ๊ฐ„ ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ).
  • ์ตœ์  ์šฉ๋„: 70B ๋ชจ๋ธ, ๊ณ ๋™์‹œ์ ‘์† ์„œ๋น„์Šค(๋™์‹œ ์‚ฌ์šฉ์ž 50๋ช… ์ด์ƒ).
  • ์ž๋™ ์ฒ˜๋ฆฌ: ์ตœ์‹  ํˆด(vLLM, Ollama, llama.cpp)์€ ์—ฌ๋Ÿฌ GPU๋ฅผ ์ž๋™์œผ๋กœ ๊ฐ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • 2026๋…„ 4์›” ๊ธฐ์ค€, ์ด๋Š” ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ์˜ ํ‘œ์ค€์ž…๋‹ˆ๋‹ค.

๋ ˆ์ด์–ด ๋ถ„ํ•  ๋ฐ ํ…์„œ ๋ณ‘๋ ฌํ™”์˜ ๋™์ž‘ ์›๋ฆฌ

70B Transformer ๋ชจ๋ธ์—๋Š” 80๊ฐœ์˜ ๋ ˆ์ด์–ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ ˆ์ด์–ด ๋ถ„ํ• ์„ ์ ์šฉํ•˜๋ฉด Ollama๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ฐฐ์น˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • GPU 1: ๋ ˆ์ด์–ด 1~40
  • GPU 2: ๋ ˆ์ด์–ด 41~80

ํ† ํฐ์ด ์ƒ์„ฑ๋  ๋•Œ GPU 1์„ ํ†ต๊ณผํ•œ ๋’ค GPU 2๋ฅผ ํ†ต๊ณผํ•˜๊ณ , ๋‹ค์Œ ํ† ํฐ์„ ์œ„ํ•ด ๋ฐ˜ํ™˜๋ฉ๋‹ˆ๋‹ค. ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋Š” ์ตœ์†Œ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

2๊ฐœ์˜ GPU์— ๊ฑธ์นœ ๋ ˆ์ด์–ด ๋ถ„ํ• : 80๋ ˆ์ด์–ด 70B ๋ชจ๋ธ ๋ถ„์‚ฐ(GPU 1์— ๋ ˆ์ด์–ด 1~40, GPU 2์— ๋ ˆ์ด์–ด 41~80), PCIe GPU ๊ฐ„ ํ†ต์‹ ์œผ๋กœ ์•ฝ 10% ์˜ค๋ฒ„ํ—ค๋“œ ์ถ”๊ฐ€(๋“€์–ผ RTX 4090 ๊ธฐ์ค€ ์•ฝ 100 tok/s).
2๊ฐœ์˜ GPU์— ๊ฑธ์นœ ๋ ˆ์ด์–ด ๋ถ„ํ• : 80๋ ˆ์ด์–ด 70B ๋ชจ๋ธ ๋ถ„์‚ฐ(GPU 1์— ๋ ˆ์ด์–ด 1~40, GPU 2์— ๋ ˆ์ด์–ด 41~80), PCIe GPU ๊ฐ„ ํ†ต์‹ ์œผ๋กœ ์•ฝ 10% ์˜ค๋ฒ„ํ—ค๋“œ ์ถ”๊ฐ€(๋“€์–ผ RTX 4090 ๊ธฐ์ค€ ์•ฝ 100 tok/s).

โ€ข๐Ÿ’ก: ์ „๋ฌธ๊ฐ€ ํŒ: ๋ ˆ์ด์–ด ์ž์ฒด๋Š” ๊ฐ€๋ณ์Šต๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ๊ฒƒ์€ GPU ๊ฐ„ ํ†ต์‹  ์†๋„์ž…๋‹ˆ๋‹ค. GPU1์— ๋ ˆ์ด์–ด 1~40, GPU2์— ๋ ˆ์ด์–ด 41~80์„ ๋ฐฐ์น˜ํ•˜๋ฉด ํ† ํฐ๋‹น GPU ์ „์†ก์ด ํ•œ ๋ฒˆ๋งŒ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด NVLink๊ฐ€ ์ค‘์š”ํ•œ ์ด์œ ์ž…๋‹ˆ๋‹ค.

vLLM์„ ํ™œ์šฉํ•œ ๋ฉ€ํ‹ฐ GPU ์„ค์ •

vLLM์€ ๋‹จ์ผ ๋ช…๋ น์œผ๋กœ ํ…์„œ ๋ณ‘๋ ฌํ™”๋ฅผ ๊ธฐ๋ณธ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. `--tensor-parallel-size` ํ”Œ๋ž˜๊ทธ๋กœ GPU ๊ฐœ์ˆ˜๋ฅผ ์ง€์ •ํ•˜์‹ญ์‹œ์˜ค:

bash
# 2๊ฐœ์˜ GPU์—์„œ 70B ๋ชจ๋ธ ์‹คํ–‰
vllm serve meta-llama/Llama-3.1-70B \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --port 8000

# API๋Š” ์ด์ œ http://localhost:8000/v1 ์—์„œ ์ด์šฉ ๊ฐ€๋Šฅ
# ๋™์ผํ•œ API, ์ž๋™ ๋ฉ€ํ‹ฐ GPU ์ฒ˜๋ฆฌ
vLLM ๋ฉ€ํ‹ฐ GPU 4๋‹จ๊ณ„ ์„ค์ •: ๋‘ GPU ์ธ์‹ ํ™•์ธ(nvidia-smi), vLLM ์„ค์น˜, --tensor-parallel-size 2 ํ”Œ๋ž˜๊ทธ๋กœ ์‹คํ–‰, ๋‘ GPU ๋กœ๋“œ ๋ฐ ์•ฝ 100 tok/s ์ฒ˜๋ฆฌ๋Ÿ‰ ํ™•์ธ.
vLLM ๋ฉ€ํ‹ฐ GPU 4๋‹จ๊ณ„ ์„ค์ •: ๋‘ GPU ์ธ์‹ ํ™•์ธ(nvidia-smi), vLLM ์„ค์น˜, --tensor-parallel-size 2 ํ”Œ๋ž˜๊ทธ๋กœ ์‹คํ–‰, ๋‘ GPU ๋กœ๋“œ ๋ฐ ์•ฝ 100 tok/s ์ฒ˜๋ฆฌ๋Ÿ‰ ํ™•์ธ.

โ€ขโš ๏ธ: ์ฃผ์˜: ๋‘ GPU์˜ VRAM์ด ๋™์ผํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. RTX 4090(24 GB)๊ณผ RTX 4080(16 GB)์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ, vLLM์€ GPU๋‹น 16 GB๋กœ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ์œ„ํ•ด ๋™์ผํ•œ GPU ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

Ollama๋ฅผ ํ™œ์šฉํ•œ ๋ฉ€ํ‹ฐ GPU ์„ค์ •

Ollama๋Š” ์—ฌ๋Ÿฌ GPU๋ฅผ ์ž๋™์œผ๋กœ ๊ฐ์ง€ํ•˜์—ฌ ์ž๋™์œผ๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค:

1. ํ‰์†Œ์™€ ๊ฐ™์ด Ollama๋ฅผ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค: `ollama serve`

2. Ollama๊ฐ€ 2๊ฐœ ์ด์ƒ์˜ GPU๋ฅผ ๊ฐ์ง€ํ•˜์—ฌ ์ž๋™์œผ๋กœ ๋ชจ๋ธ์„ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค.

3. ๋ณ„๋„์˜ ๊ตฌ์„ฑ์ด ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค -- ๊ทธ๋ƒฅ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

`nvidia-smi` ๋˜๋Š” `rocm-smi`๋กœ ๋‘ GPU์— ๋ชจ๋‘ ๋กœ๋“œ๋˜๋Š”์ง€ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค.

โ€ข๐Ÿ› ๏ธ: ๊ถŒ์žฅ ์‚ฌํ•ญ: `nvidia-smi`๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ๋‘ GPU์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํ™•์ธํ•จ์œผ๋กœ์จ ๋ฉ€ํ‹ฐ GPU ์„ค์ •์ด ์ •์ƒ ์ž‘๋™ํ•˜๋Š”์ง€ ๊ฒ€์ฆํ•˜์‹ญ์‹œ์˜ค. GPU ํ•œ ๊ฐœ์—๋งŒ ๋กœ๋“œ๋œ๋‹ค๋ฉด Ollama๊ฐ€ ๋‘ ๋ฒˆ์งธ GPU๋ฅผ ๊ฐ์ง€ํ•˜์ง€ ๋ชปํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋“œ๋ผ์ด๋ฒ„ ๋ฒ„์ „์„ ํ™•์ธํ•˜๊ณ  ํ•„์š”ํ•˜๋ฉด ์—…๊ทธ๋ ˆ์ด๋“œํ•˜์‹ญ์‹œ์˜ค.

GPU 2๊ฐœ ์‚ฌ์šฉ ์‹œ ์„ฑ๋Šฅ

SetupModelSpeedCost
1ร— RTX 4090 (24GB)7B150 tok/sec$1,800
1ร— RTX 4090 (24GB)70B์‹คํ–‰ ๋ถˆ๊ฐ€$1,800
2ร— RTX 4090 (48GB)70B Q4100 tok/sec$3,600
2ร— RTX 4090 (48GB)70B Q590 tok/sec$3,600
1ร— RTX 5090 (32GB)70B Q440~50 tok/sec$2,000
2ร— RTX 5090 (64GB)70B Q8120 tok/sec$4,000
2ร— RTX 5090 (64GB)405B Q425~35 tok/sec$4,000
RTX 6000 Ada + RTX 409070B FP16110 tok/sec$6,800
70B ๋ชจ๋ธ์„ ์œ„ํ•œ 8ํ–‰ GPU ์„ฑ๋Šฅ ๋น„๊ต: ๋‹จ์ผ RTX 4090์€ 70B ๋ถˆ๊ฐ€, ๋“€์–ผ RTX 4090์€ 100 tok/s($3,600), RTX 5090 32GB๋Š” 70B Q4๋ฅผ 40~50 tok/s($2,000), ๋“€์–ผ RTX 5090์€ 405B Q4๋ฅผ 25~35 tok/s($4,000)๋กœ ์ฒ˜๋ฆฌ.
70B ๋ชจ๋ธ์„ ์œ„ํ•œ 8ํ–‰ GPU ์„ฑ๋Šฅ ๋น„๊ต: ๋‹จ์ผ RTX 4090์€ 70B ๋ถˆ๊ฐ€, ๋“€์–ผ RTX 4090์€ 100 tok/s($3,600), RTX 5090 32GB๋Š” 70B Q4๋ฅผ 40~50 tok/s($2,000), ๋“€์–ผ RTX 5090์€ 405B Q4๋ฅผ 25~35 tok/s($4,000)๋กœ ์ฒ˜๋ฆฌ.

โ€ข๐Ÿ“Œ: ํ•ต์‹ฌ ํฌ์ธํŠธ: RTX 4090 ๋‘ ๊ฐœ๋กœ 70B ๋ชจ๋ธ์—์„œ ์•ฝ 100 tok/s๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. 5~10%์˜ ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋กœ ๋‹จ์ผ GPU ์†๋„์˜ ์•ฝ 90% ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. 2026๋…„ 1์›” ์ถœ์‹œ๋œ RTX 5090(32 GB GDDR7)์€ ๊ณ„์‚ฐ ๋ฐฉ์‹์„ ๋ฐ”๊ฟจ์Šต๋‹ˆ๋‹ค. ๋‹จ์ผ 5090์œผ๋กœ ๋ถ„ํ•  ์—†์ด 70B Q4๋ฅผ 40~50 tok/s๋กœ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋“€์–ผ 5090(ํ•ฉ์‚ฐ 64 GB)์€ ์†Œ๋น„์ž์šฉ ๊ตฌ์„ฑ ์ค‘ ์ตœ์ดˆ๋กœ 405B Q4 ๋ชจ๋ธ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ GPU๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ

70B ์ด์ƒ์˜ ๋ชจ๋ธ์ด๋‚˜ ๊ณ ๋™์‹œ์ ‘์† ์„œ๋น„์Šค๊ฐ€ ํ•„์š”ํ•  ๋•Œ ๋ฉ€ํ‹ฐ GPU๋Š” ๋น„์šฉ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ๋‹ค์Œ ๊ฒฝ์šฐ์— ์—ฌ๋Ÿฌ GPU๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค:

  • 70B ์ด์ƒ์˜ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ.
  • 50๋ช… ์ด์ƒ์˜ ๋™์‹œ ์‚ฌ์šฉ์ž๋ฅผ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ(๋ฐฐ์น˜ ์ฒ˜๋ฆฌ).
  • ์—ฌ๋Ÿฌ 13B ๋ชจ๋ธ์„ ๋™์‹œ์— ์‹คํ–‰ํ•˜๋ ค๋Š” ๊ฒฝ์šฐ.
  • ํ”„๋กœ๋•์…˜ ์„œ๋น„์Šค๋ฅผ ์šด์˜ํ•˜๋Š” ๊ฒฝ์šฐ(์‹คํ—˜์šฉ์ด ์•„๋‹Œ).
๋ฉ€ํ‹ฐ GPU ์˜์‚ฌ๊ฒฐ์ • ๋งคํŠธ๋ฆญ์Šค: 70B ์ด์ƒ ๋ชจ๋ธ ์‹คํ–‰, ๋™์‹œ ์‚ฌ์šฉ์ž 50๋ช… ์ด์ƒ, ๋˜๋Š” ํ”„๋กœ๋•์…˜์—์„œ 100 tok/s ์ด์ƒ์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ ์‚ฌ์šฉ; ๋‘ ๋ฒˆ์งธ GPU ๋ฏธ๊ตฌ๋งค ๋˜๋Š” ์‹คํ—˜ ๋‹จ๊ณ„๋ผ๋ฉด ์‚ฌ์šฉ ๋ณด๋ฅ˜.
๋ฉ€ํ‹ฐ GPU ์˜์‚ฌ๊ฒฐ์ • ๋งคํŠธ๋ฆญ์Šค: 70B ์ด์ƒ ๋ชจ๋ธ ์‹คํ–‰, ๋™์‹œ ์‚ฌ์šฉ์ž 50๋ช… ์ด์ƒ, ๋˜๋Š” ํ”„๋กœ๋•์…˜์—์„œ 100 tok/s ์ด์ƒ์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ ์‚ฌ์šฉ; ๋‘ ๋ฒˆ์งธ GPU ๋ฏธ๊ตฌ๋งค ๋˜๋Š” ์‹คํ—˜ ๋‹จ๊ณ„๋ผ๋ฉด ์‚ฌ์šฉ ๋ณด๋ฅ˜.

โ€ข๐Ÿ’ก: ์ „๋ฌธ๊ฐ€ ํŒ: 70B ๋ชจ๋ธ ์‹คํ—˜ ๋‹จ๊ณ„๋ผ๋ฉด ๋จผ์ € ๋‹จ์ผ GPU CPU ์˜คํ”„๋กœ๋”ฉ์„ ์‹œ๋„ํ•ด ๋ณด์‹ญ์‹œ์˜ค(RTX 4090์—์„œ 8~10 tok/s). ํ”„๋กœ๋•์…˜ ์ˆ˜์š”๊ฐ€ ํ™•์ธ๋œ ํ›„ ๋ฉ€ํ‹ฐ GPU ๊ตฌ์„ฑ(100 tok/s)์„ ์œ„ํ•ด ๋‘ ๋ฒˆ์งธ RTX 4090์— ํˆฌ์žํ•˜์‹ญ์‹œ์˜ค.

๋ฉ€ํ‹ฐ GPU์—์„œ ์ž์ฃผ ํ•˜๋Š” ์‹ค์ˆ˜

  • GPU 2๊ฐœ๋กœ 2๋ฐฐ ์†๋„๋ฅผ ๊ธฐ๋Œ€ํ•˜๋Š” ๊ฒƒ. GPU ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ(5~10%)๋กœ ์ธํ•ด ๋‹จ์ผ GPU ์†๋„์˜ ์•ฝ 90%๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • GPU๊ฐ€ ๋™์ผํ•ด์•ผ ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ. RTX 4090๊ณผ RTX 4080์„ ํ˜ผํ•ฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, vLLM์€ ๋А๋ฆฐ GPU์˜ ์†๋„์— ์ œํ•œ๋ฉ๋‹ˆ๋‹ค.
  • ํ†ต์‹ ์— NVLink๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๊ฒƒ. NVLink ์—†์ด๋Š” ๋ฉ€ํ‹ฐ GPU ํ†ต์‹ ์ด ๋” ๋А๋ฆฝ๋‹ˆ๋‹ค. NVLink๋Š” ์†Œ๋น„์ž์šฉ GPU์—์„œ ๋“œ๋ญ…๋‹ˆ๋‹ค.
  • PCIe ๋Œ€์—ญํญ์„ ๊ฐ„๊ณผํ•˜๋Š” ๊ฒƒ. GPU ๊ฐ„ ํ†ต์‹ ์€ PCIe๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง€๋ฉฐ ๋Œ€์—ญํญ์ด ์ œํ•œ๋ฉ๋‹ˆ๋‹ค(PCIe 4.0 ๊ธฐ์ค€ ์•ฝ 16 GB/s).
  • ๋‹จ์ผ GPU ์˜ต์…˜์„ ๋จผ์ € ์‹œ๋„ํ•˜์ง€ ์•Š๊ณ  ๋‘ ๋ฒˆ์งธ GPU๋ฅผ ๊ตฌ๋งคํ•˜๋Š” ๊ฒƒ. ๋‘ ๋ฒˆ์งธ RTX 4090์— $1,800 ์ด์ƒ์„ ํˆฌ์žํ•˜๊ธฐ ์ „์— ๋‹ค์Œ์„ ์‹œ๋„ํ•ด ๋ณด์‹ญ์‹œ์˜ค: (1) Q5/Q8 ๋Œ€์‹  Q4 ์–‘์žํ™”(VRAM์„ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ž„), (2) Ollama CPU ์˜คํ”„๋กœ๋”ฉ(๋‹จ์ผ 4090์—์„œ 70B ๊ธฐ์ค€ 8~10 tok/s), (3) RTX 5090 32 GB ๋‹จ์ผ ์นด๋“œ(๋ถ„ํ•  ์—†์ด 70B Q4 ์‹คํ–‰, $2,000). ๋ฉ€ํ‹ฐ GPU๋Š” ์ฒ˜์Œ์ด ์•„๋‹Œ ๋งˆ์ง€๋ง‰ ์ตœ์ ํ™” ์ˆ˜๋‹จ์ด์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ€ขโš ๏ธ: ์ฃผ์˜: ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ์œ„ํ•ด GPU ๋ชจ๋ธ์„ ๋งž์ถ”๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ GPU(์˜ˆ: 4090 + 4080)๋ฅผ ํ˜ผํ•ฉํ•˜๋ฉด ๋А๋ฆฐ ์นด๋“œ๊ฐ€ ์‹œ์Šคํ…œ ์†๋„๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ณ‘๋ชฉ์ด ๋ฉ๋‹ˆ๋‹ค. ํ”„๋กœ๋•์…˜์—์„œ๋Š” ํ•ญ์ƒ ๋™์ผํ•œ GPU๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ

โ€ข๐Ÿ’ฌ: ์•Œ๊ณ  ๊ณ„์…จ์Šต๋‹ˆ๊นŒ? NVLink ๋Œ€์—ญํญ(900 GB/s) ๋Œ€ PCIe ๋Œ€์—ญํญ(64 GB/s)์€ ๋ฉ€ํ‹ฐ GPU ์„ฑ๋Šฅ์—์„œ ์ˆจ๊ฒจ์ง„ ํ•ต์‹ฌ ์š”์†Œ์ž…๋‹ˆ๋‹ค. NVLink๋ฅผ ๊ฐ–์ถ˜ A100/H100 ์ „๋ฌธ๊ฐ€์šฉ GPU๋Š” ๊ฑฐ์˜ ์„ ํ˜•์ ์ธ ํ™•์žฅ(์˜ˆ: GPU 2๊ฐœ๋กœ 2๋ฐฐ ์†๋„)์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์†Œ๋น„์ž์šฉ RTX ์นด๋“œ๋Š” PCIe๋กœ ์ œํ•œ๋˜์–ด 5~10%์˜ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

๋กœ์ปฌ LLM์—์„œ ์—ฌ๋Ÿฌ GPU๋ฅผ ์–ธ์ œ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

๋‹จ์ผ GPU์˜ VRAM์ด ๋Œ€์ƒ ๋ชจ๋ธ์— ๋ถ€์กฑํ•  ๋•Œ ์—ฌ๋Ÿฌ GPU๋ฅผ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. RTX 4090 ๋‘ ๊ฐœ(ํ•ฉ์‚ฐ 48 GB)๋Š” 70B ๋ชจ๋ธ์„ Q5 ์–‘์žํ™”๋กœ ์ดˆ๋‹น ์•ฝ 100 ํ† ํฐ์˜ ์†๋„๋กœ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. CPU ์˜คํ”„๋กœ๋”ฉ์„ ์‚ฌ์šฉํ•˜๋Š” ๋‹จ์ผ GPU๋Š” ๋™์ผํ•œ ๋ชจ๋ธ์—์„œ 8~10 tok/s์— ๋ถˆ๊ณผํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ GPU๋ฅผ ์ด๋ฏธ ๋ณด์œ ํ•˜๊ณ  ์žˆ๊ฑฐ๋‚˜ ์ถ”๊ฐ€ ๊ตฌ๋งค๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ, ๋ฉ€ํ‹ฐ GPU๋Š” 70B ์ด์ƒ ๋ชจ๋ธ์— ๋น„์šฉ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

vLLM ํ…์„œ ๋ณ‘๋ ฌํ™”๋Š” GPU ๊ฐ„์— ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•ฉ๋‹ˆ๊นŒ?

vLLM์€ ํ…์„œ ๋ณ‘๋ ฌํ™”(`--tensor-parallel-size 2`)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ GPU ๊ฐ„์— ๋ชจ๋ธ ๋ ˆ์ด์–ด๋ฅผ ๋ถ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ฐ GPU๋Š” ๋ชจ๋ธ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์˜ ์ ˆ๋ฐ˜์„ ๋ณด์œ ํ•˜๋ฉฐ, ์—ฐ์‚ฐ์€ ๋ณ‘๋ ฌ๋กœ ์ˆ˜ํ–‰๋˜๊ณ  ๊ฒฐ๊ณผ๋Š” NVLink ๋˜๋Š” PCIe๋ฅผ ํ†ตํ•ด ํ†ต์‹ ๋ฉ๋‹ˆ๋‹ค. NVLink(NVLink 4.0: ์–‘๋ฐฉํ–ฅ 900 GB/s)๋Š” GPU ๊ฐ„ ํ†ต์‹ ์—์„œ PCIe(64 GB/s)๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฆ…๋‹ˆ๋‹ค.

NVLink๋Š” LLM ์ถ”๋ก ์— ํฐ ์ฐจ์ด๋ฅผ ๋งŒ๋“ญ๋‹ˆ๊นŒ?

NVLink๋Š” ์žฆ์€ GPU ๊ฐ„ ํ†ต์‹ ์ด ํ•„์š”ํ•œ ๋Œ€ํ˜• ๋ชจ๋ธ์—์„œ PCIe ๋Œ€๋น„ ์ฒ˜๋ฆฌ๋Ÿ‰์„ 10~30% ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ๋‘ GPU์— ๋ถ„์‚ฐ๋œ 70B ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, NVLink๋Š” ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์•ฝ 15%์—์„œ 3~5%๋กœ ์ค„์—ฌ ์ค๋‹ˆ๋‹ค. ์†Œ๋น„์ž์šฉ RTX ์นด๋“œ๋Š” PCIe๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, NVLink๋Š” ์ „๋ฌธ๊ฐ€์šฉ A100/H100 GPU์—์„œ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ๊ฐ€์ •์šฉ์—์„œ๋Š” PCIe๋กœ๋„ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

๋ ˆ์ด์–ด ๋ถ„ํ• ์— ์„œ๋กœ ๋‹ค๋ฅธ GPU ๋ชจ๋ธ(์˜ˆ: RTX 4090 + RTX 4080)์„ ํ˜ผํ•ฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

๊ธฐ์ˆ ์ ์œผ๋กœ๋Š” ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. vLLM๊ณผ llama.cpp๋Š” ํ˜ผํ•ฉ GPU ๊ตฌ์„ฑ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ๋กœ๋Š” ๋А๋ฆฐ GPU๊ฐ€ ์Œ์˜ ์„ฑ๋Šฅ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. 4090+4080 ์กฐํ•ฉ์€ ๋‘ 4090๋ณด๋‹ค๋Š” ๋‘ 4080์— ๊ฐ€๊นŒ์šด ์„ฑ๋Šฅ์„ ๋ƒ…๋‹ˆ๋‹ค. ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ์—์„œ๋Š” ๋™์ผํ•œ GPU ๋ชจ๋ธ์„ ๊ฐ•๋ ฅํžˆ ๊ถŒ์žฅํ•ฉ๋‹ˆ๋‹ค.

70B ๋ฐ 405B ๋ชจ๋ธ์—๋Š” GPU๊ฐ€ ๋ช‡ ๊ฐœ ํ•„์š”ํ•ฉ๋‹ˆ๊นŒ?

70B Q4: 2ร— RTX 4090์— ์ˆ˜์šฉ ๊ฐ€๋Šฅ(ํ•„์š” 35 GB, ์‚ฌ์šฉ ๊ฐ€๋Šฅ 48 GB). 70B Q8: 4ร— RTX 4090 ํ•„์š”(70 GB ํ•„์š”). 405B Q4: 4ร— RTX 4090 ํ•„์š”(200 GB ํ•„์š” โ€” ๊ฐ„์‹ ํžˆ ์ˆ˜์šฉ). 405B์˜ ๊ฒฝ์šฐ ์ „๋ฌธ๊ฐ€์šฉ A100 80GBร—4(ํ•ฉ์‚ฐ 320 GB)๊ฐ€ ๊ถŒ์žฅ ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.

๋‹จ์ผ GPU ๋Œ€๋น„ ๋ ˆ์ด์–ด ๋ถ„ํ• ์˜ ์†๋„ ์†์‹ค์€ ์–ผ๋งˆ๋‚˜ ๋ฉ๋‹ˆ๊นŒ?

๋ ˆ์ด์–ด ๋ถ„ํ• ์€ GPU ๊ฐ„ ํ†ต์‹ ์œผ๋กœ ์ธํ•ด 5~10%์˜ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. 70B ๋ชจ๋ธ์„ ์‹คํ–‰ํ•˜๋Š” RTX 4090 ๋‘ ๊ฐœ๋Š” ์ดˆ๋‹น ์•ฝ 100 ํ† ํฐ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ด๋ก ์ƒ ๋‹จ์ผ 48 GB GPU๊ฐ€ ๋‹ฌ์„ฑํ•  ์†๋„์˜ ์•ฝ 90%์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. CPU ์˜คํ”„๋กœ๋”ฉ(8~10 tok/s)์ด๋‚˜ ๋‹จ์ผ 4090์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•œ 70B ๋ชจ๋ธ์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ GPU ์—†์ด ๋‹จ์ผ RTX 5090์œผ๋กœ 70B๋ฅผ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

๋„ค โ€” RTX 5090(32 GB GDDR7, 2026๋…„ 1์›” ์ถœ์‹œ)์€ Llama 3.3 70B๋ฅผ Q4_K_M ์–‘์žํ™”๋กœ ์ˆ˜์šฉํ•ฉ๋‹ˆ๋‹ค(์งง์€ ์ปจํ…์ŠคํŠธ์—์„œ KV ์บ์‹œ ํฌํ•จ ์•ฝ 40 GB, 4K ์ปจํ…์ŠคํŠธ์—์„œ 32 GB ์ˆ˜์ค€์˜ ๋นก๋นกํ•œ ์ˆ˜์šฉ). ์„ฑ๋Šฅ: 40~50 tok/s. ๊ธด ์ปจํ…์ŠคํŠธ(32K ์ด์ƒ) ๋˜๋Š” ๋” ๋†’์€ ์–‘์žํ™”(Q5 ์ด์ƒ)์˜ 70B์—๋Š” ์—ฌ์ „ํžˆ ๋“€์–ผ GPU๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. RTX 5090์€ ์งง์€ ์ปจํ…์ŠคํŠธ์—์„œ 70B Q4์— ๋Œ€ํ•œ ๋ฉ€ํ‹ฐ GPU์˜ ํ•„์š”์„ฑ์„ ์—†์•ด์Šต๋‹ˆ๋‹ค.

PCIe 5.0์€ ๋ฉ€ํ‹ฐ GPU LLM ๊ตฌ์„ฑ์—์„œ ํˆฌ์žํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ?

PCIe 5.0์€ PCIe 4.0์˜ 64 GB/s ๋Œ€๋น„ ๋Œ€์—ญํญ์„ ์•ฝ 128 GB/s๋กœ ๋‘ ๋ฐฐ ๋Š˜๋ฆฝ๋‹ˆ๋‹ค. ๋“€์–ผ GPU 70B ์ถ”๋ก ์—์„œ ์ด๋Š” ํ†ต์‹  ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์•ฝ 10%์—์„œ 6~7%๋กœ ์ค„์—ฌ ์ค๋‹ˆ๋‹ค. ๊ฐœ์„  ํšจ๊ณผ๋Š” ์žˆ์ง€๋งŒ ํ˜์‹ ์ ์ธ ์ˆ˜์ค€์€ ์•„๋‹™๋‹ˆ๋‹ค. NVLink(900 GB/s)๋งŒ์ด ๊ฑฐ์˜ ์„ ํ˜•์ ์ธ ํ™•์žฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ์œ ์ผํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์‹ ๊ทœ ๊ตฌ๋งค ์‹œ PCIe 5.0 ๋ฉ”์ธ๋ณด๋“œ๋ฅผ ๊ถŒ์žฅํ•˜์ง€๋งŒ, ๋ฉ€ํ‹ฐ GPU๋งŒ์„ ์œ„ํ•ด PCIe 4.0์—์„œ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ ํšจ์œจ์ ์ด์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์ฐธ๊ณ  ์ž๋ฃŒ

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each providerโ€™s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both โ€” you pick the backend.

Join the PromptQuorum Waitlist โ†’

โ† Back to Local LLMs

๋ฉ€ํ‹ฐ GPU ๋กœ์ปฌ LLM 2026: ๋“€์–ผ RTX 4090์œผ๋กœ 100 tok/s์— 70B ์‹คํ–‰