Key Takeaways
- LLM ์ถ๋ก ๋์ฝ๋ ๋จ๊ณ์ ๋ณ๋ชฉ์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด์ง TOPS๊ฐ ์๋๋๋ค. ๊ณต์: tokens/sec โ memory_bandwidth / model_size_in_bytes. FP16 7B ๋ชจ๋ธ(14 GB) LPDDR5X 85.6 GB/s = ~6 tokens/sec. ์์ํ Q4(3.5 GB) = ~24 tokens/sec. ๋ฐ์ดํฐ ์ผํฐ H100 HBM3E(1.229 TB/s) = ~88 tokens/sec. ๊ฐ๊ฒฉ์ 14๋ฐฐ, ๊ณ์ฐ ๋๋ฌธ์ด ์๋๋ผ ๋ฐ์ดํฐ๋ฅผ ๊ณ์ฐ ๋จ์๋ก ์ผ๋ง๋ ๋นจ๋ฆฌ ๊ณต๊ธํ ์ ์๋์ง ๋๋ฌธ์ ๋๋ค.
- SKํ์ด๋์ค๋ 62% HBM ์์ฅ ์ ์ ์จ์ ๋ณด์ ํฉ๋๋ค(2025๋ 2๋ถ๊ธฐ ์ ์ , 2026๋ ์ ํตํด >50% ์์). SK๋ Nvidia H100, H200, B200 GPU๋ฅผ ๊ณต๊ธํฉ๋๋ค. SKํ์ด๋์ค๋ Nvidia๋ก HBM4 ์ํ์ ๋ฐฐ์กํฉ๋๋ค(>2 TB/s, 2026-2027๋ ๋์ฐฉ).
- ์จ๋๋ฐ์ด์ค AI๋ ํฐ์ HBM์ ๋ง์ถ ์ ์๊ธฐ ๋๋ฌธ์ ํญ์ ํด๋ผ์ฐ๋ AI๋ณด๋ค ๋๋ฆด ๊ฒ์ ๋๋ค. LPDDR5X๋ HBM๋ณด๋ค 8-15๋ฐฐ ๋๋ฆฝ๋๋ค. ์ด๊ฒ์ ๊ทผ๋ณธ์ ์ธ ์ํคํ ์ฒ ๊ฐ๊ฒฉ์ด๊ณ , ์์ง๋์ด๋ง์ด ํฐ ํผ ํฉํฐ๋ก ๋ซ์ ์ ์๋ ๊ฐ๊ฒฉ์ด ์๋๋๋ค.
- Exynos 2600(Galaxy S26)์ ์์ํ 7B ๋ชจ๋ธ์ ๋ํด ~15 tokens/sec๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์นฉ ์ฌ์ค๊ณ๋ ์ด๊ฒ์ ์์ ํ ์ ์์ต๋๋ค. ๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ํ์ํ๋ฉฐ, ์ด๋ ๋ ํฌ๊ณ ๋ ์ ๋ ฅ ์๋น์ ์ธ ๋ฉ๋ชจ๋ฆฌ ์นฉ(HBM์ 2+ ์ธ์น ๋์; LPDDR5X๋ ์์ ํ๋ฆ)์ ํ์๋ก ํฉ๋๋ค.
- ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๋ณ๋ชฉ์ ๋ฏธ์ธ ์กฐ์ ์ด๋ ์ฆ๋ฅ๊ฐ ๋์์ด ๋์ง ์๋ ์ด์ ๋ฅผ ์ค๋ช ํฉ๋๋ค: ์ฌ์ ํ ๋ชจ๋ ๋งค๊ฐ๋ณ์๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํด์ผ ํฉ๋๋ค. ๋ ์์ ๋ชจ๋ธ(3B, 1B)์ด ๋์์ด ๋์ง๋ง ์์ํ๊ฐ ํฐ์ ์ ์ผํ ์ค์ง์ ์๋ฃจ์ ์ ๋๋ค.
- Samsung์ PIM(๋ฉ๋ชจ๋ฆฌ ๋ด ์ฒ๋ฆฌ) ์ ๋ต์ ๋ฉ๋ชจ๋ฆฌ ์นฉ ๋ด๋ถ์์ ์ฐ์ฐ์ ์ํํ์ฌ ๋ฐ์ดํฐ ์ด๋์ ์ ๊ฑฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๊ฒ์ ๊ฒฐ๊ตญ ๊ฐ๊ฒฉ์ ๋ซ์ ์ ์์ง๋ง LPDDR5X-PIM์ ์ฌ์ ํ ์ด๊ธฐ ๋จ๊ณ์ด๊ณ 2027-2028๋ ๊น์ง ๋๋ ๋ฐฐ์ก๋์ง ์์ ๊ฒ ๊ฐ์ต๋๋ค.
๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด AI ์๋๋ฅผ ๊ฒฐ์ ํ๋ ์ด์
LLM ์ถ๋ก ์ ๋์ฝ๋ ๋จ๊ณ์์ GPU/NPU๋ ์ ์ฒด ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํ๊ณ , ํ ํฐ๋น ํ ๋ฒ์ ์ ํฅ ํจ์ค๋ฅผ ์ํํ๊ณ , ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค. ๋ณ๋ชฉ: ์ผ๋ง๋ ๋นจ๋ฆฌ ๊ณ์ฐ ๋จ์๋ก ๋งค๊ฐ๋ณ์๋ฅผ ๊ณต๊ธํ ์ ์์ต๋๊น? ์ด๊ฒ์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด์ง ๊ณ์ฐ TOPS๊ฐ ์๋๋๋ค.
๋จ์ํ๋ ๊ณต์: tokens/sec = memory_bandwidth / (model_size_in_bytes ร bytes_per_precision). FP16(๋งค๊ฐ๋ณ์๋น 2 ๋ฐ์ดํธ)์ ๊ฒฝ์ฐ, 7B ๋ชจ๋ธ = 14 GB. LPDDR5X 85.6 GB/s์์: 85.6 GB/s รท 14 GB = ~6 tokens/sec ์ด๋ก ์ ์ต๋์น. ์ค์ ๋ก ๊ณ์ฐ๊ณผ ์บ์ ์ค๋ฒํค๋๋ก ์ธํด 3โ5 tokens/sec.
์์ํ๋ ๋ฐฉ์ ์์ ๊ทน์ ์ผ๋ก ๋ณ๊ฒฝํฉ๋๋ค. Q4(4๋นํธ, ๋งค๊ฐ๋ณ์๋น 0.5 ๋ฐ์ดํธ)๋ 7B ๋ชจ๋ธ์ 3.5 GB๋ก ์ถ์ํฉ๋๋ค. 85.6 GB/s รท 3.5 GB = ~24 tokens/sec ์ด๋ก ์ . ์ค์ ์ธ๊ณ ~8โ15 tokens/sec, 3โ4๋ฐฐ ๊ฐ์ .
๋ฐ์ดํฐ ์ผํฐ H100 HBM3E(1.229 TB/s)๋ ๊ฐ์ ๋ชจ๋ธ์ ๋ํด 100+ tokens/sec์ ์ ์งํ ์ ์์ต๋๋ค. HBM์ด 14๋ฐฐ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๊ฒ์ด ์ต์ฒจ๋จ ๋ชจ๋ธ(70B, 405B)์ด ๋ฐ์ดํฐ ์ผํฐ์์๋ง ์คํ๋๋ ์ด์ ์ ๋๋คโHBM ๋์ญํญ์ด ํ์ํฉ๋๋ค.
์ถ๋ก ์ ํ๋ จ๊ณผ ๋ค๋ฆ ๋๋ค. ํ๋ จ์ ๊ณ์ฐ ์ ์ฝ(๋ฌด๊ฒ ์ ๋ฐ์ดํธ๋ฅผ ์ํด 1000+ ํจ์ค). ์ถ๋ก (ํนํ ๋ชจ๋ธ์ด ํ๋กฌํํธ ์บ์๋๋ฉด)์ ๋จ์ผ ์ ํฅ ํจ์ค, ์์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ์ ์ฝ์ ๋๋ค. ์ด๊ฒ์ด ํฐ์ ์ถ๋ก ์ด ์๋ฒ๋ณด๋ค ํจ์ฌ ๋๋ฆฐ ์ด์ ์ ๋๋คโ๋์ญํญ ๊ฐ๊ฒฉ์ ์์ง๋์ด๋งํ ์ ์์ต๋๋ค.
LLM ๋์ฝ๋๋ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ์ ์ฝ: tokens/sec = ๋์ญํญ / ๋ชจ๋ธ ํฌ๊ธฐ. ์จ๋๋ฐ์ด์ค 85.6 GB/s vs ๋ฐ์ดํฐ ์ผํฐ 1.229 TB/s = 14๋ฐฐ ๊ฐ๊ฒฉ.
๊ณต์ฅ ์ด์ ๋ธ๋ฆฌ ๋ผ์ธ์ผ๋ก ์๊ฐํ์ธ์: ๊ณ์ฐ์ ๊ทผ๋ก์, ๋ฉ๋ชจ๋ฆฌ๋ ๊ณต๊ธ๋ง์ ๋๋ค. ๊ทผ๋ก์๋ ๋น ๋ฅด์ง๋ง ๊ณต๊ธ์ด ์ฒ์ฒํ ๋์ฐฉํ๋ฉด ๋ณ๋ชฉ์ ๋๋ค. ๋ ๋ง์ ๊ทผ๋ก์(๋ ๋ง์ FLOPS)๋ ๊ณต๊ธ์ด ๊ฐ์ ์๋๋ก ๋์ฐฉํ๋ฉด ๋์์ด ๋์ง ์์ต๋๋ค. ํฐ์ "๋น ๋ฅธ ๊ณต๊ธ๋ง"(HBM)์ด ๋ถ์กฑํฉ๋๋ค.
๋ฉ๋ชจ๋ฆฌ ๋์ญํญ ๋น๊ต: LPDDR5X vs HBM
| ๋ฉ๋ชจ๋ฆฌ ์ ํ | ๋์ญํญ | ์ฌ์ฉ์ฒ | Tokens/sec(7B FP16) | Tokens/sec(7B Q4) |
|---|---|---|---|---|
| LPDDR5X 10.7 Gbps | 85.6 GB/s(x64 ๋ฒ์ค) | Galaxy S26, Snapdragon 8 Elite Gen 5, ๋๋ถ๋ถ ํฐ | ~6 tokens/sec(์ด๋ก ); ~3โ5 ํ์ค | ~24 tokens/sec(์ด๋ก ); ~8โ15 ํ์ค |
| HBM2E | ~460 GB/s ์คํ๋น | ๊ตฌํ GPU(P100, V100 2020๋ ์ ) | ~33 tokens/sec(์ด๋ก ) | ~131 tokens/sec(์ด๋ก ) |
| HBM3 19.2 Gbps | ~819 GB/s ์คํ๋น | Nvidia A100, 80GB ๋ณํ | ~59 tokens/sec(์ด๋ก ) | ~234 tokens/sec(์ด๋ก ) |
| HBM3E 21.4 Gbps | 1.18โ1.229 TB/s ์คํ๋น | Nvidia H100, H200, B200(2+ ์คํ ๊ณตํต) | ~88 tokens/sec(์ด๋ก ); ~60โ80 ํ์ค | ~352 tokens/sec(์ด๋ก ); ~200+ ํ์ค |
์ผ์ฑ๊ณผ SKํ์ด๋์ค: ๋๊ฐ ๋ฌด์์ ๋ง๋๋?
SKํ์ด๋์ค โ HBM ๋ฆฌ๋: SK๋ ~62% HBM ์์ฅ์ ๋ณด์ (2025๋ 2๋ถ๊ธฐ ์ ์ , 2026๋ ์ ํตํด >50% ์์). SK๋ H100, H200, B200 GPU์ ๋ํด Nvidia๋ก HBM3E๋ฅผ ๊ณต๊ธํฉ๋๋ค. SK๋ 2026-2027๋ ์ถ์ ๋ค์ ์ธ๋ GPU๋ฅผ ์ํด HBM4(>2 TB/s)๋ฅผ Nvidia๋ก ์ํ๋งํฉ๋๋ค.
Samsung โ LPDDR5X & PIM ํธ์: Samsung์ Galaxy S26, Snapdragon ํฐ, Apple(A18 Pro)์ ์ํด LPDDR5X๋ฅผ ์ ์กฐํฉ๋๋ค. Samsung์ ๋ฉ๋ชจ๋ฆฌ ๋ค์ด ๋ด๋ถ์ ์ฐ์ฐ ์์ ์ ํฌํจํ๋ LPDDR5X-PIM(๋ฉ๋ชจ๋ฆฌ ๋ด ์ฒ๋ฆฌ)์ ๊ฐ๋ฐํฉ๋๋ค. ์ด๊ฒ์ ๋ฐ์ดํฐ ์๋ณต์ ์ค์ด๊ณ ๊ฒฐ๊ตญ ๋์ญํญ ๊ฐ๊ฒฉ์ ์ขํ ์ ์์ต๋๋ค.
๊ฒฝ์ ์ญํ: Samsung์ HBM(HBM3, HBM3E ์ํ)์ ์ถ๊ตฌํ์ง๋ง ์์จ๊ณผ ๋น์ฉ์์ SK์ ์ง๋ค. Samsung์ HBM ๋์ญํญ์ ๋ง์ถ๋ ค๊ณ ์๋ํ๋ ๊ฒ์ด ์๋๋ผ ํฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ ๋๋ํ๊ฒ ๋ง๋๋ ๊ฒ์ผ๋ก LPDDR5X-PIM์ผ๋ก ํผ๋ฒ. "๊ฒฝ์ํ ์ ์๋ค, ๊ทธ๋์ ๋ค๋ฅด๊ฒ ํ์ "ํ๋ค.
ํ์๋ผ์ธ: HBM4๋ 2026-2027๋ ์ ์์ฐ ์์(SKํ์ด๋์ค). LPDDR5X-PIM์ 2027-2028๋ ์ ์ ํ๋ ์์ฐ ์์(Samsung). LPDDR6์ 2027-2028๋ ์ ํฐ ์์ฅ ์ง์ , LPDDR5X๋ณด๋ค ~2๋ฐฐ ๋์ญํญ(~200+ GB/s vs 85.6 GB/s)โ์ฌ์ ํ HBM3E๋ณด๋ค 6๋ฐฐ ๋๋ฆฌ์ง๋ง ์๋ฏธ ์๋ ๊ฐ์ ์ ๋๋ค.
Galaxy S26์ ์จ๋๋ฐ์ด์ค AI ์ ํ
Galaxy S26 Exynos 2600 LPDDR5X 85.6 GB/s๋ ์จ๋๋ฐ์ด์ค LLM ์ถ๋ก ์ ์ค์ง์ ์ฒ์ ์ ์ ์ํฉ๋๋ค. Q4๋ก ์์ํ๋ 7B ๋ชจ๋ธ์ ~8โ15 tokens/sec ํ์ค ์ฑ๋ฅ์ ๋๋ฌํฉ๋๋ค. ์ด๊ฒ์ ์ง์ฐ ์๊ฐ์ ๋ฏผ๊ฐํ ์์ (์๋์์ฑ, ์ค์๊ฐ ํ์ฌ, ๊ฐ๋จํ ์์ )์ ์ ํฉํ์ง๋ง ๊ธด ๋ํ์๋ ๋น์ค์ฉ์ ์ ๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ ์ ํ: 7B ๋ชจ๋ธ์ ์ค์ฉ์ (100 ํ ํฐ ์๋ต๋น 3โ4์๊ฐ ์ง์ฐ). 13B Q4 ๋ชจ๋ธ(~6.5 GB)์ 85.6 GB/s รท 6.5 GB = ~13 tokens/sec์ ๋๋ฌํฉ๋๋ค. 70B Q4 ๋ชจ๋ธ(~35 GB)์ 85.6 GB/s รท 35 GB = ~2 tokens/secโ์ฌ์ฉ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
์์ํ๋ ํ์: FP16์ ๋น์ค์ฉ์ . Q4๋ ์ค์ ์คํโ4๋ฐฐ ๋ ์์ ๋ชจ๋ธ, ์์ฉ ๊ฐ๋ฅํ ํ์ง ์์ค. Q3๋ ๋ ์ ์ฅํ์ง๋ง ํ์ง ์์ค; Q5๋ ํ์ง ์์ค ์ ์ง๋ง ๋์ญํญ ๊ฐ์ ๋ฏธ๋ฏธ.
์๋ vs ํ์ง ํธ๋ ์ด๋์คํ: 7B Q4๋ ~8โ15 tokens/sec(์ผ๋ถ ์ฌ์ฉ ์ฌ๋ก์ ์์ฉ). 3B Q4๋ ~24โ36 tokens/sec(๊ฐ๋จํ ์์ ์ ํ๋ฅญ). 1B Q4๋ ~60+ tokens/sec(์ค์๊ฐ, Pixel 3 ์๋ ์ฑ๋ฅ).
์ค์ ์ฌ์ฉ ์ฌ๋ก: ์๋์์ฑ, ์ค์๊ฐ ์ฝ๋ ์ ์, ์จ๋๋ฐ์ด์ค ํ์ฌ, ๋ก์ปฌ ์์ฝ. ๋น์ค์ฉ์ : ๊ธด ๋ํ, ๋ณต์กํ ์ถ๋ก , ์บ์ฑ ์๋ ๋ค์ค ํ์ ๋ํ.
๋ณ๋ชฉ์ ๋์ญํญ์ด๊ณ ๊ณ์ฐ์ด๋ ๋ฌด๊ฒ ํฌ๊ธฐ๊ฐ ์๋๋๋ค. ๋ชจ๋ธ ๋งค๊ฐ๋ณ์๋ฅผ 0์ผ๋ก ์ค์ด๋๋ผ๋ ๋ฉ๋ชจ๋ฆฌ๋ ์ฌ์ ํ ์ ์กํด์ผ ํ๊ณ ๋์ญํญ์ ๊ณ ์ ๋์ด ์์ต๋๋ค. ์ด๊ฒ์ด ์จ๋๋ฐ์ด์ค AI๊ฐ ์ํคํ ์ฒ์ ์ผ๋ก ์ ํ๋๋ ์ด์ ์ ๋๋คโํฐ ํผ ํฉํฐ์์ 85.6 GB/s๋ฅผ ๋ฒ์ด๋ ์ ์์ต๋๋ค.
- LPDDR5X 85.6 GB/s ๋์ญํญ์ ์ฌ์ฉํ์ฌ ์ต๋ tokens/sec๋ฅผ ์ถ์ : GB ๋จ์ ๋ชจ๋ธ ํฌ๊ธฐ๋ก ๋๋๊ธฐ
- 7B Q4(3.5 GB): ~24 tokens/sec ์ด๋ก ; ~8โ15 ํ์ค(์ค์ฉ์ )
- 13B Q4(6.5 GB): ~13 tokens/sec ์ด๋ก ; ~4โ8 ํ์ค(๋๋ฆผ)
- 1B Q4(~500 MB): ~171 tokens/sec ์ด๋ก ; ~50โ100 ํ์ค(๋น ๋ฆ)
- ์์ํ๋ ํ์: Q4๋ ์ฌ์ฉ ๊ฐ๋ฅํ ์จ๋๋ฐ์ด์ค ๋ชจ๋ธ์ ๊ธฐ์ค์
- ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ง์ฐ ์๊ฐ์ผ๋ก ํธ๋ ์ด๋์คํ; "์ถฉ๋ถํ ์ข์" ์ฐฝ ์๋ 5 tokens/sec์ ๋ง๋ ๋ชจ๋ธ ํฌ๊ธฐ ์์
๋ฐ์ดํฐ ์ผํฐ vs ํฐ: 14๋ฐฐ ๋์ญํญ ๊ฐ๊ฒฉ
HBM3E(1.229 TB/s)๋ฅผ ๊ฐ์ง Nvidia H100 GPU๋ Galaxy S26(LPDDR5X 85.6 GB/s)๋ณด๋ค ์ถ๋ก ์ฒ๋ฆฌ๋์์ 14๋ฐฐ ๋น ๋ฆ ๋๋ค. ์ด ๊ฐ๊ฒฉ์ ๊ณ์ฐ FLOPS ๋๋ฌธ์ด ์๋๋ผ(๋ ๋ค ๋น ๋ฆ), ์์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ ๋๋ค. H100์ 100+ tokens/sec์ ํ ์ ์์ต๋๋ค; S26์ ๊ฐ์ 7B Q4 ๋ชจ๋ธ์ ๋ํด 8โ15 tokens/sec์ ํฉ๋๋ค.
๊ฐ๊ฒฉ์ด ์กด์ฌํ๋ ์ด์ : HBM์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ค๋ฆ ๋๋ค. LPDDR5X๋ CPU ์์ ์๋ ์์ ํ๋ฆ(ํฐ์ ์ ๋ ฅ ํจ์จ). HBM์ through-silicon via(TSV)๋ฅผ ์ฌ์ฉํ์ฌ GPU์ ์ง์ ๋ณธ๋ฉ๋ ๋ฉ๋ชจ๋ฆฌ ์นฉ์ ์คํ์ ๋๋ค. HBM ์คํ์ 2+ ์ธ์น ๋์; ํฐ์ ๋ง์ถ ์ ์์ต๋๋ค.
์ ๋ซ์ ์ ์๋๊ฐ: ํฐ์ ์ด๊ณผ ์ ๋ ฅ ์ ์ฝ์ ๋๋ค. HBM์ ์๋นํ ์ ๋ ฅ(~100+ W ์ ์ฒด ์คํ). LPDDR5X๋ ~5โ10 W. ํฐ์ ๋ฐฐํฐ๋ฆฌ๋ก ์คํ; ๋ฐ์ดํฐ ์ผํฐ๋ ๋ฌดํ ์ ๋ ฅ/๋๊ฐ. ๋ฐฐํฐ๋ฆฌ ์๋ช ์ ํ๊ดดํ์ง ์๊ณ ํฐ์ HBM ๋์ญํญ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ง์ถ ์ ์์ต๋๋ค.
๊ฒฐ๊ณผ: ์จ๋๋ฐ์ด์ค AI๋ ํญ์ ํฐ ๋ชจ๋ธ์ ๋ํด ํด๋ผ์ฐ๋ AI๋ณด๋ค ๋๋ฆด ๊ฒ์ ๋๋ค. ์ด๊ฒ์ ๋ซํ ๊ธฐ์ ๊ฐ๊ฒฉ์ด ์๋๋ผ ๋ฌผ๋ฆฌ์ ์ ์ฝ(์ ๋ ฅ, ์ด, ํผ ํฉํฐ)์ ๋๋ค. ๋ ์์ ๋ชจ๋ธ, ์ ๊ทน์ ์์ํ, ๋๋ํ ์บ์ฑ์ด ์๋ฃจ์ ์ด๊ณ ๋ ๋์ ๋ฉ๋ชจ๋ฆฌ์ ํฌ๋ง์ ๊ฐ๋ ๊ฒ์ด ์๋๋๋ค.
ํ๋ฆฝ ์ธก๋ฉด: ์จ๋๋ฐ์ด์ค๋ ํ๋ผ์ด๋น, ์คํ๋ผ์ธ ๊ฐ๋ฅ, ํ๋ผ์ด๋ฒ์ ๋ฏผ๊ฐ ์์ ์ 0 ์ง์ฐ์ ๋๋ค. 14๋ฐฐ ์๋ ํ๋ํฐ๋ ํ๋ผ์ด๋ฒ์์ ๊ฐ๊ฒฉ์ ๋๋ค. ๋ฐ์ดํฐ ์ผํฐ AI๋ ์๋๋ฅผ ํธ๋ ์ด๋์คํํฉ๋๋ค ํ๋ผ์ด๋ฒ์ ์์ค.
๋ฏธ๋: LPDDR5X-PIM(2027-2028)๊ณผ LPDDR6(2027-2028)์ ํฐ ๋์ญํญ์ ~200 GB/s๋ก ๊ฐ์ (์ฌ์ ํ HBM3E๋ณด๋ค 6๋ฐฐ ๋๋ฆผ). ์ด๊ฒ์ ์๋ฏธ ์์(2๋ฐฐ tokens/sec)์ด์ง๋ง ํฐ์ด ๋ฐ์ดํฐ ์ผํฐ ์๋์ ์ผ์นํ์ง ์์ ๊ฒ. ๊ฐ๊ฒฉ์ 6๋ฐฐ๋ก ๋จ์ ๊ฒ์ด๊ณ , 14๋ฐฐ ์๋.
๋ฉ๋ชจ๋ฆฌ ๋ก๋๋งต: HBM4 ๋ฐ LPDDR6
HBM4(SKํ์ด๋์ค, 2026-2027): >2 TB/s ์คํ๋น. 2026-2027๋ Nvidia ๋ค์ ์ธ๋ GPU์์ ์ฒซ ๋์ฐฉ. HBM4๋ ํฐ๊ณผ๋ ๋ฌด๊ดํ์ง๋ง ๋ฐ์ดํฐ ์ผํฐ ์ถ๋ก ์ ๋ ๋น ๋ฅด๊ฒ ๋ฐ ๊ฒ์ ๋๋ค.
LPDDR6(2027-2028): ~200+ GB/s(์ถ์ ; x64 ๋ฒ์ค, 12.8 Gbps). LPDDR5X ๋์ญํญ์ ~2.3๋ฐฐ. 7B Q4 ๋ชจ๋ธ: 200 GB/s รท 3.5 GB โ 57 tokens/sec ์ด๋ก (24์์ ์ฌ๋ผ์ด). ํ์ค ~20โ35 tokens/sec. ์๋ฏธ ์๋ ๊ฐ์ ์ด์ง๋ง ์ฌ์ ํ ๋ฐ์ดํฐ ์ผํฐ HBM3E๋ณด๋ค 3๋ฐฐ ๋๋ฆผ. LPDDR6์ Galaxy S27/S28 ์๋(2027-2028)์์ ๋ฐฐ์ก๋ ๊ฒ์ ๋๋ค.
LPDDR5X-PIM(Samsung, 2027-2028): ๋ฉ๋ชจ๋ฆฌ ๋ด ์ฒ๋ฆฌ๋ DRAM ๋ค์ด ๋ด๋ถ์์ ์ฐ์ฐ์ ํฌํจํฉ๋๋ค. ๋ฉ๋ชจ๋ฆฌ์์ ๋ชจ๋ ๋ชจ๋ธ ๋ฌด๊ฒ๋ฅผ ๋ก๋ํ๋ ๋์ , ๋ฉ๋ชจ๋ฆฌ ๋ด๋ถ์์(ํ๋ ฌ ๊ณฑ์ )์ ๊ณ์ฐํ์ฌ ๋ฐ์ดํฐ ์ด๋์ ์ ๊ฑฐํฉ๋๋ค. Samsung์ ์ ๊ทน์ ์ผ๋ก ์ด๊ฒ์ ๊ฐ๋ฐํฉ๋๋ค. ์ฑ๊ณตํ๋ฉด ํ์ค LPDDR5X vs 50%+ ์ฒ๋ฆฌ๋ ๊ฐ์ ์ถ์ .
ํ์ค: LPDDR6 + PIM๋, ํฐ์ ์ฌ์ ํ ์ถ๋ก ์์ ๋ฐ์ดํฐ ์ผํฐ๋ณด๋ค 3โ6๋ฐฐ ๋๋ฆด ๊ฒ. ์ด๊ฒ์ ํฐ์ ๋ฌผ๋ฆฌ์ ์ค๊ณ(๋ ํฌ๊ณ , ๋ ๋จ๊ฒ๊ณ , ๋ ๋ง์ ์ ๋ ฅ)๋ฅผ ๋ณ๊ฒฝํ์ง ์๊ณ ๋ ๋ซํ ์ ์๋ ๊ทผ๋ณธ์ ๊ฐ๊ฒฉ์ ๋๋ค.
์จ๋๋ฐ์ด์ค AI 2026-2027์ ๊ฒฝ์ฐ: Exynos 2600 + LPDDR5X๋ ํ์ฌ ๊ธฐ์ค์ . Exynos 2700(S27)์ ๊ณ์ฐ์ ๊ฐ์ ํ ์ ์์ง๋ง ๋์ญํญ์ด ๋ณ๋ชฉ์ด ๋ ๊ฒ์ ๋๋ค. LPDDR6๊ณผ PIM์ ์ฆ๋ถ ๊ฐ์ ์ผ๋ก ์์ํฉ๋๋ค, ๋ณํ์ ์๋.
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
์ AI ์ถ๋ก ์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ๋ณ๋ชฉ์ธ๊ฐ?
๋์ฝ๋ ๋จ๊ณ(๊ฐ ํ ํฐ ์์ฑ)๋ ํ ๋ฒ์ ์ ํฅ ํจ์ค์ ๋ํด ์ ์ฒด ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํด์ผ ํ๊ธฐ ๋๋ฌธ. ๊ณ์ฐ ๋จ์๊ฐ ๋นจ๋ฆฌ ๋๋์ง๋ง ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ถฉ๋ถํ ๋นจ๋ฆฌ ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ธํ ์ ์์ต๋๋ค. FLOPS๊ฐ ๋ณ๋ชฉ์ด ์๋๋ผ ๋ฐ์ดํฐ ๋ฐฐ๋ฌ์ ๋๋ค.
์จ๋๋ฐ์ด์ค AI์ tokens/sec ๊ณต์์ ๋ฌด์์ ๋๊น?
๋จ์ํ: tokens/sec = memory_bandwidth / (model_size ร bytes_per_precision). 7B FP16 ๋ชจ๋ธ(14 GB) 85.6 GB/s์์: 85.6 รท 14 = ~6 tokens/sec. Q4 ์์ํ(3.5 GB): 85.6 รท 3.5 = ~24 tokens/sec. ํ์ค ~40โ60% ์ด๋ก ์ .
SKํ์ด๋์ค๊ฐ HBM์ ์ง๋ฐฐํ๋์?
์. SK๋ ~62% HBM ์์ฅ์ ๋ณด์ (2025๋ 2๋ถ๊ธฐ ์ ์ ). SK๋ Nvidia H100, H200, B200 GPU๋ฅผ ๊ณต๊ธํฉ๋๋ค.
LPDDR6๋ ์ธ์ ๋ฐฐ์ก๋๋์?
์ถ์ 2027-2028๋ Galaxy S27/S28์์. ~200+ GB/s(2.3x LPDDR5X). ์จ๋๋ฐ์ด์ค ํ ํฐ ์ฒ๋ฆฌ๋์ 2๋ฐฐ๊ฐ ํ ๊ฒ์ด์ง๋ง ์ฌ์ ํ ๋ฐ์ดํฐ ์ผํฐ HBM3E๋ณด๋ค 3โ6๋ฐฐ ๋๋ฆผ.
๊ด๋ จ ์๋ฃ
- Nvidia H100 HBM3E ๋ช ์ธ โ ๋ฐ์ดํฐ ์ผํฐ GPU ๋ฉ๋ชจ๋ฆฌ ์ดํด
- SKํ์ด๋์ค HBM ์์ฅ ์ ์ ์จ(2025) โ ๊ณต๊ธ๋ง ๋ถ์
- Samsung LPDDR5X-PIM ์ฐ๊ตฌ โ ๋ฉ๋ชจ๋ฆฌ ๋ด ์ฒ๋ฆฌ ๋ฏธ๋ ๋ก๋๋งต