Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/2026๋…„ ์ดˆ๋ณด์ž ์ž…๋ฌธ ๋กœ์ปฌ LLM: 4GB & 8GB RAM ๋ชจ๋ธ ์™„์ „ ๋น„๊ต (Llama 3.2, Phi-4, Gemma 3)
์‹œ์ž‘ํ•˜๊ธฐ

2026๋…„ ์ดˆ๋ณด์ž ์ž…๋ฌธ ๋กœ์ปฌ LLM: 4GB & 8GB RAM ๋ชจ๋ธ ์™„์ „ ๋น„๊ต (Llama 3.2, Phi-4, Gemma 3)

ยท9๋ถ„ ์ฝ๊ธฐยทBy Hans Kuepper ยท Founder of PromptQuorum, multi-model AI dispatch tool ยท PromptQuorum

2026๋…„ ์ดˆ๋ณด์ž๋ฅผ ์œ„ํ•œ ์ตœ๊ณ ์˜ ๋กœ์ปฌ LLM ๋ชจ๋ธ 5๊ฐ€์ง€๋Š” Llama 3.2 3B, Phi-4 Mini 3.8B, Gemma 3 2B, Mistral Small v0.3, Qwen3 7B์ž…๋‹ˆ๋‹ค. ๋ชจ๋‘ 4-8 GB RAM์—์„œ ๋‹จ ํ•˜๋‚˜์˜ Ollama ๋ช…๋ น์œผ๋กœ ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค.

2026๋…„ ์ดˆ๋ณด์ž๋ฅผ ์œ„ํ•œ ์ตœ๊ณ ์˜ ๋กœ์ปฌ LLM ๋ชจ๋ธ 5๊ฐ€์ง€๋Š” Meta Llama 3.2 3B, Microsoft Phi-4 Mini, Google Gemma 3 2B, Mistral Small v0.3, Qwen3 7B์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ชจ๋ธ์€ 4-8 GB RAM์„ ๊ฐ–์ถ˜ ์†Œ๋น„์ž์šฉ ํ•˜๋“œ์›จ์–ด์—์„œ ๊ตฌ๋™๋˜๋ฉฐ ์ผ์ƒ์ ์ธ ์ž‘์—…์— ์ ํ•ฉํ•œ ์ถœ๋ ฅ ํ’ˆ์งˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Slide Deck: 2026๋…„ ์ดˆ๋ณด์ž ์ž…๋ฌธ ๋กœ์ปฌ LLM: 4GB & 8GB RAM ๋ชจ๋ธ ์™„์ „ ๋น„๊ต (Llama 3.2, Phi-4, Gemma 3)

์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ 14์Šฌ๋ผ์ด๋“œ ๋ฑ: 2026๋…„ ์ดˆ๋ณด์ž ์ตœ๊ณ  ๋กœ์ปฌ LLM 5์„  -- Llama 3.2 3B (2.5 GB RAM), Phi-4 Mini (2.5 GB), Gemma 3 2B (1.7 GB), Mistral Small (4.5 GB), Qwen3 7B (4.7 GB). ๋ชจ๋ธ ๋น„๊ตํ‘œ, RAM ๊ฒฐ์ • ๊ฐ€์ด๋“œ, ์ง€์—ญ๋ณ„ ์ปดํ”Œ๋ผ์ด์–ธ์Šค (EU/์ผ๋ณธ/์ค‘๊ตญ/ํ•œ๊ตญ), ํ”ํ•œ ์‹ค์ˆ˜, ์ฒซ ์‹คํ–‰ ๋‹จ๊ณ„๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ดˆ๋ณด์ž ๋กœ์ปฌ LLM ์ฐธ๊ณ  ์นด๋“œ๋กœ PDF๋ฅผ ๋‹ค์šด๋กœ๋“œํ•˜์„ธ์š”.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • ์ „์ฒด ์ตœ๊ณ  ์ž…๋ฌธ ๋ชจ๋ธ: Llama 3.2 3B -- 2 GB ๋‹ค์šด๋กœ๋“œ, 4 GB RAM์—์„œ ์‹คํ–‰, ํฌ๊ธฐ ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ๋ช…๋ น ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ.
  • ์ €์šฉ๋Ÿ‰ RAM(4 GB ์ดํ•˜) ์ตœ๊ณ : Phi-4 Mini 3.8B -- Microsoft์˜ ์†Œํ˜• ๋ชจ๋ธ๋กœ ์ถ”๋ก  ๋ฐ ์ฝ”๋”ฉ ์ž‘์—…์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ ๋ฐœํœ˜ (68% MMLU, 70% HumanEval, ๋‹จ 2.5 GB RAM).
  • ๊ฐ€์žฅ ๋น ๋ฅธ 2B ๋ชจ๋ธ: Gemma 3 2B -- Google์˜ ์—…๋ฐ์ดํŠธ ๋ชจ๋ธ๋กœ 128K ์ปจํ…์ŠคํŠธ์—์„œ CPU ๊ธฐ์ค€ 40-60 tok/s ์†๋„ ๋‹ฌ์„ฑ (Gemma 2์˜ 8K์—์„œ ๋Œ€ํญ ํ™•์žฅ).
  • ์ตœ๊ณ  7B ์˜ฌ๋ผ์šด๋”: Mistral Small v0.3 -- ์•ˆ์ •์ ์ด๊ณ , ํ•จ์ˆ˜ ํ˜ธ์ถœ ์ง€์›, Apache 2.0 ๋ผ์ด์„ ์Šค. 2026๋…„ 4์›” ๊ธฐ์ค€ ์ฝ”๋”ฉ์—์„œ๋Š” Qwen3 7B๊ฐ€, ์˜์–ด ์ถ”๋ก ์—์„œ๋Š” Llama 3.3 8B๊ฐ€ ๋™์ผ RAM์—์„œ ์•ž์„ญ๋‹ˆ๋‹ค.
  • ๋‹ค๊ตญ์–ด ๋ฐ ์ฝ”๋”ฉ ์ตœ๊ณ : Qwen3 7B -- ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ์—์„œ Mistral Small์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ ํ•œ๊ตญ์–ด, ์ค‘๊ตญ์–ด, ์ผ๋ณธ์–ด ๋“ฑ 29๊ฐœ ์–ธ์–ด๋ฅผ ๊ธฐ๋ณธ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  • ๐Ÿ‘‰ ๋กœ์ปฌ์ด ์ ํ•ฉํ•œ์ง€ ํ™•์‹ ์ด ์—†์œผ์‹ ๊ฐ€์š”? ์„ ํƒ ์ „์— ๋กœ์ปฌ LLM vs ํด๋ผ์šฐ๋“œ ๋น„๊ต๋ฅผ ์ฝ์–ด๋ณด์„ธ์š” -- ์†๋„, ํ’ˆ์งˆ, ๋น„์šฉ ์ƒ์ถฉ ๊ด€๊ณ„๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

๋น ๋ฅธ ์‹œ์ž‘: 3๋ถ„ ์•ˆ์— ์ฒซ ๋กœ์ปฌ LLM ์‹คํ–‰ํ•˜๊ธฐ

1. Ollama ์„ค์น˜ (1๋ถ„)

ollama.com์—์„œ ๋‹ค์šด๋กœ๋“œํ•˜์—ฌ ์„ค์น˜ ํ”„๋กœ๊ทธ๋žจ์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ณ„๋„ ์„ค์ •์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค.

2. Llama 3.2 3B ์‹คํ–‰ (2๋ถ„)

ํ„ฐ๋ฏธ๋„์„ ์—ด๊ณ  ๋‹ค์Œ์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค: `ollama run llama3.2:3b`

Ollama๋Š” ์ฒซ ์‹คํ–‰ ์‹œ ๋ชจ๋ธ(์•ฝ 2 GB)์„ ๋‹ค์šด๋กœ๋“œํ•ฉ๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ถ”์ฒœํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

3. ์ฑ„ํŒ… ์‹œ์ž‘ (์ฆ‰์‹œ)

๋ชจ๋ธ์ด ๋กœ๋“œ๋˜๋ฉด ์งˆ๋ฌธ์ด๋‚˜ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž…๋ ฅํ•˜๊ณ  Enter๋ฅผ ๋ˆ„๋ฆ…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ๋…ธํŠธ๋ถ์—์„œ ์ดˆ๋‹น 25-45 ํ† ํฐ ์†๋„๋กœ ์‘๋‹ต์ด ํ‘œ์‹œ๋ฉ๋‹ˆ๋‹ค.

๊ทธ๊ฒŒ ์ „๋ถ€์ž…๋‹ˆ๋‹ค. ์ˆ˜๋™ ์„ค์ • ๋ถˆํ•„์š”, GPU ์—†์–ด๋„ ๋ฉ๋‹ˆ๋‹ค. RAM์ด 8 GB ์ด์ƒ์ด๋ผ๋ฉด ๋ฐ”๋กœ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 4-6 GB๋ผ๋ฉด `ollama run gemma3:2b`๋ฅผ ์‚ฌ์šฉํ•˜์„ธ์š” (๋” ๋น ๋ฅด๊ณ  1.7 GB RAM ์‚ฌ์šฉ).

์ดˆ๋ณด์ž ์ฒดํฌ๋ฆฌ์ŠคํŠธ: ๋กœ์ปฌ์ด ๋‚˜์—๊ฒŒ ๋งž์„๊นŒ์š”?

์ฒซ ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•˜๊ธฐ ์ „์— ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ์งˆ๋ฌธ์— ๋‹ตํ•ด๋ณด์„ธ์š”:

1. RAM์ด 8 GB ์ด์ƒ์ธ๊ฐ€์š”? (์•„๋‹ˆ๋ผ๋ฉด ํด๋ผ์šฐ๋“œ API๊ฐ€ ์‹œ์ž‘ํ•˜๊ธฐ ๋” ๋น ๋ฆ…๋‹ˆ๋‹ค.)

2. ๋ฐ์ดํ„ฐ๋ฅผ ๋น„๊ณต๊ฐœ๋กœ ์œ ์ง€ํ•ด์•ผ ํ•˜๋‚˜์š”? (์•„๋‹ˆ๋ผ๋ฉด ํด๋ผ์šฐ๋“œ API๊ฐ€ ๋” ์ข‹์€ ํ’ˆ์งˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.)

3. 20~40๋ถ„์˜ ์„ค์ • ์‹œ๊ฐ„์„ ๊ฐ์ˆ˜ํ•  ์ˆ˜ ์žˆ๋‚˜์š”? (์•„๋‹ˆ๋ผ๋ฉด ํด๋ผ์šฐ๋“œ API๋Š” 5๋ถ„ ์•ˆ์— ์ค€๋น„๋ฉ๋‹ˆ๋‹ค.)

๋‘ ๊ฐœ ์ด์ƒ์˜ ์งˆ๋ฌธ์— "์•„๋‹ˆ์˜ค"๋ผ๊ณ  ๋‹ตํ–ˆ๋‹ค๋ฉด, **๋กœ์ปฌ vs ํด๋ผ์šฐ๋“œ ์ „์ฒด ๋น„๊ต๋ฅผ ์ฝ์–ด๋ณด์„ธ์š”** -- ํด๋ผ์šฐ๋“œ API๊ฐ€ ํ•˜๋“œ์›จ์–ด์™€ ์ผ์ •์— ๋” ๋งž๋Š”์ง€ ํ™•์ธํ•˜์„ธ์š”. ์ดˆ๋ณด์ž๋“ค์€ ํ”ํžˆ ๋กœ์ปฌ LLM์ด ํ•ญ์ƒ ๋‚ซ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š”๋ฐ, ๊ทธ๋ ‡์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์˜ฌ๋ฐ”๋ฅธ ์„ ํƒ์€ ๊ฐœ์ธ์˜ ๊ตฌ์ฒด์ ์ธ ์ œ์•ฝ ์กฐ๊ฑด์— ๋‹ฌ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค.

์ดˆ๋ณด์ž์šฉ ๋กœ์ปฌ LLM ๋ชจ๋ธ์„ ์–ด๋–ป๊ฒŒ ์„ ํƒํ• ๊นŒ์š”?

๋กœ์ปฌ LLM์˜ ๋ชจ๋ธ ์„ ํƒ์€ ์„ธ ๊ฐ€์ง€ ์ œ์•ฝ ์กฐ๊ฑด์— ๋‹ฌ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค: ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ RAM, ์ถ”๋ก  ์†๋„, ์ž‘์—… ์œ ํ˜• -- ์ด ์šฐ์„ ์ˆœ์œ„ ์ˆœ์„œ๋กœ.

ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(3B, 7B, 13B)๊ฐ€ RAM ์š”๊ตฌ์‚ฌํ•ญ์˜ ์ฃผ์š” ๊ฒฐ์ • ์š”์ธ์ž…๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๋กœ์ปฌ ์ถ”๋ก  ๋„๊ตฌ์˜ ๊ธฐ๋ณธ๊ฐ’์ธ 4๋น„ํŠธ ์–‘์žํ™”์—์„œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์— ์•ฝ 0.5๋ฅผ ๊ณฑํ•˜์—ฌ ํ•„์š”ํ•œ GB RAM์„ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Q4_K_M ๊ธฐ์ค€ 7B ๋ชจ๋ธ์€ ์•ฝ 4.5 GB RAM์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ ์ดˆ๋ณด์ž์—๊ฒŒ๋Š” Q4_K_M ์–‘์žํ™”์˜ 7B ๋ชจ๋ธ์ด 8 GB ์ด์ƒ์˜ ๊ธฐ๊ธฐ์—์„œ ํ’ˆ์งˆ, ์†๋„, RAM ์‚ฌ์šฉ์˜ ์ตœ์  ๊ท ํ˜•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. 4-6 GB RAM ๊ธฐ๊ธฐ์—์„œ๋Š” 3B ๋ชจ๋ธ์ด ์‹ค์งˆ์ ์ธ ์ƒํ•œ์„ ์ž…๋‹ˆ๋‹ค.

3B vs 7B ํŒŒ๋ผ๋ฏธํ„ฐ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ -- 3B ๋ชจ๋ธ์€ 2-3 GB RAM์—์„œ 25-60 tok/s; 7B ๋ชจ๋ธ์€ 4.5-5 GB RAM์—์„œ 10-20 tok/s์ด์ง€๋งŒ ๋ณต์žกํ•œ ์ถ”๋ก ๊ณผ ๊ธด ๋ฌธ์„œ์—์„œ ํ’ˆ์งˆ์ด ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค.
3B vs 7B ํŒŒ๋ผ๋ฏธํ„ฐ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ -- 3B ๋ชจ๋ธ์€ 2-3 GB RAM์—์„œ 25-60 tok/s; 7B ๋ชจ๋ธ์€ 4.5-5 GB RAM์—์„œ 10-20 tok/s์ด์ง€๋งŒ ๋ณต์žกํ•œ ์ถ”๋ก ๊ณผ ๊ธด ๋ฌธ์„œ์—์„œ ํ’ˆ์งˆ์ด ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค.

#1 Meta Llama 3.2 3B -- ์ „์ฒด ์ตœ๊ณ  ์ž…๋ฌธ ๋ชจ๋ธ

Meta Llama 3.2 3B๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ตœ๊ณ ์˜ ์ถœ๋ฐœ์ ์ž…๋‹ˆ๋‹ค. 5๋ถ„ ์ด๋‚ด์— ๋‹ค์šด๋กœ๋“œ๋˜๊ณ , 4 GB RAM์˜ ๋ชจ๋“  ๊ธฐ๊ธฐ์—์„œ ์‹คํ–‰๋˜๋ฉฐ, ์ด์ „ 3B ๋ชจ๋ธ๋ณด๋‹ค ๋ช…๋ น ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์ด ๋ˆˆ์— ๋„๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋™์ผ ํฌ๊ธฐ ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ๋„“์€ 128K ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

8์ฝ”์–ด ๋…ธํŠธ๋ถ CPU ํ…Œ์ŠคํŠธ์—์„œ Llama 3.2 3B๋Š” ์ดˆ๋‹น 25-45 ํ† ํฐ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. Apple M3 Pro์—์„œ๋Š” 70-90 ํ† ํฐ/์ดˆ์— ๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ์š”์•ฝ, Q&A, ๊ฐ„๋‹จํ•œ ์ฝ”๋”ฉ ์ž‘์—…์—๋Š” ์ถฉ๋ถ„ํ•œ ํ’ˆ์งˆ์ด์ง€๋งŒ, ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์—์„œ๋Š” 7B ๋ชจ๋ธ์— ๋ฏธ์น˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์–‘๊ฐ’
ํŒŒ๋ผ๋ฏธํ„ฐ3B
ํ•„์š” RAM~2.5 GB (Q4_K_M)
๋‹ค์šด๋กœ๋“œ ํฌ๊ธฐ~2 GB
์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ128K ํ† ํฐ
CPU ์†๋„ (8์ฝ”์–ด ๋…ธํŠธ๋ถ)25-45 tok/s
Ollama ๋ช…๋ น์–ดollama run llama3.2:3b

#2 Microsoft Phi-4 Mini 3.8B -- ์ €์šฉ๋Ÿ‰ RAM ์ตœ๊ณ  ๋ชจ๋ธ

Phi-4 Mini๋Š” ์†Œ๊ทœ๋ชจ ์ถ”๋ก  ๋ฐ ์ฝ”๋”ฉ ์ž‘์—…์— ์ตœ์ ํ™”๋œ Microsoft์˜ ์†Œํ˜• ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ง‘์ค‘ํ•œ ๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ํ›ˆ๋ จ ๋•๋ถ„์— 68% MMLU, 70% HumanEval์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ -- 2024๋…„ ๋งŽ์€ 7B ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ˆ˜์น˜์ž…๋‹ˆ๋‹ค.

ํ’ˆ์งˆ์ด ์ค‘์š”ํ•œ 4-6 GB RAM ๊ธฐ๊ธฐ์— ๊ถŒ์žฅ๋˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Phi-4 Mini๋Š” 2.5 GB RAM์„ ์‚ฌ์šฉํ•˜์—ฌ (Phi-3.5 Mini์˜ 3 GB์—์„œ ๊ฐ์†Œ), 4 GB ๊ธฐ๊ธฐ์—์„œ ๋” ์ ‘๊ทผํ•˜๊ธฐ ์‰ฌ์›Œ์กŒ์Šต๋‹ˆ๋‹ค.

์‚ฌ์–‘๊ฐ’
ํŒŒ๋ผ๋ฏธํ„ฐ3.8B
ํ•„์š” RAM~2.5 GB (Q4_K_M)
๋‹ค์šด๋กœ๋“œ ํฌ๊ธฐ~2.3 GB
MMLU ์ ์ˆ˜68%
์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ128K ํ† ํฐ
CPU ์†๋„ (8์ฝ”์–ด ๋…ธํŠธ๋ถ)30-50 tok/s
Ollama ๋ช…๋ น์–ดollama run phi4-mini

#3 Google Gemma 3 2B -- ๊ฐ€์žฅ ๋น ๋ฅธ 2B ๋ชจ๋ธ

Gemma 3 2B๋Š” Google์˜ ์—…๋ฐ์ดํŠธ๋œ 2B ๋ชจ๋ธ๋กœ, CPU ์ „์šฉ ์ถ”๋ก ์—์„œ ๊ฐ€์žฅ ๋น ๋ฅธ ์„ ํƒ์ง€์ž…๋‹ˆ๋‹ค. ์ค‘๊ธ‰ ๋…ธํŠธ๋ถ CPU์—์„œ ์ดˆ๋‹น 40-60 ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋ฉฐ -- ๋™์ผ ํ•˜๋“œ์›จ์–ด์—์„œ Llama 3.2 3B๋ณด๋‹ค ์•ฝ 2๋ฐฐ ๋น ๋ฆ…๋‹ˆ๋‹ค. Gemma 3๋Š” ์ „์ž‘ ๋Œ€๋น„ ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค: ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ๊ฐ€ 8K(Gemma 2)์—์„œ 128K ํ† ํฐ์œผ๋กœ ํ™•์žฅ๋˜์–ด ๋ฌธ์„œ ์ž‘์—…์˜ ์ฃผ์š” ์ œํ•œ์ด ํ•ด์†Œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Gemma 3 2B๋Š” ์‘๋‹ต ์†๋„๊ฐ€ ๊ฐ€์žฅ ์ค‘์š”ํ•  ๋•Œ, RAM์ด 4 GB ์ดํ•˜์ธ ๊ธฐ๊ธฐ์—์„œ, ๋˜๋Š” ๋” ํฐ ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•˜๊ธฐ ์ „์— ๋กœ์ปฌ LLM ์„ค์ •์„ ํ™•์ธํ•˜๋Š” ํ…Œ์ŠคํŠธ ๋ชจ๋ธ๋กœ ํ™œ์šฉํ•˜๊ธฐ์— ์ข‹์Šต๋‹ˆ๋‹ค.

์‚ฌ์–‘๊ฐ’
ํŒŒ๋ผ๋ฏธํ„ฐ2B
ํ•„์š” RAM~1.7 GB (Q4_K_M)
๋‹ค์šด๋กœ๋“œ ํฌ๊ธฐ~1.6 GB
์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ128K ํ† ํฐ
CPU ์†๋„ (8์ฝ”์–ด ๋…ธํŠธ๋ถ)40-60 tok/s
Ollama ๋ช…๋ น์–ดollama run gemma3:2b

#4 Mistral Small v0.3 -- ์ตœ๊ณ  7B ์˜ฌ๋ผ์šด๋”

Mistral Small v0.3๋Š” ๊น”๋”ํ•œ ๋ช…๋ น ํ˜•์‹๊ณผ ํ•จ์ˆ˜ ํ˜ธ์ถœ ์ง€์›์„ ๊ฐ–์ถ˜ ์•ˆ์ •์ ์ธ ๋ฒ”์šฉ 7B ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. 2026๋…„ 4์›” ๊ธฐ์ค€ ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ์—์„œ๋Š” Qwen3 7B๊ฐ€, ์˜์–ด ์ถ”๋ก ์—์„œ๋Š” Llama 3.3 8B๊ฐ€ ์•ž์„œ์ง€๋งŒ -- Mistral AI๊ฐ€ ์ด ๋ชจ๋ธ์— Apache 2.0 ๋ผ์ด์„ ์Šค๋ฅผ ์ ์šฉํ•œ ํ”„๋ž‘์Šค ํšŒ์‚ฌ์ด๋ฏ€๋กœ EU ๋ฐ์ดํ„ฐ ์ฃผ๊ถŒ ๋งฅ๋ฝ์—์„œ๋Š” ์—ฌ์ „ํžˆ ๊ฐ•๋ ฅํ•œ ์„ ํƒ์ž…๋‹ˆ๋‹ค.

8 GB RAM ๊ธฐ๊ธฐ์—์„œ Mistral Small์€ 3B ๋ชจ๋ธ์—์„œ ์ž์—ฐ์Šค๋Ÿฌ์šด ์—…๊ทธ๋ ˆ์ด๋“œ์ž…๋‹ˆ๋‹ค. ์–ด๋–ค 3B ๋ชจ๋ธ๋ณด๋‹ค ๊ธด ํ…์ŠคํŠธ, ๋ณต์žกํ•œ ๋ช…๋ น, ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”๋ฅผ ๋” ์•ˆ์ •์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์–‘๊ฐ’
ํŒŒ๋ผ๋ฏธํ„ฐ7B
ํ•„์š” RAM~4.5 GB (Q4_K_M)
๋‹ค์šด๋กœ๋“œ ํฌ๊ธฐ~4.1 GB
์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ32K ํ† ํฐ
CPU ์†๋„ (8์ฝ”์–ด ๋…ธํŠธ๋ถ)10-20 tok/s
Ollama ๋ช…๋ น์–ดollama run llama3.2

#5 Qwen3 7B -- ๋‹ค๊ตญ์–ด ๋ฐ ์ฝ”๋”ฉ ์ตœ๊ณ  ๋ชจ๋ธ

Qwen3 7B๋Š” HumanEval(์ฝ”๋”ฉ) ๋ฐ MBPP ๋ฒค์น˜๋งˆํฌ์—์„œ Mistral Small์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ํ•œ๊ตญ์–ด, ์ค‘๊ตญ์–ด, ์ผ๋ณธ์–ด, ์•„๋ž์–ด, ์ฃผ์š” ์œ ๋Ÿฝ ์–ธ์–ด๋ฅผ ํฌํ•จํ•œ 29๊ฐœ ์–ธ์–ด๋ฅผ ๊ธฐ๋ณธ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ๋น„์˜์–ด๊ถŒ ์›Œํฌํ”Œ๋กœ์šฐ๋‚˜ ์ฝ”๋”ฉ ์ง‘์•ฝ์  ์‚ฌ์šฉ ์‚ฌ๋ก€์— ์ถ”์ฒœํ•˜๋Š” ์„ ํƒ์ž…๋‹ˆ๋‹ค.

Qwen3 7B๋Š” 128K ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ(Mistral Small์˜ 32K ๋Œ€๋น„)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ JSON ๋ชจ๋“œ๋กœ ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ instruct ๋ฒ„์ „๊ณผ base ๋ฒ„์ „์œผ๋กœ ์ œ๊ณต๋˜๋ฉฐ -- ์ฑ„ํŒ… ์šฉ๋„์—๋Š” ํ•ญ์ƒ instruct ๋ฒ„์ „์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. ์ž์„ธํ•œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ๋Š” Qwen vs Llama vs Mistral ๋ฒค์น˜๋งˆํฌ ๋น„๊ต๋ฅผ ์ฐธ์กฐํ•˜์„ธ์š”.

์‚ฌ์–‘๊ฐ’
ํŒŒ๋ผ๋ฏธํ„ฐ7B
ํ•„์š” RAM~4.7 GB (Q4_K_M)
๋‹ค์šด๋กœ๋“œ ํฌ๊ธฐ~4.4 GB
์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ128K ํ† ํฐ
CPU ์†๋„ (8์ฝ”์–ด ๋…ธํŠธ๋ถ)10-18 tok/s
Ollama ๋ช…๋ น์–ดollama run qwen2.5:7b

RAM, ์†๋„, ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ ๊ธฐ์ค€ ์ตœ๊ณ  ๋ชจ๋ธ์€?

๋ชจ๋ธRAM์†๋„ (CPU)์ปจํ…์ŠคํŠธ์ตœ์  ์šฉ๋„
Llama 3.2 3B2.5 GB25-45 tok/s128K์ผ๋ฐ˜ ์‚ฌ์šฉ, ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ
Phi-4 Mini 3.8B2.5 GB30-50 tok/s128K์ถ”๋ก , ์ฝ”๋”ฉ, ์ €์šฉ๋Ÿ‰ RAM
Gemma 3 2B1.7 GB40-60 tok/s128K์†๋„, ์ดˆ์ €์šฉ๋Ÿ‰ RAM
Mistral Small v0.34.5 GB10-20 tok/s32KEU ๋ฐฐํฌ, ํ•จ์ˆ˜ ํ˜ธ์ถœ, Apache 2.0
Qwen3 7B4.7 GB10-18 tok/s128K๋‹ค๊ตญ์–ด, ์ฝ”๋”ฉ
์ดˆ๋ณด์ž์šฉ ๋กœ์ปฌ LLM 5๊ฐœ ๋ชจ๋ธ์„ RAM, CPU ์ถ”๋ก  ์†๋„, ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ, ์‚ฌ์šฉ ์‚ฌ๋ก€๋ณ„๋กœ ๋น„๊ต -- ๋ชจ๋‘ Ollama๋ฅผ ํ†ตํ•ด Q4_K_M ์–‘์žํ™”๋กœ ๋ฒค์น˜๋งˆํฌ ์ธก์ •. Llama 3.2 3B๊ฐ€ ์ถ”์ฒœ ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ; Gemma 3 2B๋Š” 1.7 GB RAM์œผ๋กœ ๊ฐ€์žฅ ๋น ๋ฆ„.
์ดˆ๋ณด์ž์šฉ ๋กœ์ปฌ LLM 5๊ฐœ ๋ชจ๋ธ์„ RAM, CPU ์ถ”๋ก  ์†๋„, ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ, ์‚ฌ์šฉ ์‚ฌ๋ก€๋ณ„๋กœ ๋น„๊ต -- ๋ชจ๋‘ Ollama๋ฅผ ํ†ตํ•ด Q4_K_M ์–‘์žํ™”๋กœ ๋ฒค์น˜๋งˆํฌ ์ธก์ •. Llama 3.2 3B๊ฐ€ ์ถ”์ฒœ ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ; Gemma 3 2B๋Š” 1.7 GB RAM์œผ๋กœ ๊ฐ€์žฅ ๋น ๋ฆ„.

์–ด๋–ค ๋ชจ๋ธ๋กœ ์‹œ์ž‘ํ•ด์•ผ ํ• ๊นŒ์š”?

  • RAM 4 GB ์ดํ•˜: `ollama run gemma3:2b` -- ๊ฐ€์žฅ ๋น ๋ฅธ ๋‹ค์šด๋กœ๋“œ, ์ตœ์†Œ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ, 128K ์ปจํ…์ŠคํŠธ. ๊ธฐ๋ณธ ์ž‘์—…์— ์ˆ˜์šฉ ๊ฐ€๋Šฅํ•œ ํ’ˆ์งˆ.
  • RAM 8 GB, ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ: `ollama run llama3.2:3b` -- ์ฒซ ๊ฒฝํ—˜์—์„œ ํ’ˆ์งˆ๊ณผ RAM์˜ ์ตœ์  ๊ท ํ˜•.
  • RAM 4-6 GB, ์ถ”๋ก /์ฝ”๋”ฉ: `ollama run phi4-mini` -- 68% MMLU, 70% HumanEval, ๋‹จ 2.5 GB RAM. ๊ตฌ์กฐํ™” ์ž‘์—…์—์„œ Llama 3.2 3B๋ณด๋‹ค ์šฐ์ˆ˜.
  • RAM 8 GB, ๋ณธ๊ฒฉ ์‚ฌ์šฉ: `ollama run mistral` ๋˜๋Š” `ollama run qwen2.5:7b` -- ๊ธด ๋ฌธ์„œ, ๋ณต์žกํ•œ ๋ช…๋ น์„ ์œ„ํ•œ ์—…๊ทธ๋ ˆ์ด๋“œ.
  • ์ฃผ๋กœ ์ฝ”๋”ฉ ์ž‘์—…: `ollama run qwen2.5:7b` -- ์ด ๋ชฉ๋ก์—์„œ HumanEval ์ ์ˆ˜ ์ตœ๊ณ ; Python, JavaScript, SQL์— ๊ฐ•ํ•จ.
  • ๋น„์˜์–ด ์–ธ์–ด (ํ•œ๊ตญ์–ด ํฌํ•จ): `ollama run qwen2.5:7b` -- 29๊ฐœ ์–ธ์–ด ๊ธฐ๋ณธ ์ง€์›, ๋ฒˆ์—ญ ์˜ค๋ฒ„ํ—ค๋“œ ์—†์Œ. ํ•œ๊ตญ์–ด ํ…์ŠคํŠธ์—์„œ ํ† ํฐ ํšจ์œจ 30-40% ํ–ฅ์ƒ.
RAM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์„ ํƒ ๊ฐ€์ด๋“œ -- RAM 4 GB ์ดํ•˜์—์„œ Gemma 3 2B, 8 GB์—์„œ Llama 3.2 3B (์ตœ๊ณ  ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ), 8 GB+ ๋‹ค๊ตญ์–ด ๋ฐ ์ฝ”๋”ฉ ์›Œํฌ๋กœ๋“œ์—์„œ Qwen3 7B. ๋ชจ๋‘ ์ˆ˜๋™ ์„ค์ • ์—†์ด `ollama run`์œผ๋กœ ์‹คํ–‰.
RAM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์„ ํƒ ๊ฐ€์ด๋“œ -- RAM 4 GB ์ดํ•˜์—์„œ Gemma 3 2B, 8 GB์—์„œ Llama 3.2 3B (์ตœ๊ณ  ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ), 8 GB+ ๋‹ค๊ตญ์–ด ๋ฐ ์ฝ”๋”ฉ ์›Œํฌ๋กœ๋“œ์—์„œ Qwen3 7B. ๋ชจ๋‘ ์ˆ˜๋™ ์„ค์ • ์—†์ด `ollama run`์œผ๋กœ ์‹คํ–‰.

์ง€์—ญ์— ๋”ฐ๋ผ ์–ด๋–ค ๋ชจ๋ธ์„ ์„ ํƒํ•ด์•ผ ํ• ๊นŒ์š”?

ํ•œ๊ตญ (๊ฐœ์ธ์ •๋ณด๋ณดํ˜ธ๋ฒ•): ํ•œ๊ตญ ๊ฐœ์ธ์ •๋ณด๋ณดํ˜ธ๋ฒ•(PIPA)์— ๋”ฐ๋ผ ๊ฐœ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ์ปฌ์—์„œ ์ฒ˜๋ฆฌํ•˜๋Š” ์กฐ์ง์€ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋‚ด์—ญ์„ ๋ฌธ์„œํ™”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. Ollama๋ฅผ ํ†ตํ•œ ๋กœ์ปฌ ์ถ”๋ก ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์™ธ๋ถ€ ์„œ๋ฒ„๋กœ ์ „์†ก๋˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๋ฐ์ดํ„ฐ ํ˜„์ง€ํ™” ์š”๊ฑด์„ ์ถฉ์กฑํ•ฉ๋‹ˆ๋‹ค. ๊ธˆ์œต, ์˜๋ฃŒ, ๋ฒ•๋ฅ  ๋“ฑ ๊ทœ์ œ ์‚ฐ์—…์˜ ๊ฒฝ์šฐ ๋กœ์ปฌ LLM ์ถ”๋ก ์€ API ํ˜ธ์ถœ์˜ ๊ทœ์ • ์ค€์ˆ˜ ๋Œ€์•ˆ์ž…๋‹ˆ๋‹ค. ํ•œ๊ตญ์–ด ์›Œํฌํ”Œ๋กœ์šฐ์—๋Š” Qwen3 7B๊ฐ€ ์ตœ์  ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค -- ๋„ค์ดํ‹ฐ๋ธŒ ํ•œ๊ตญ์–ด ํ† ํฌ๋‚˜์ด์ œ์ด์…˜์œผ๋กœ Llama๋‚˜ Mistral๋ณด๋‹ค ํ•œ๊ตญ์–ด ํ…์ŠคํŠธ ํ† ํฐ ํšจ์œจ์ด 30-40% ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

EU / GDPR: EU ์กฐ์ง์ด ๊ฐœ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ์ปฌ์—์„œ ์ฒ˜๋ฆฌํ•  ๋•Œ ์ปดํ”Œ๋ผ์ด์–ธ์Šค ๋ฌธ์„œํ™”๋ฅผ ์œ„ํ•ด ๋ชจ๋ธ ์ถœ์ฒ˜๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Mistral Small v0.3 (Mistral AI, ํ”„๋ž‘์Šค, Apache 2.0)์ด ๊ฐ€์žฅ ๊น”๋”ํ•œ EU ์ปดํ”Œ๋ผ์ด์–ธ์Šค ์„œ์ˆ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋…์ผ BSI ์ง€์นจ์€ ์ „๋ฌธ์  ๋งฅ๋ฝ์—์„œ ์‚ฌ์šฉ๋˜๋Š” AI ์‹œ์Šคํ…œ์— ๋Œ€ํ•ด ๋ชจ๋ธ ์ถœ์ฒ˜์™€ ๋ผ์ด์„ ์Šค ์œ ํ˜•์˜ ๋ฌธ์„œํ™”๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

์ค‘๊ตญ: Qwen3 7B (Alibaba)๊ฐ€ ์ค‘๊ตญ์–ด ์›Œํฌํ”Œ๋กœ์šฐ์˜ ์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ๋กœ ์ž์—ฐ์Šค๋Ÿฌ์šด ์„ ํƒ์ž…๋‹ˆ๋‹ค. ๋„ค์ดํ‹ฐ๋ธŒ ์ค‘๊ตญ์–ด ํ† ํฌ๋‚˜์ด์ œ์ด์…˜๊ณผ 29๊ฐœ ์–ธ์–ด ์ง€์›์œผ๋กœ ์ค‘๊ตญ์–ด ์šฐ์„  ์›Œํฌํ”Œ๋กœ์šฐ์˜ ํ‘œ์ค€์ด ๋ฉ๋‹ˆ๋‹ค. ์ค‘๊ตญ ๋ฐ์ดํ„ฐ ๋ณด์•ˆ๋ฒ•(ๆ•ฐๆฎๅฎ‰ๅ…จๆณ•)์— ๋”ฐ๋ฅธ ์ค‘๊ตญ ๊ธฐ์—… ๋ฐฐํฌ์˜ ๊ฒฝ์šฐ, Ollama๋ฅผ ํ†ตํ•œ ๋กœ์ปฌ ์‹คํ–‰์˜ Qwen3๊ฐ€ ๋ฐ์ดํ„ฐ ํ˜„์ง€ํ™” ์š”๊ฑด์„ ์ถฉ์กฑํ•ฉ๋‹ˆ๋‹ค.

์ด ๋ชจ๋ธ๋“ค์„ ์–ด๋–ป๊ฒŒ ๋‹ค์šด๋กœ๋“œํ•˜๊ณ  ์‹คํ–‰ํ•˜๋‚˜์š”?

5๊ฐœ ๋ชจ๋ธ ๋ชจ๋‘ ๋‹จ ํ•˜๋‚˜์˜ Ollama ๋ช…๋ น์œผ๋กœ ์„ค์น˜๋ฉ๋‹ˆ๋‹ค -- ์ˆ˜๋™ ์„ค์ •์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค. ์„ค์น˜๋Š” Ollama ์„ค์น˜ ๋ฐฉ๋ฒ•์„ ์ฐธ์กฐํ•˜๊ณ , ๋‹จ๊ณ„๋ณ„ ์ฒซ ์‹คํ–‰ ์•ˆ๋‚ด๋Š” ์ฒซ ๋กœ์ปฌ LLM ์‹คํ–‰์„ ์ฐธ์กฐํ•˜์„ธ์š”. RAM์ด ์ œํ•œ๋œ ๋…ธํŠธ๋ถ์—์„œ ์‹คํ–‰ํ•˜๋Š” ๊ฒฝ์šฐ ๋…ธํŠธ๋ถ์—์„œ ๋กœ์ปฌ LLM ์‹คํ–‰ ๋ฐฉ๋ฒ•์—์„œ ์ œํ•œ๋œ ํ•˜๋“œ์›จ์–ด๋ฅผ ์œ„ํ•œ ์–‘์žํ™” ๋ฐ ์„ฑ๋Šฅ ํŠœ๋‹์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

์ฒซ ๋ฒˆ์งธ ๋ชจ๋ธ์ด ์‹คํ–‰๋˜๋ฉด ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ํšจ๊ณผ์ ์œผ๋กœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž‘์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šฐ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ๊ธฐ์ดˆ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์„ธ์š” -- ์˜จ๋„ ์„ค์ •๋ถ€ํ„ฐ ์ถœ๋ ฅ ํ˜•์‹๊นŒ์ง€ ๋ชจ๋“  ํ”„๋กฌํ”„ํŠธ์— ํ•„์š”ํ•œ ๋นŒ๋”ฉ ๋ธ”๋ก์„ ๋‹ค๋ฃจ๋Š” 16๊ฐœ ๊ฐ€์ด๋“œ์ž…๋‹ˆ๋‹ค.

์ดˆ๋ณด์ž๊ฐ€ ๋กœ์ปฌ LLM ์„ ํƒ ์‹œ ์ž์ฃผ ์ €์ง€๋ฅด๋Š” ์‹ค์ˆ˜๋Š”?

  • ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋งŒ ๋ณด๊ณ  ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ -- 4๋น„ํŠธ ์–‘์žํ™” 7B ๋ชจ๋ธ์ด ์ œ๋Œ€๋กœ ์–‘์žํ™”๋˜์ง€ ์•Š์€ 13B๋ณด๋‹ค ์šฐ์ˆ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • GPU VRAM ์–‘์žํ™” ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š” ๊ฒƒ -- ๋ชจ๋ธ์ด ํŒŒ์ผ ํฌ๊ธฐ๋ณด๋‹ค 10-15% ๋” ๋งŽ์€ VRAM์„ ํ•„์š”๋กœ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ƒˆ ์–‘์žํ™”(Q4_K_M)๊ฐ€ ๋™์ผ ํฌ๊ธฐ์—์„œ ๋” ๋‚˜์€ ํ’ˆ์งˆ์„ ์ œ๊ณตํ•˜๋Š”๋ฐ ์ด์ „ ์–‘์žํ™”(Q3_K_S)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ.
  • Mistral Small์„ ๊ธฐ๋ณธ 7B ๋ชจ๋ธ๋กœ ์„ ํƒํ•˜๋Š” ๊ฒƒ: Mistral Small v0.3๋Š” 2023-2024๋…„ ์ปค๋ฎค๋‹ˆํ‹ฐ ํ‘œ์ค€์ด์—ˆ์ง€๋งŒ ํ˜„์žฌ๋Š” ์ฝ”๋”ฉ์—์„œ Qwen3 7B์—, ์˜์–ด ์ž‘์—…์—์„œ Llama 3.3 8B์— ๋™์ผ RAM ์š”๊ตฌ์‚ฌํ•ญ์œผ๋กœ ๋’ค์ฒ˜์ง‘๋‹ˆ๋‹ค. ๋„๊ตฌ๊ฐ€ ๊ธฐ๋ณธ์ ์œผ๋กœ `ollama run mistral`์„ ์‚ฌ์šฉํ•œ๋‹ค๋ฉด RAM์„ ๋Š˜๋ฆฌ์ง€ ์•Š๊ณ  ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์œ„ํ•ด `ollama run qwen2.5:7b` ๋˜๋Š” `ollama run llama3.2`๋กœ ์ „ํ™˜ํ•˜์„ธ์š”.
  • ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ RAM์„ ๋จผ์ € ํ™•์ธํ•˜์ง€ ์•Š๊ณ  ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•˜๋Š” ๊ฒƒ: ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ RAM์„ ์ดˆ๊ณผํ•˜๋Š” ๋ชจ๋ธ์„ ๋‹ค์šด๋ฐ›์œผ๋ฉด Ollama๊ฐ€ ๋ถ€๋ถ„ ๋””์Šคํฌ ์Šค์™€ํ•‘์„ ๋™๋ฐ˜ํ•œ ๋А๋ฆฐ CPU ์ถ”๋ก ์œผ๋กœ ์ „ํ™˜ํ•ฉ๋‹ˆ๋‹ค -- ๋•Œ๋กœ๋Š” 1 tok/s ๋ฏธ๋งŒ. 7B ์ด์ƒ์˜ ๋ชจ๋ธ์„ ๋‹ค์šด๋ฐ›๊ธฐ ์ „์— ํ•ญ์ƒ `free -h` (Linux/macOS)๋ฅผ ์‹คํ–‰ํ•˜๊ฑฐ๋‚˜ ์ž‘์—… ๊ด€๋ฆฌ์ž(Windows)๋ฅผ ํ™•์ธํ•˜์„ธ์š”.

์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ

2026๋…„ ์ดˆ๋ณด์ž์—๊ฒŒ ๊ฐ€์žฅ ์ข‹์€ ๋กœ์ปฌ LLM ๋ชจ๋ธ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ์šฉ์ž์—๊ฒŒ๋Š” Llama 3.2 3B -- 4 GB RAM์˜ ๋ชจ๋“  ๊ธฐ๊ธฐ์—์„œ ์‹คํ–‰๋˜๊ณ , 5๋ถ„ ์ด๋‚ด์— ๋‹ค์šด๋กœ๋“œ๋˜๋ฉฐ, ์šฐ์ˆ˜ํ•œ ๋ช…๋ น ์ˆ˜ํ–‰ ์ถœ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. RAM 8 GB์—์„œ๋Š” Qwen3 7B๊ฐ€ ๋” ๋‚˜์€ ์ฝ”๋”ฉ๊ณผ ๋‹ค๊ตญ์–ด ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ ˆ๋Œ€ ์ตœ์ € RAM์—๋Š” Gemma 3 2B๊ฐ€ 1.7 GB์—์„œ CPU ๊ธฐ์ค€ 40-60 tok/s๋กœ ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค.

๋กœ์ปฌ LLM์„ ์‹คํ–‰ํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์†Œ RAM์€ ์–ผ๋งˆ์ธ๊ฐ€์š”?

์œ ์šฉํ•œ ์ถœ๋ ฅ์„ ์œ„ํ•œ ์‹ค์งˆ์ ์ธ ์ตœ์†Œ๊ฐ’์€ Q4_K_M ์–‘์žํ™”์˜ 3B ๋ชจ๋ธ์—์„œ 4 GB RAM์ž…๋‹ˆ๋‹ค. 8 GB RAM์€ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ ํ˜„์ €ํžˆ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•˜๋Š” 7B ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

Ollama๋กœ ์ด ๋ชจ๋ธ๋“ค์„ ์–ด๋–ป๊ฒŒ ์‹คํ–‰ํ•˜๋‚˜์š”?

ollama.com์—์„œ Ollama๋ฅผ ์„ค์น˜ํ•œ ํ›„ ์ถ”์ฒœ ์ž…๋ฌธ ๋ชจ๋ธ์„ ์œ„ํ•ด `ollama run llama3.2:3b`๋ฅผ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. Ollama๋Š” ์ฒซ ์‹คํ–‰ ์‹œ ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๋‚˜์—ด๋œ 5๊ฐœ ๋ชจ๋ธ ๋ชจ๋‘ Ollama ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ์žˆ์Šต๋‹ˆ๋‹ค.

Llama 3.2 3B๋Š” ์ผ์ƒ์ ์ธ ์ž‘์—…์— ์ถฉ๋ถ„ํ•œ๊ฐ€์š”?

๊ฐ€๋Šฅ: ์š”์•ฝ, ๊ฐ„๋‹จํ•œ Q&A, ๊ธฐ๋ณธ ์ฝ”๋“œ ์„ค๋ช…, ๋Œ€ํ™”ํ˜• ์ฑ„ํŒ…. ๋ถˆ๊ฐ€๋Šฅ: ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก , ๋ณต์žกํ•œ ์ฝ”๋”ฉ, ๊ธด ํ˜•์‹์˜ ๊ตฌ์กฐํ™” ์ž‘์„ฑ. ๊ทธ๋Ÿฐ ์ž‘์—…์—๋Š” 8 GB RAM์—์„œ Llama 3.3 8B ๋˜๋Š” Qwen3 7B๋กœ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜์„ธ์š”.

3B ๋ชจ๋ธ๊ณผ 7B ๋ชจ๋ธ์˜ ์ฐจ์ด์ ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

7B ๋ชจ๋ธ์€ ๋ณต์žกํ•œ ๋ช…๋ น๊ณผ ์ถ”๋ก ์—์„œ ๋ˆˆ์— ๋„๊ฒŒ ๋” ๋‚˜์€ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. 3B ๋ชจ๋ธ์€ RAM์˜ ์•ฝ ์ ˆ๋ฐ˜์„ ์‚ฌ์šฉํ•˜๊ณ  2-3๋ฐฐ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค. ์„ ํƒ์€ ๊ฑฐ์˜ ํ•ญ์ƒ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ RAM์— ์˜ํ•ด ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค -- 4-6 GB ๊ธฐ๊ธฐ์—์„œ๋Š” 3B, 8 GB ๊ธฐ๊ธฐ์—์„œ๋Š” 7B๋ฅผ ์‚ฌ์šฉํ•˜์„ธ์š”.

์ฝ”๋”ฉ ์ž‘์—…์— ๊ฐ€์žฅ ์ข‹์€ ๋ชจ๋ธ์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

Qwen3 7B๊ฐ€ 5๊ฐœ ๋ชจ๋ธ ์ค‘ HumanEval ์„ ๋‘์ž…๋‹ˆ๋‹ค. ๋” ๋‚˜์€ ์ฝ”๋”ฉ์„ ์œ„ํ•ด ์ „์šฉ ์ฝ”๋“œ ๋ณ€ํ˜•์„ ์‚ฌ์šฉํ•˜์„ธ์š”: `ollama run qwen2.5-coder:7b`. 4-6 GB RAM์œผ๋กœ ์ œํ•œ๋œ ๊ฒฝ์šฐ Phi-4 Mini 3.8B๊ฐ€ ์ตœ๊ณ  ์ฝ”๋”ฉ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค (2.5 GB RAM์—์„œ 70% HumanEval).

ํ•œ๊ตญ์–ด๋‚˜ ๋น„์˜์–ด ์–ธ์–ด์—๋Š” ์–ด๋–ค ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋‚˜์š”?

Qwen3 7B๋Š” ํ•œ๊ตญ์–ด, ์ค‘๊ตญ์–ด, ์ผ๋ณธ์–ด, ์•„๋ž์–ด, ์ฃผ์š” ์œ ๋Ÿฝ ์–ธ์–ด๋ฅผ ํฌํ•จํ•œ 29๊ฐœ ์–ธ์–ด๋ฅผ ๊ธฐ๋ณธ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ๋น„์˜์–ด ํ…์ŠคํŠธ๋ฅผ Llama๋‚˜ Mistral๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ํ•œ๊ตญ์–ด ํ…์ŠคํŠธ์—์„œ ํ† ํฐ ํšจ์œจ์ด 30-40% ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

์ด ๋ชจ๋ธ๋“ค์€ ๊ฐœ์ธ ๋ฐ์ดํ„ฐ์— ์‚ฌ์šฉํ•ด๋„ ์•ˆ์ „ํ•œ๊ฐ€์š”?

๋„ค -- 5๊ฐœ ๋ชจ๋ธ ๋ชจ๋‘ ์™„์ „ํžˆ ์‚ฌ์šฉ์ž์˜ ํ•˜๋“œ์›จ์–ด์—์„œ ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ ํ…์ŠคํŠธ, ์ปจํ…์ŠคํŠธ, ์ถœ๋ ฅ์€ ์™ธ๋ถ€ ์„œ๋ฒ„๋กœ ์ „์†ก๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋กœ์ปฌ ์ถ”๋ก ์€ ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํด๋ผ์šฐ๋“œ API๋ณด๋‹ค ๋ณธ์งˆ์ ์œผ๋กœ ๋” ํ”„๋ผ์ด๋น—ํ•ฉ๋‹ˆ๋‹ค.

์ด ๋ชจ๋ธ๋“ค์„ ๋‹ค์šด๋กœ๋“œํ•˜๋Š” ๋ฐ ์–ผ๋งˆ๋‚˜ ๊ฑธ๋ฆฌ๋‚˜์š”?

100 Mbps ์—ฐ๊ฒฐ ๊ธฐ์ค€: Gemma 3 2B (1.6 GB) ์•ฝ 2๋ถ„. Llama 3.2 3B (2 GB) ์•ฝ 3๋ถ„. Phi-4 Mini (2.3 GB) ์•ฝ 3๋ถ„. Mistral Small (4.1 GB) ์•ฝ 5๋ถ„. ๋ชจ๋ธ์€ ์ฒซ ๋‹ค์šด๋กœ๋“œ ํ›„ ์บ์‹œ๋˜์–ด -- ์ดํ›„ ์‹คํ–‰์€ ์ˆ˜์ดˆ ์•ˆ์— ์‹œ์ž‘๋ฉ๋‹ˆ๋‹ค.

๊ฐ™์€ ๊ธฐ๊ธฐ์—์„œ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋‚˜์š”?

๋„ค -- 5๊ฐœ ๋ชจ๋‘ ๋””์Šคํฌ์— ๋™์‹œ์— ๊ณต์กดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 5๊ฐœ ๋ชจ๋‘ ์„ค์น˜ํ•  ๊ฒฝ์šฐ 15-20 GB๋ฅผ ๊ณ„ํšํ•˜์„ธ์š”. Ollama๋Š” ํ•œ ๋ฒˆ์— ํ•œ ๋ชจ๋ธ์„ ๋กœ๋“œํ•˜๊ณ  5๋ถ„ ๋น„ํ™œ์„ฑ ํ›„ ์–ธ๋กœ๋“œํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜

  • Meta AI. (2024). "Llama 3.2 Model Card." https://llama.meta.com/ -- Llama 3.2 3B ๋ฐ 1B ๋ชจ๋ธ์˜ ๊ณต์‹ ์‚ฌ์–‘ ๋ฐ ๋ฒค์น˜๋งˆํฌ.
  • Microsoft. (2025). "Phi-4 Mini Technical Report." https://huggingface.co/microsoft/Phi-4-mini-instruct -- Phi-4 Mini ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ (68% MMLU, 70% HumanEval).
  • Google DeepMind. (2025). "Gemma 3 Model Card." https://ai.google.dev/gemma/docs/core -- 128K ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ ์—…๊ทธ๋ ˆ์ด๋“œ๋ฅผ ํฌํ•จํ•œ Gemma 3 2B ์‚ฌ์–‘ ๋ฐ ์„ฑ๋Šฅ.
  • Ollama. (2026). "Ollama Model Library." https://ollama.com/library -- Ollama ๋ชจ๋ธ ํƒœ๊ทธ, ํฌ๊ธฐ, ํ’€ ๋ช…๋ น์˜ ๊ณต์‹ ์ถœ์ฒ˜.
  • Hugging Face. (2026). "Open LLM Leaderboard." https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard -- ๋ชจ๋“  ์˜คํ”ˆ ๋ชจ๋ธ์˜ MMLU, HumanEval, MATH ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜.
  • Mistral AI. (2024). "Mistral Small v0.3 Release Notes." https://mistral.ai/news/announcing-mistral-7b/ -- ๊ธฐ์ˆ  ์‚ฌ์–‘ ๋ฐ Apache 2.0 ๋ผ์ด์„ ์Šค ์„ธ๋ถ€ ์‚ฌํ•ญ.
  • Alibaba DAMO Academy. (2024). "Qwen3 Technical Report." arXiv:2412.15115. https://arxiv.org/abs/2412.15115 -- Qwen3 7B์˜ ๋‹ค๊ตญ์–ด ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ ๋ฐ ์•„ํ‚คํ…์ฒ˜ ์„ธ๋ถ€ ์‚ฌํ•ญ.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each providerโ€™s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both โ€” you pick the backend.

Join the PromptQuorum Waitlist โ†’

โ† Back to Local LLMs

2026๋…„ ์ดˆ๋ณด์ž ๋กœ์ปฌ LLM: 4GBโ€“8GB RAM ๋ชจ๋ธ ์ˆœ์œ„ | PromptQuorum