Key Takeaways
- ììíë 16ë¹íž ëªšëž ê°ì€ì¹ë¥Œ 4ë¹íž ëë 8ë¹ížë¡ ë³ííì¬ RAMì 50â75% ì ìœí©ëë€.
- Q4_K_Mì íì€ ê¶ì¥ ìì€ìŒë¡, ìë¹ìì© íëìšìŽìì íì§ê³Œ RAMì ìµì ê· íì ì ê³µí©ëë€.
- FP16 êž°ì€ 7B ëªšëž = ìœ 14 GB RAM. Q4_K_M = ìœ 4.5 GB. Q8_0 = ìœ 7 GB.
- Q4_K_Mì íì§ ìì€ì FP16 ëë¹ MMLU ë²€ì¹ë§í¬ìì 1â3%ë¡, ëë¶ë¶ì ì€ì©ì ìž ìì ìì 첎ê°íêž° ìŽë µìµëë€.
- GGUFë llama.cpp, Ollama, LM Studio륌 ìí ììí ëªšëž íìŒ íìì ëë€.
LLM ììíë 묎ììŽë©° ì ì€ìí©ëê¹?
ììíë 16ë¹íž ëªšëž ê°ì€ì¹(FP16)륌 4ë¹íž ëë 8ë¹íž ì ìë¡ ë³ííì¬ RAMì 50â75% ì€ìŽë©°, Q4_K_M êž°ì€ íì§ ìì€ì 1â3%ì ë¶ê³Œí©ëë€. ëí ìžìŽ ëªšëžì íìµë ì§ìì ìììµ ê°ì ìì¹ ê°ì€ì¹ë¡ ì ì¥í©ëë€. Ʞ볞ì ìŒë¡ ìŽ ê°ì€ì¹ë 16ë¹íž ë¶ëììì (FP16), ìŠ ê°ì€ì¹ë¹ 2ë°ìŽížë¡ ì ì¥ë©ëë€. 7B 몚ëžì 70ìµ ê°ì ê°ì€ì¹ë¥Œ ê°ì§ë¯ë¡ FP16 íìŒ í¬êž°ë ìœ 14 GBì ëë€.
ììíë ìŽ 16ë¹íž ë¶ëììì ì ë®ì ì ë°ëì ì ìë¡ ë첎í©ëë€. 4ë¹íž ììíììë ê°ì€ì¹ íëì 2ë°ìŽíž ëì 0.5ë°ìŽížë¥Œ ì¬ì©íì¬ ë©ëªšëŠ¬ë¥Œ ê°ì€ì¹ ëšë êž°ì€ ìœ 3.5 GBë¡ ì€ì ëë€. ë©íë°ìŽí° ì€ë²í€ë륌 í¬íší멎 Q4_K_MìŒë¡ ììíë 7B 몚ëžì ìœ 4.5 GBì ëë€.
ìŽê²ìŽ ë¡ì»¬ ì¶ë¡ ìì ì€ìí ìŽì ë ìë¹ìì© íëìšìŽì RAMìŽ ì íëìŽ ìêž° ë묞ì ëë€. ììí ììŽë 7B 몚ëžì ì€ííë ë° 16 GB RAMìŽ íìí©ëë€. Q4_K_M ììí륌 ì ì©í멎 ëìŒí 몚ëžì 6 GB RAMìŒë¡ ì€íí ì ììŽ ëë¶ë¶ì ìµì ë žížë¶ììë ì¬ì© ê°ë¥í©ëë€.
Q4_K_M ììíë 묎ìì ëê¹?
Q4_K_Mì llama.cppì Ollamaìì ì¬ì©ëë 4ë¹íž GGUF ììí íìì ëë€. "K"ë K-ííž(íŒí© ì ë°ë)륌 ì¬ì©íšì ì믞íë©°, "M"ì 믞ëì(medium), ìŠ ëªšëž í¬êž°Â·ìë·íì§ ìì€ ê°ì ê· íì ëíë ëë€. Q4_K_Mì ëë¶ë¶ì ê°ì€ì¹ë¥Œ 4ë¹ížë¡ ì ì¥íì§ë§, ê°ì¥ 믌ê°í ë ìŽìŽìë 6ë¹ížë¥Œ ì¬ì©íì¬ ìì 4ë¹íž Q4_0ë³Žë€ ì°ìí íì§ ëë¹ í¬êž° ë¹ìšì ì ê³µí©ëë€.
- Q4_K_Mì 7B ëªšëž êž°ì€ ìœ 4.5 GB RAMì ì¬ì©íë©°, FP16 ëë¹ 70% ì ê³ íì§ ìì€ì 1â3%ì ë¶ê³Œí©ëë€
- K-íížë 믌ê°ëì ë°ëŒ ìë¡ ë€ë¥ž ê°ì€ì¹ 귞룹ì ë€ë¥ž ì ë°ë륌 ì ì©í©ëë€(ì€ìí ê°ì€ì¹ì ë ë§ì ë¹íž í ë¹)
- "M" ë³íìŽ íì€ ê¶ì¥ ë²ì ì ëë€(ë ê°ë²ŒìŽ "S"ì ë ë¬Žê±°ìŽ "L" ë³íë 졎ì¬íš)
- Q4_K_Mì 6â16 GB VRAMì ê°ì§ ìë¹ìì© íëìšìŽì Ʞ볞 ì íì ëë€
- Ollama(`ollama run model:q4_k_m`), LM Studio, llama.cppìì 몚ë ì§ìë©ëë€
Q4_K_M, Q5_K_M, Q8_0 ë° êž°í ìì€ì ì°šìŽë 묎ìì ëê¹?
4ë¹íž Q4_K_Mì íì€ ê¶ì¥ ì¬íìŒë¡, 7B ëªšëž êž°ì€ ìœ 4.5 GB RAM곌 FP16 ëë¹ 1â3% íì§ ìì€ì ì ê³µí©ëë€. ììí ìŽëŠì Q{ë¹ížì}_{ë³í} íšíŽì ë°ëŠ ëë€. ë¹íž ìë ê°ì€ì¹ ì ë°ëìŽê³ , ë³íì ììí ì ì© ë°©ìì ìí¥ì ì€ëë€.
| Level | Bits | RAM (7B) | Quality Loss | Use When |
|---|---|---|---|---|
| Q2_K | 2 | ~2.7 GB | ëì | RAM < 4 GB, íì§ ì í íì© ì |
| Q3_K_S | 3 | ~3.3 GB | ë³Žíµ | RAM 4â5 GB |
| Q4_K_M | 4 | ~4.5 GB | ë®ì (1â3%) | ëë¶ë¶ì ì¬ì©ììê² êž°ë³žê° |
| Q5_K_M | 5 | ~5.7 GB | ìµì (<1%) | RAM 16 GB, ë ëì íì§ ìí ë |
| Q6_K | 6 | ~6.6 GB | ê±°ì 묎ìì€ | RAM 16 GB, ìœë©Â·ìí ìì |
| Q8_0 | 8 | ~7.7 GB | 묎ì ê°ë¥ | RAM 16+ GB, ìµê³ íì§ |
GGUF íììŽë 묎ììŽë©° ììíì ìŽë€ êŽê³ê° ììµëê¹?
GGUF(GPT-Generated Unified Format)ë ììíë LLM ê°ì€ì¹ë¥Œ ìí ëšìŒ íìŒ íì€ìŒë¡, ëªšëž ê°ì€ì¹Â·ë©íë°ìŽí°Â·í í¬ëìŽì 륌 í¬íšíë©° Ollama, LM Studio, llama.cppìì ì¬ì©ë©ëë€. llama.cpp íë¡ì ížìì ë§ë€ììŒë©° 구í GGML íìì ë첎í©ëë€.
GGUF íìŒìë ììíë ëªšëž ê°ì€ì¹, 몚ë ëªšëž ë©íë°ìŽí°(ìí€í ì², í í¬ëìŽì , 컚í ì€íž êžžìŽ), íì ë²ì ë²ížê° í¬íšë©ëë€. ìŽ ìêžì족 ì€ê³ ëë¶ì ëšìŒ `.gguf` íìŒë§ìŒë¡ 몚ëžì ì€íí ì ììµëë€. ë³ëì í í¬ëìŽì íìŒìŽë ì€ì JSONìŽ íìíì§ ììµëë€.
2026ë 4ì êž°ì€, GGUFë Ollama, LM Studio, Jan AI, GPT4Allì íì€ íìì ëë€. `ollama pull llama3.1:8b`륌 ì€íí멎 Ollamaê° ëŽë¶ì ìŒë¡ GGUF íìŒì ë€ìŽë¡ëí©ëë€. LM Studioìì íìëë ëªšëž íìŒ í¬êž°ë GGUF íìŒ í¬êž°ì ëë€.
ììí ìì€ì íìŒëª ì í¬íšë©ëë€: `Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf`ë Llama 3.3 8Bì Q4_K_M ììí GGUF íìŒì ëë€.
ììíë ë€ìí ëªšëž í¬êž°ìì RAMì ìŒë§ë ì ìœí©ëê¹?
| Model Size | FP16 | Q8_0 | Q4_K_M | Q3_K_S |
|---|---|---|---|---|
| 3B | ~6 GB | ~3.8 GB | ~2 GB | ~1.6 GB |
| 7B | ~14 GB | ~7.7 GB | ~4.5 GB | ~3.3 GB |
| 13B | ~26 GB | ~14 GB | ~8.5 GB | ~6 GB |
| 34B | ~68 GB | ~36 GB | ~22 GB | ~16 GB |
| 70B | ~140 GB | ~70 GB | ~40 GB | ~30 GB |
ììíë¡ ì€ì ë¡ íì§ìŽ ìŒë§ë ì íë©ëê¹?
Q4_K_Mì FP16 ëë¹ MMLU ë²€ì¹ë§í¬ìì 1â3% ìì€ìŽ ë°ìíë©° ëë¶ë¶ì ì€ì©ì ìì ìì ì°šìŽë¥Œ 첎ê°íêž° ìŽë µìµëë€. Q3_K_Së 5â10% ìì€ë¡ ìí ë° ì¶ë¡ ìì ìì ì°šìŽê° ëì ëëë€. ììíë¡ ìží íì§ ìì€ì ì 첎 ì ë°ëì ììí ë²ì ì ë²€ì¹ë§í¬ ì ì륌 ë¹êµíì¬ ìž¡ì í©ëë€. 2026ë 4ì êž°ì€ ê²ìŠë 결곌ë ë€ì곌 ê°ìµëë€.
ììíë ë©ëªšëЬ ì¬ì©ëì ì€ìŽì§ë§ ì¶ë ¥ íì§ìŽ ì íë ì ììµëë€. ì ì€ê³ë í롬íížë¡ 볎ììŽ ê°ë¥í©ëë€: íšì· ìì ë° ëª ìì ì¶ë ¥ ì ìœ ì¡°ê±Ž ê°ì êž°ë²ì ììíë 몚ëžì ì íë ì ì§ì ëììŽ ë©ëë€. 몚ë ììí ìì€ìì íšê³Œì ìž ë°©ë²ì í롬ííž ìì§ëìŽë§ êž°ë²ì ì°žê³ íììì€.
- Q4_K_M vs FP16: MMLUìì 1â3% ì í. FP16ìì 73%륌 êž°ë¡í 7B 몚ëžì Q4_K_Mìì 71â72%륌 êž°ë¡í©ëë€. ì€ì©ì ìì ììë ìŽ ì°šìŽë¥Œ 첎ê°íêž° ìŽë µìµëë€.
- Q3_K_S vs FP16: 5â10% ì í. ë³µì¡í ì¶ë¡ ë° ìí ìì ìì ì°šìŽê° ëì ëëë€. FP16ììë ìí 묞ì 륌 ì íí ížë 몚ëžìŽ Q3_K_Sììë ì€íší ì ììµëë€.
- Q2_K vs FP16: 15â25% ì í. 몚ë ìì ì íìì íì§ ìì€ìŽ ëëë¬ì§ëë€. RAM ì ìœìŽ ì ëì ìŒ ëë§ ì¬ì©íììì€.
- Q8_0 vs FP16: 0.5% ë¯žë§ ì í â 몚ë ì€ì©ì 목ì ìì ì¬ì€ì ëìŒí©ëë€.
- K_M ë³í(K-ííž ë¯žëì)ì íŒí© ì ë°ë ë°©ìì ì¬ì©íì¬ ëìŒí ë¹íž ììì 구í Q4_0 ììíë³Žë€ íì§ì ë ì 볎졎í©ëë€. ë ê°ì§ê° 몚ë ì ê³µë ëë íì Q4_0 ëì Q4_K_Mì ì ííììì€.
ìŽë€ ììí륌 ì¬ì©íŽìŒ í©ëê¹? (ë¹ ë¥ž ê²°ì ížëЬ)
ëªšëž í¬êž°ë§ìŽ ìë ì¬ì© ê°ë¥í VRAMì êž°ì€ìŒë¡ ì ííììì€. ìë íë íëìšìŽ ì ìœì ë°ëŒ ì íí ììí륌 볎ì¬ì€ëë€.
- RAM 6 GB (ê°ì¥ ìŒë°ì ìž ë žížë¶/ë°ì€í¬í±): Q4_K_Mì ì¬ì©íììì€. Q4_K_MìŒë¡ ììíë 7B 몚ëžì ìœ 4.5 GBë¡, OSì ëžëŒì°ì ì© 1.5 GBê° ëšìµëë€.
- ìœë© ëë ìí ìì ì 겜ì°: Q4_K_M ìì°ìŽ ìëëŒë Q5_K_M ìŽìì ì¬ì©íììì€. ììí íšê³Œ(1â3% ìì€)ë ì ë°í ìì¹ ì¶ë¡ ìì ê°ì¥ ëëë¬ì§ëë€. Q5_K_M Qwen3-Coderì ìží°ë· ì°šëš ìŽì©ì ê²°í©í ìì í ììŽê° ìœë© ì€ì ì ìží°ë· ìë ë¡ì»¬ ìœë© LLMì ì°žê³ íììì€.
- ììí + ìšë(temperature) ížë ìŽëì€í: ìšë 0.3ì Q4_K_M 몚ëžì ìšë 1.0ì ì 첎 ì ë°ë(FP16) 몚ëžë³Žë€ ë ê²°ì ë¡ ì ìž ì¶ë ¥ì ìì±í©ëë€. ë 늜ì ìž ì¡°ì ì ìíŽìë ìšëì top-p: AI ì°œìì± ì ìŽë¥Œ ì°žê³ íììì€.
- ì€ë§íž í ë° ì£ì§ ëë°ìŽì€: Q4_K_M (4â8 GB VRAM)ì 믞ë PCìì ìì ê°ëëë í ìëí AIì ìµì ì íì ëë€. ì€ë§íž í ìµê³ ì ë¡ì»¬ LLM ëªšëž âì ì°žê³ íììì€.
| Your VRAM | Best Quantization | Model Size | Quality |
|---|---|---|---|
| 4â6 GB | Q3_K_S ëë Q4_K_M | 3B, 7B (Q4) | 7B (Q3) | Q3 êž°ì€ 5â10% ìì€ | Q4 êž°ì€ 1â3% |
| 6â8 GB | Q4_K_M (ê¶ì¥) | 7B ë€ìŽí°ëž | 1â3% ìì€ (ì²Žê° ë¶ê°) |
| 12â16 GB | Q5_K_M | 7B, 13B ë€ìŽí°ëž | <1% ìì€ (ìµì) |
| 24 GB (RTX 4090) | Q5_K_M ëë Q6_K | 13B, 32B ë€ìŽí°ëž | Q4 + ì€íë¡ëë¡ 70B | 묎ì ê°ë¥ <0.5% |
| 32 GB (RTX 5090) | Q5_K_M, Q6_K ëë Q8_0 | 70B @ Q4 (35 GB), Q5 (43 GB) | 0â2% ìì€ |
| 48+ GB (2à RTX 4090) | Q5_K_M ëë Q8_0 | ë ìŽìŽ ë¶í ë¡ 70B ë€ìŽí°ëž | 묎ì ê°ë¥ <0.5% |
LM Studio: UIìì ììí륌 ì ííë ë°©ë²
LM Studio(ë°ì€í¬í± ì±)ë ê° ëªšëž ë€ìŽë¡ëì ëíŽ ì¬ì© ê°ë¥í ììí ë³íì íìí©ëë€. 몚ëžì ê²ìí멎 Q2_K, Q3_K_S, Q4_K_M, Q5_K_M, Q6_K, Q8_0 ë± ì¬ë¬ GGUF ìµì ì 볌 ì ììµëë€.
1ëšê³: LM Studio ìŽêž° â "Local Models" íìŒë¡ ìŽë. ëªšëž ê²ì (ì: "Llama 3.3 8B"). 2ëšê³: ê° ëªšëžì ì¬ì© ê°ë¥í ììíê° íìë©ëë€. íìŒ í¬êž°ë¥Œ íìžíì¬ VRAM ì¬ì©ëì ì¶ì íììì€. 7B 몚ëžì Q4_K_Mì ë³Žíµ ìœ 4.5 GBë¡ íìë©ëë€. 3ëšê³: ì íí ììí ìì ë€ìŽë¡ë ììŽìœì íŽëŠíììì€.
LM Studio Ʞ볞 ê¶ì¥ ì¬í:
- GPU VRAM 6â8 GB (RTX 4060, RTX 3060 Ti, RTX 4060 Ti): Q4_K_M ë³íì ë€ìŽë¡ëíììì€ (íì© ê°ë¥í íì§ì ê°ì¥ ìì íìŒ).
- GPU VRAM 12â16 GB (RTX 4070, RTX 4080): Q5_K_M ëë Q6_K륌 ë€ìŽë¡ëíììì€ (ë ëì íì§, VRAM ëŽ ì¶©ë¶í ì€í ê°ë¥).
- GPU VRAM 24+ GB (RTX 4090, RTX 5090): Q8_0 ëë FP16ì ë€ìŽë¡ëíììì€ (ìµê³ íì§, ìë íëí° ìµì).
LM Studioì "GPU offload" êž°ë¥: ì±í ìží°íìŽì€ìì "Use GPU" í êžì íìžíììì€. LM Studioë VRAMìŽ íì©íë í ìµëí ë§ì ëªšëž ë ìŽìŽë¥Œ GPUë¡ ìŽëíê³ , ëëšžì§ë CPU RAMìŒë¡ ì€íë¡ëí©ëë€. ìì€í RAMìŽ ì¶©ë¶íë€ë©Ž GPU VRAMë³Žë€ ìœê° í° ëªšëžë ì€íí ì ììµëë€ (ì: 64+ GB ìì€í RAMìŽ ìë RTX 4090ìì Llama 3.3 70B Q4_K_M).
ì€íë¡ë©: CPU RAM íì©
VRAMìŽ ê°ë ì°Œì ë 몚ëžì ë ìŽìŽë¥Œ ìì€í RAMìŒë¡ ì€íë¡ë(ìŽë)í ì ììµëë€. ì€íë¡ë©ì ìë륌 í¬ìíê³ ì©ëì í볎í©ëë€.
ìë늬ì€: RTX 4090 (24 GB)ìì 70B Q4 ëªšëž ì€í. 몚ëžì 35 GBê° íìí 겜ì°, ì€íë¡ë©ì ì¬ì©í멎 ìœ 5â10 í í°/ìŽë¡ ì€í ê°ë¥í©ëë€ (80%륌 RAMìŒë¡ ìŽë).
ì€íë¡ë©ì ìµíì ìëšì ëë€ â ì¶ë¡ ì ì€ì©ì ìŽì§ ìê² ë§ëëë€. ì€íëŒìž ë°°ì¹ ì²ëЬë ì€í 목ì ìŒë¡ë§ ì¬ì©íììì€.
# Ollama: ì€íë¡ë© íì±í
export OLLAMA_NUM_GPU=0 # GPU ë¹íì±í (CPU ê°ì )
ollama run llama3.3:70b
# vLLM: CPU ì€íë¡ë íì±í (ë¶ë¶)
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--gpu-memory-utilization 0.7 \
--cpu-offload-gb 10 # RAMìŒë¡ 10GB ì€íë¡ëë ìŽìŽ ë¶í : ë©í° GPUì ë¶ì°
íë ì¶ë¡ ìì§(vLLM, llama.cpp)ì 몚ëžì ì¬ë¬ GPUì ìëìŒë¡ ë¶í í ì ììµëë€. ê³ êž ì€ì ì ëíŽìë ë©í° GPU ë¡ì»¬ LLMì ì°žê³ íììì€.
ìì: 2à RTX 4090ìŒë¡ 70B ëªšëž ì€í:
- ë¶í ììŽ: ë¶ê°ë¥ (ëšìŒ GPUì 40+ GB VRAM íì).
- ë¶í ì: ê° GPUì ì ë°ì ëªšëž ê°ì€ì¹ í ë¹. ì¶ë¡ ìë: ìœ 100 í í°/ìŽ (íµì ì€ë²í€ë ìµì).
ë ìŽìŽ ë¶í ì íë¡ëì ë°°í¬ì ì€ì©ì ìŽë©° ì¬ì©ììê² í¬ëª íê² ìëí©ëë€.
# vLLM: ìë í
ì ë³ë ¬ ì²ëЬ
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 2 # 2ê°ì GPUì ë¶ì°
# llama.cpp: ë©í° GPU ì§ì
ollama run llama3.3:70b # GPU륌 ìë ê°ì§íì¬ ë¶í KV ìºì ììí: 컚í ì€íž ë©ëªšëЬ ì€ë²í€ë ì ê°
KV ìºì ììíë ì¶ë¡ ì€ ìŽí ì í€-ê° ìì ì ì¥íë ë° íìí ë©ëªšëŠ¬ë¥Œ ì€ìŽë©°, í¹í ꞎ 컚í ì€íž(32K+ í í°) ì²ëЬ ì ì€ìí©ëë€. ëªšëž ê°ì€ì¹ ììí(Q4_K_M)ê° ê°ì¥ ìŒë°ì ìŽì§ë§, KV ìºì ììíë ë€ë¥ž ë©ëªšëЬ ë³ëª© ì§ì ì ì²ëЬí©ëë€.
ì¶ë¡ ì€ ëªšëžì 컚í ì€ížì ê° í í°ì ëí ì€í í€-ê°(KV) ìì ì ì§í©ëë€. 32K í í° ì»ší ì€ížë¥Œ ì²ëЬíë 7B 몚ëžì 겜ì°, KV ìºìë§ìŒë¡ ì ë°ëì ë°ëŒ 8â16 GBì VRAMì ìë¹í ì ììµëë€. íì€ KV ìºìë FP16(ê°ë¹ 2ë°ìŽíž)륌 ì¬ì©íë©°, KV ìºì륌 FP8 ëë Q8ë¡ ììíí멎 50% ì ìœë©ëë€.
KV ìºì ììí íì±í ë°©ë²:
- Ollama: íží 몚ëžìì ìë ì ì©ëë©° ë³ë ì€ì ìŽ íìíì§ ììµëë€.
- LM Studio: ì€ì ìì "KV cache quantization" í êžì íìžíììì€(ë²ì ì ë°ëŒ ì ê³µ ì¬ë¶ ë€ëŠ).
- llama.cpp: ìë² ìì ì `--cache-type-q8_0` ëë `--cache-type-f8` íë귞륌 ì¬ì©íììì€.
ížë ìŽëì€í: KV ìºì ììíë íì§ì 믞ì¹ë ìí¥ìŽ ìµìíë©ëë€(공격ì ìž ììíììë 1% ë¯žë§ ì í). ìŽí ì íšíŽì ëªšëž ê°ì€ì¹ë³Žë€ ë®ì ì ë°ëì ë ê°ê±Žíêž° ë묞ì ëë€. ì íë íëìšìŽìì 16K+ 컚í ì€ížë¥Œ ì²ëЬíë 몚ëžì ê¶ì¥ë©ëë€.
íìŽëžëЬë ë°©ì: êž°ë² ê²°í©
ìž ê°ì§ êž°ë²ì 몚ë ê²°í©í멎 ìµìì 결곌륌 ì»ì ì ììµëë€. 구첎ì ìž íëìšìŽ ê³íì ìíŽìë VRAM ì구 ì¬í ê°ìŽë륌 ì°žê³ íììì€.
ìëëŠ¬ì€ 1: ëšìŒ RTX 4090 (24 GB)ìì 70B ì€í
- Q4ë¡ ììí (35 GB â 18 GB)
- ëëšžì§ 6 GB ì€íë¡ë© (ìì€í RAMìŒë¡)
- 결곌: ìœ 8â10 í í°/ìŽ (ë늬ì§ë§ ìëíš)
ìëëŠ¬ì€ 2: 2à RTX 4090ìì 70B ì€í
- Q5ë¡ ììí (43.75 GB)
- 2ê°ì GPUì ë ìŽìŽ ë¶í (ê° 22 GB)
- 결곌: ìœ 100 í í°/ìŽ (ì€ì©ì )
ì±ë¥ ížë ìŽëì€íë 묎ìì ëê¹?
ê° êž°ë²ì VRAM ì ê°ì ìë íëí°ì êµíí©ëë€. ììíë ìí¥ìŽ ìµìì ìŽë©°, ì€íë¡ë©ì 5â10ë°° ìë ì í륌 ìŽëíê³ , ë ìŽìŽ ë¶í ì ìœ 5% ì€ë²í€ë륌 ì¶ê°í©ëë€.
| Technique | VRAM Saved | Speed Impact | Quality Impact |
|---|---|---|---|
| ììí (Q4) | 50% | ìì (±5%) | 믞믞 |
| ì€íë¡ë© (CPU RAM) | 60â80% | 5â10ë°° ë늌 | ìì |
| ë ìŽìŽ ë¶í (GPU 2ê°) | íŽë¹ ìì (ë í° ëªšëž ê°ë¥) | 5â10% ë늌 | ìì |
| ììí + ì€íë¡ë© | 75â90% | 3â5ë°° ë늌 | 믞믞 |
Mac Studio M2 Ultra: ì€íë¡ë© ììŽ 70B ë€ìŽí°ëž ì€í
192 GB íµí© ë©ëªšëŠ¬ë¥Œ ê°ì¶ Mac Studio M2 Ultraë Llama 3.3 70B륌 Q4ë¡ ë€ìŽí°ëž ì€íí ì ììµëë€ â ì€íë¡ë©ë ë ìŽìŽ ë¶í ë íìíì§ ììµëë€.
íµí© ë©ëªšëЬ ëìí: Mac Studio M2 Ultraë ìœ 800 GB/së¡ CPUì GPU ë©ëªšëЬì 몚ë ì ê·Œí©ëë€. DDR5 ìì€í RAM ì€íë¡ë©ì ìœ 90 GB/së¡ ì íë©ëë€. ìŽ 9ë°° ì°ìë ì€íë¡ë©ì ì€ì©ì ìŽì§ ìê² ë§ëë ìë íšëí°ë¥Œ ìì ì€ëë€.
| Setup | Model | Speed | Complexity |
|---|---|---|---|
| 1à RTX 4090 + ì€íë¡ë© | Llama 3.3 70B Q4 | 5â10 í í°/ìŽ | ë³Žíµ |
| 2à RTX 4090 ë ìŽìŽ ë¶í | Llama 3.3 70B Q5 | ~100 í í°/ìŽ | ëì |
| 1à RTX 5090 (32 GB) | Llama 3.3 70B Q4 | 10â12 í í°/ìŽ | ë®ì |
| Mac Studio M2 Ultra | Llama 3.3 70B Q4 | 35 í í°/ìŽ | ë®ì (íë¬ê·ž ì€ íë ìŽ) |
LLM ììí: ì§ìë³ ë§¥ëœ
- EU (GDPR, ì 44ì¡°) â êµê²œ ê° AI ë°ìŽí° ì ì¡ìë ì ì ì± ê²°ì ëë íì€ ê³ìœ ì¡°íìŽ íìí©ëë€. Q4_K_M ììí륌 íµíŽ 7B 몚ëžì 8 GB ì£ì§ ëë°ìŽì€ìì ì€íí멎 ì 3ì íŽëŒì°ë API ížì¶ì ìì í ììš ì ììµëë€. ë ìŒ BfDIì íëì€ CNIL 몚ë GDPR ì 22ì¡°ì ê³ ìí AI ì²ëЬì ë¡ì»¬ ì¶ë¡ ì ê¶ì¥í©ëë€. ìŽë¬í ìŽì ë¡ ììíë Mistral ë° Llama 몚ëžì EU êž°ì ë°°í¬ìì ì§ë°°ì ìž ì íì ëë€.
- ìŒë³ž (METI AI ê±°ë²ëì€ ê°ìŽëëŒìž 2024) â ìŒë³ž 겜ì ì°ì ì±ì êž°ì ë°°í¬ì AI ê±°ë²ëì€ ë¬žì륌 ì구í©ëë€. êµëŽ ìžíëŒì ììíë 몚ëžì METIì "ì ìŽ ê°ë¥ì±" ì걎ì 충족í©ëë€ â ëªšëž ê°ì€ì¹ê° ìšíë 믞ì€ì ì ì§ë©ëë€. Q4_K_M ììí륌 íµíŽ GPU íŽë¬ì€í° ììŽ 16â32 GB êž°ì ìë²ìì 13Bâ32B 몚ëžìŽ ì€ì©ì ìŒë¡ ìëí©ëë€. Qwen3ì Llama 3ë ìŒë³ž êž°ì í겜ìì ê°ì¥ ë§ìŽ ë°°í¬ëë ëªšëž ê³ìŽì ëë€.
- ì€êµ (CAC ìì±í AI ê·ì 2023) â ì€êµ ì¬ìŽë²ê³µê° êŽëЬêµì ê³µê° ë°°í¬ AIì ëí 볎ì íê°ì ì¬ì©ì ë°ìŽí° íì§í륌 ì구í©ëë€. ììíë ì€êµìŽ ë€ìŽí°ëž 몚ëž(Qwen3, Baichuan2, Yi)ì êµëŽ íëìšìŽìì ìì í ì€íëìŽ CAC íì§í ì걎ì 충족í©ëë€. Q4_K_M ë° Q5_K_M ììíë FP16 ëë¹ íëìšìŽ ë¹ì©ì 60â70% ì ê°íì¬ ì€ê²¬ êž°ì ì ìšíë ë¯žì€ CAC ì€ì륌 겜ì ì ìŒë¡ ì€í ê°ë¥íê² í©ëë€.
LLM ììíìì íí ë°ìíë ì€ìë 묎ìì ëê¹?
- Q4_K_M ëì Q4_0 ë€ìŽë¡ë â Q4_0ì K-ííž ê°ì ìŽ ìë 구í ììí ë°©ë²ì ëë€. Q4_K_Mì ëìŒí RAM ì¬ì©ëìì 5â8% ë ëì íì§ì ì ê³µí©ëë€. ë ê°ì§ê° 몚ë ì ê³µë ëë íì Q4_K_Mì ì ííììì€.
- ììí ë²ížê° ëììë¡ íì íì§ìŽ ë®ë€ë ì€íŽ â Q ë²ížê° ëììë¡ ë¹ížê° ë§ê³ íì§ìŽ ë ì¢ìµëë€. Q8_0ìŽ Q4_K_Më³Žë€ ì¢ìµëë€. Q5_K_MìŽ Q4_K_Më³Žë€ ì¢ìµëë€. Q4_K_MìŒë¡ ììíë 70B 몚ëžì ëë¶ë¶ì ìì ìì Q8_0 7B 몚ëžì ë¥ê°í©ëë€.
- ëªšëž ë¡ë ì RAM ì¬ì ê³µê° ë¯žíìž â ëªšëž í¬êž°ê° ì ìŒí RAM ìë¹ììŽ ìëëë€. OS, ëžëŒì°ì ë° êž°í ì í늬ìŒìŽì ë RAMì ì¬ì©í©ëë€. 8 GB ëšžì ìì 4.5 GB Q4_K_M 7B 몚ëžì ëëšžì§ ëªšë ìì ì 3.5 GBë§ ëšê¹ëë€. ìì¹: ëªšëž íìŒ í¬êž° + 2 GB OS ì€ë²í€ë + 1 GB ì¬ì ê³µê° = ìµì íì RAM.
LLM ììíì êŽí ì죌 묻ë ì§ë¬ž
Ollamaë ìëìŒë¡ ìµì ì ììí륌 ì¬ì©í©ëê¹?
ê·žë ìµëë€ â `ollama pull llama3.1:8b`륌 ì€íí멎 Ollamaë Ʞ볞ì ìŒë¡ Q4_K_M ë³íì ë€ìŽë¡ëí©ëë€. í¹ì ììí륌 ê°ì žì€ë €ë©Ž í귞륌 ì¶ê°íììì€: `ollama pull llama3.1:8b-instruct-q5_K_M`. ê° ëªšëžì ì¬ì© ê°ë¥í ììí íê·žë ollama.com/libraryì ëªšëž íìŽì§ì ëìŽëìŽ ììµëë€.
믞늬 ììíë ë²ì ì ë€ìŽë¡ëíë ëì ì§ì 몚ëžì ììíí ì ììµëê¹?
ê·žë ìµëë€ â llama.cppìë GGUF íìŒì ì§ìíë 몚ë ììí ìì€ìŒë¡ ë³ííë `quantize` ë°ìŽëëŠ¬ê° í¬íšëìŽ ììµëë€. íë¡ìžì€ë ëªšëž í¬êž°ì ë°ëŒ 5â30ë¶ìŽ ììë©ëë€. 결곌ë ëë±íë¯ë¡ ëë¶ë¶ì ì¬ì©ìë ì§ì ììííë ê²ë³Žë€ Hugging Faceìì 믞늬 ììíë GGUF íìŒì ë€ìŽë¡ëíë ê²ì ê¶ì¥í©ëë€.
ììíê° ëªšëžì 컚í ì€íž ì°œì ìí¥ì ì€ëê¹?
ìëëë€ â ììíë ëªšëž ê°ì€ì¹ ì ë°ëìë§ ìí¥ì 믞ì¹ë©° 컚í ì€íž êžžìŽìë ìí¥ì ì£Œì§ ììµëë€. Llama 3.3 8B 몚ëžì Q4_K_MìŒë¡ ììíëë FP16ìŒë¡ ì€íëë 128K í í°ì ì§ìí©ëë€. ê·žë¬ë ììíì êŽê³ììŽ êžŽ 컚í ì€ížë¥Œ ì²ëЬíë €ë©Ž ë ë§ì RAMìŽ íìí©ëë€ â Q4_K_M 7B 몚ëžë¡ 64K í í° ì»ší ì€ížë¥Œ ì²ëЬí멎 10+ GB RAMìŽ íìí ì ììµëë€.
GGUFì GPTQ ììíì ì°šìŽì ì 묎ìì ëê¹?
GGUF(llama.cpp íì)ì GPTQë ë ê°ì§ ë€ë¥ž ììí ë°©ìì ëë€. GGUFë K-íížë¥Œ ì¬ì©íë©° CPUì GPUìì 몚ë ì€íë©ëë€. GPTQë GPU ì ì©ìŽë©° PyTorchê° íìí©ëë€. Ollama, LM Studio, Jan AI륌 ìŽì©í ë¡ì»¬ ì¶ë¡ ìë GGUFê° ì¬ë°ë¥ž íìì ëë€. GPTQë AutoGPTQ ë° vLLM ê°ì GPU ì€ì¬ ì¶ë¡ íë ììí¬ìì ì¬ì©ë©ëë€.
Hugging Faceì ë€ë¥ž ì ê³µìê° ë§ë Q4_K_M ëªšëž ê°ì íì§ ì°šìŽê° ììµëê¹?
ììí ìê³ ëŠ¬ìŠì llama.cppìì íì€íëìŽ ììŒë¯ë¡, ëìŒí Ʞ볞 몚ëžì Q4_K_M ììíë GGUF íìŒì ëê° ë§ë€ìëì§ì êŽê³ììŽ ê±°ì ëìŒí©ëë€. ê·žë¬ë ìŒë¶ ì ê³µìë imatrix ììí륌 ì ì©íì¬ ëìŒí ë¹íž ììì íì§ì í¥ììíµëë€. "imat" ëë "importance matrix"ë¡ ì€ëª ë íìŒì ìŒë°ì ìŒë¡ ëìŒí ë¹íž ììì ë ëì íì§ì ì ê³µí©ëë€.
ìŽë§€ížëŠì€(imatrix) ììíë 묎ìì ëê¹?
imatrix(ì€ìë íë ¬) ììíë êµì ë°ìŽí°ë¥Œ ì¬ì©íì¬ ëªšëž ì¶ë ¥ì 믞ì¹ë ì€ìëì ë°ëŒ ê°ì€ì¹ì ìë¡ ë€ë¥ž ì ë°ë ìì€ì í ë¹í©ëë€. ììž¡ì ê°ì¥ í° ìí¥ì 믞ì¹ë ê°ì€ì¹ë ë ë§ì ë¹ížë¡ ììíëê³ , ë ì€ìí ê°ì€ì¹ë ë ì ì ë¹ížë¥Œ ì¬ì©í©ëë€. 결곌: ê· ìŒ ììí ëë¹ ëìŒí ë¹íž ììì ë ëì íì§. Qwen3 imatrix ììíë íì€ Q4_K_M ëë¹ 2â4% ë ì¢ìµëë€.
Q4_K_M곌 Q4_K_Sì ì°šìŽì ì 묎ìì ëê¹?
ë ê°ì§ 몚ë 4ë¹íž ììíìŽì§ë§, K_M(믞ëì)곌 K_S(ì€ëª°)ë ììí ëžë¡ë¹ ë©ëªšëЬ í ë¹ìŽ ë€ëŠ ëë€. Q4_K_Mì ë ëì íì§ ë³µìì ìíŽ ë ë§ì ë©íë°ìŽí°ë¥Œ ì¬ì©í©ëë€ â 7B ëªšëž êž°ì€ ìŒë°ì ìŒë¡ 4.5â5 GB. Q4_K_Së K_M ëë¹ 300â400 MB륌 ì ìœíì§ë§ 3â5% íì§ ìì€ìŽ ììµëë€. RAMìŽ 4 GB 믞ë§ìŒë¡ ê·¹ëë¡ ì íë 겜ì°ë¥Œ ì ìžíê³ ë Q4_K_Mì ì¬ì©íììì€.
ììí ìì€ ê° ì í ì 몚ëžì ë€ì ë€ìŽë¡ëíŽìŒ í©ëê¹?
ê·žë ìµëë€ â ììí ìì€ ì íìë ë€ë¥ž GGUF íìŒì ë€ìŽë¡ëíê±°ë ì§ì Ʞ볞 몚ëžì ì¬ììííŽìŒ í©ëë€. Q4_K_MìŒë¡ ììíë 몚ëžì ì볞 FP16 ëªšëž ììŽë Q5_K_MìŒë¡ ë€ì ë³íí ì ììµëë€. ëë¶ë¶ì ì¬ì©ìë ìíë ììí ìì€ì 믞늬 ììíë GGUF íìŒì Hugging Faceìì ë€ìŽë¡ëí©ëë€.
ììíë ì¶ë¡ ìëì ìŽë€ ìí¥ì ì€ëê¹?
ììíë ìŒë°ì ìŒë¡ ì¶ë¡ ìë륌 10â40% í¥ììíµëë€. 4ë¹íž ê°ì€ì¹ë¥Œ ë¡ëíê³ ì²ëЬíë ê²ìŽ 16ë¹íž ë¶ëììì ë³Žë€ ë¹ ë¥Žêž° ë묞ì ëë€. Q4_K_M 7B 몚ëžì ìë¹ìì© CPUìì ìœ 8â12 í í°/ìŽë¡ ì€íëë©°, ëìŒí 몚ëžìŽ FP16ììë ìœ 1â2 í í°/ìŽë¡ ì€íë©ëë€. GPUë ìŽë¯ž ë¶ëììì ì°ì°ì ìµì íëìŽ ìêž° ë묞ì GPUììì ììí ì±ë¥ í¥ìì ììµëë€(5â15% ë¹ ëŠ).
Ollamaë Ʞ볞ì ìŒë¡ ìŽë€ ììí ìì€ì ì¬ì©í©ëê¹?
Ollamaë ëŒìŽëžë¬ëЬì 몚ë 몚ëžì ëíŽ Q4_K_Mì Ʞ볞ê°ìŒë¡ ì¬ì©í©ëë€. `ollama pull llama3.1:8b`륌 ì€íí멎 Q4_K_M ë³íì ë€ìŽë¡ëí©ëë€. ìŽ êž°ë³žê°ì ëë¶ë¶ì ì¬ì©ììê² íì§ê³Œ RAM ì구 ì¬íì ê· íì ì ë§ì¶¥ëë€. ë€ë¥ž ììí륌 ê°ì žì€ë €ë©Ž í귞륌 ì¶ê°íììì€: `ollama pull llama3.1:8b:q5_k_m` ëë `ollama pull llama3.1:8b:q8_0`.
ëšìŒ RTX 4090ìì Llama 3.3 70B륌 ì€íí ì ììµëê¹?
ê·žë ìµëë€, íì§ë§ ë늜ëë€. Q4ë¡ ììí(35 GB)íê³ 11 GB륌 ìì€í RAMìŒë¡ ì€íë¡ëí©ëë€. 5â10 í í°/ìŽë¥Œ ììíììì€ â ì€ìê° ì±í ìë ë묎 ë늬ì§ë§ ë°°ì¹ ì²ëЬìë ì í©í©ëë€. ì€ì©ì ìž 70B ì¶ë¡ ì ìíŽìë: ë ìŽìŽ ë¶í ë¡ 2à RTX 4090(~100 í í°/ìŽ) ëë Mac Studio M2 Ultra(35 í í°/ìŽ ë€ìŽí°ëž)륌 ì¬ì©íììì€.
ììíì ì€íë¡ë©ì ì°šìŽì ì 묎ìì ëê¹?
ììíë ëªšëž ê°ì€ì¹ ì ë°ë륌 ì구ì ìŒë¡ ì€ì ëë€(FP16 â Q4). ëªšëž íìŒìŽ ììì§ëë€. ì€íë¡ë©ì ë°íìì ëªšëž ë ìŽìŽë¥Œ VRAMìì ìì€í RAMìŒë¡ ìŽëí©ëë€. ììíë íì§ì 믞ì¹ë ìí¥ìŽ ìµìíëê³ (±5%), ì€íë¡ë©ì 5â10ë°° ìë ì í륌 ìŽëí©ëë€. ììí륌 뚌ì ì¬ì©íê³ , ì€íë¡ë©ì ìµíì ìëšìŒë¡ ì¬ì©íììì€.
Mac Studio M2 Ultraë 70B 몚ëžì ììíê° íìí©ëê¹?
겜믞í ììíë§ íìí©ëë€. 192 GB íµí© ë©ëªšëЬë Llama 3.3 70B륌 Q4(35 GB)ë¡ ë€ìŽí°ëž ì€íí ì ììµëë€ â ì€íë¡ë©ìŽë ë ìŽìŽ ë¶í ììŽë ê°ë¥í©ëë€. Q5ììë 70Bê° ë§ìµëë€(44 GB). FP16 70B(140 GB)ë ë§ì§ë§ ë ëëŠ¬ê² ì€íë©ëë€. Q4ë Mac Studio 70B ìí¬íë¡ì ìµì ì íì ëë€.
ëŽ íëìšìŽì ê°ì¥ ì í©í êž°ë² ì¡°í©ì 묎ìì ëê¹?
ëšìŒ RTX 4090 (24 GB): Q4 + ì€íë¡ë©ìŒë¡ 70B (ë늌). Q5 ë€ìŽí°ëžë¡ 32B (ë¹ ëŠ). 2à RTX 4090 (48 GB): Q5 + ë ìŽìŽ ë¶í ë¡ 70B (100 í í°/ìŽ). RTX 5090 (32 GB): Q4 ë€ìŽí°ëžë¡ 70B (10â12 í í°/ìŽ). Mac Studio M2 Ultra (192 GB): Q4 ë€ìŽí°ëžë¡ 70B (35 í í°/ìŽ).
ì¶ì²
- llama.cpp ììí 묞ì
- K-ííž êž°ì ë Œì â ìµìŽ K-ííž PR
- GGUF íì ëª ìž
- Open LLM 늬ë볎ë â ììí ë²€ì¹ë§í¬
ì ë°ìŽíž ë¡ê·ž
- 2026-05-17: ê²°ì ì€ì¬ ìë륌 ë°ìíëë¡ ì 목 ì ë°ìŽíž; ëŽì© ë³ê²œ ìì.