Skip to main content
PromptQuorumPromptQuorum
ํ™ˆ/๊ณ ๊ธ‰ ๋กœ์ปฌ LLM/๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ 2026: LLaVA, Llama 3.2 Vision, Qwen2-VL ๋ฐ Ollama ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ค์ • ๊ฐ€์ด๋“œ
Voice, Speech & Multimodal

๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ 2026: LLaVA, Llama 3.2 Vision, Qwen2-VL ๋ฐ Ollama ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ค์ • ๊ฐ€์ด๋“œ

ยท11๋ถ„ ๋ถ„๋Ÿ‰ยทHans Kuepper ์ € ยท PromptQuorum ์ฐฝ๋ฆฝ์ž, ๋ฉ€ํ‹ฐ ๋ชจ๋ธ AI ๋””์ŠคํŒจ์น˜ ๋„๊ตฌ ยท PromptQuorum

VRAM 6~8 GB๋ฅผ ๋ณด์œ ํ•œ ๋Œ€๋ถ€๋ถ„์˜ ๊ฐœ๋ฐœ์ž์—๊ฒŒ๋Š” MiniCPM-V 2.6 (8B) ๋˜๋Š” LLaVA 1.6 7B via Ollama๊ฐ€ 2026๋…„ ์ถ”์ฒœ ์‹œ์ž‘์ ์ž…๋‹ˆ๋‹ค. ๋‘ ๋ชจ๋ธ ๋ชจ๋‘ ์•ฝ 6 GB VRAM์—์„œ ๋™์ž‘ํ•˜๋ฉฐ, ๋ฌธ์„œ OCR, ์ด๋ฏธ์ง€ ์งˆ์˜์‘๋‹ต, ์Šคํฌ๋ฆฐ์ƒท ๋ถ„์„์„ ์ง€์›ํ•˜๊ณ  ๋‹จ์ผ Ollama ๋ช…๋ น์–ด๋กœ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 8~16 GB VRAM์—์„œ ์ „๋ฐ˜์ ์ธ ์ตœ๊ณ  ํ’ˆ์งˆ์„ ์›ํ•œ๋‹ค๋ฉด Llama 3.2 Vision 11B๊ฐ€ ์ตœ์„ ์˜ ์„ ํƒ์ด๋ฉฐ, ํŠนํžˆ ๋ฌธ์„œ์™€ ์‚ฌ์ง„ ์ฒ˜๋ฆฌ์— ๊ฐ•ํ•ฉ๋‹ˆ๋‹ค. VRAM์ด 2 GB๋ฐ–์— ์—†๋‹ค๋ฉด Moondream 2 (1.9B)๊ฐ€ ์œ ์ผํ•œ ์‹ค์šฉ์  ์˜ต์…˜์ด์ง€๋งŒ, ๋ณต์žกํ•œ ์žฅ๋ฉด ์ฒ˜๋ฆฌ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ชจ๋ธ์€ ๋‹ค์šด๋กœ๋“œ ํ›„ 100% ์˜คํ”„๋ผ์ธ์œผ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, API ํ‚ค๋‚˜ ํด๋ผ์šฐ๋“œ ๊ณ„์ •์ด ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์€ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์„œ OCR, ์ด๋ฏธ์ง€ ์งˆ์˜์‘๋‹ต, ์Šคํฌ๋ฆฐ์ƒท ๋ถ„์„, ์ฐจํŠธ ์ฝ๊ธฐ ๋“ฑ ๋ชจ๋“  ์ž‘์—…์„ ๋กœ์ปฌ์—์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 2026๋…„ ํ˜„์žฌ VLM์„ ์‹คํ–‰ํ•˜๋Š” ๊ฐ€์žฅ ๊ฐ„ํŽธํ•œ ๋ฐฉ๋ฒ•์€ Ollama๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•˜๊ณ  ์ด๋ฏธ์ง€๋ฅผ ์ „์†กํ•˜๋ฉด ์„ค๋ช…์ด๋‚˜ ๋‹ต๋ณ€์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฐ€์ด๋“œ๋Š” ์ฃผ์š” ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ(LLaVA 1.6, Llama 3.2 Vision, MiniCPM-V 2.6, Moondream 2, Qwen2-VL, InternVL 2.5)์„ ๋น„๊ตํ•˜๊ณ , Ollama ์„ค์ • ๋‹จ๊ณ„๋ฅผ ์„ค๋ช…ํ•˜๋ฉฐ, VRAM ์š”๊ตฌ ์‚ฌํ•ญ๊ณผ ํ’ˆ์งˆ ๋ฒค์น˜๋งˆํฌ์— ๋”ฐ๋ผ ๊ฐ ๋ชจ๋ธ์˜ ์ตœ์  ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ์•ˆ๋‚ดํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์š”์ 

  • Llama 3.2 Vision 11B๋Š” VRAM 8~16 GB๋ฅผ ๋ณด์œ ํ•œ ๋Œ€๋ถ€๋ถ„์˜ ๊ฐœ๋ฐœ์ž์—๊ฒŒ ์ตœ๊ณ ์˜ ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์‚ฌ์ง„, ๋ฌธ์„œ, ํ˜ผํ•ฉ ์ฝ˜ํ…์ธ ๋ฅผ ๋™๊ธ‰ ์ตœ๊ณ ์˜ ์ •ํ™•๋„๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉฐ Ollama์—์„œ ์ง์ ‘ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • MiniCPM-V 2.6 (8B)๋Š” VRAM 6 GB์—์„œ ๋ฌธ์„œ OCR์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๊ณ ํ•ด์ƒ๋„ ๋ฌธ์„œ ์Šค์บ”์ด ํฌํ•จ๋˜์–ด ์žˆ์–ด ํ‘œ, ์ฒญ๊ตฌ์„œ, ๋นฝ๋นฝํ•œ ํ…์ŠคํŠธ์—์„œ LLaVA๋ณด๋‹ค ๋” ์ •ํ™•ํ•ฉ๋‹ˆ๋‹ค.
  • LLaVA 1.6 7B๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ๋ฌธ์„œํ™”๋˜๊ณ  ๊ฒ€์ฆ๋œ ๋กœ์ปฌ VLM์ž…๋‹ˆ๋‹ค. ํ’๋ถ€ํ•œ ์˜ˆ์ œ, ํŠœํ† ๋ฆฌ์–ผ, ๋ฌธ์ œ ํ•ด๊ฒฐ ์ž๋ฃŒ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋ฉด ๊ฐ€์žฅ ์•ˆ์ „ํ•œ ๋ฒ”์šฉ ์„ ํƒ์ž…๋‹ˆ๋‹ค.
  • Moondream 2 (1.9B)๋Š” VRAM 4 GB ๋ฏธ๋งŒ์—์„œ ์œ ์ผํ•œ ์‹ค์šฉ์  ์„ ํƒ์ž…๋‹ˆ๋‹ค. ๋น ๋ฅด๊ณ  ๊ฐ€๋ณ์ง€๋งŒ ๋ณต์žกํ•œ ์žฅ๋ฉด, ๋นฝ๋นฝํ•œ ํ…์ŠคํŠธ, ์ •ํ™•ํ•œ ์ฐจํŠธ ์ฝ๊ธฐ์—๋Š” ์–ด๋ ค์›€์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • InternVL 2.5 (8B)๋Š” ์ฝ”๋“œ ์Šคํฌ๋ฆฐ์ƒท ๋ฐ UI ๋ถ„์„์—์„œ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•ฉ๋‹ˆ๋‹ค. GitHub ์Šคํฌ๋ฆฐ์ƒท, UI ๋ชฉ์—…, ์ฝ”๋“œ ์‹คํ–‰ ๊ฒฐ๊ณผ๋กœ ํ›ˆ๋ จ๋˜์–ด ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์ด ๋ถ„์•ผ์—์„œ ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค.
  • **๋ชจ๋“  ๋ชจ๋ธ์€ ๋‹จ์ผ pull ๋ช…๋ น์–ด๋กœ Ollama์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.** ๋ชจ๋ธ ๋ณ€ํ™˜, ์–‘์žํ™”, Python ์„ค์ •์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค. CLI์™€ HTTP API๊ฐ€ ์ฆ‰์‹œ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๋ชจ๋ธ๋“ค ์ค‘ GPT-5.5 Vision์˜ ํ’ˆ์งˆ์— ๊ทผ์ ‘ํ•˜๋Š” ๊ฒƒ์€ ์—†์Šต๋‹ˆ๋‹ค. 2026๋…„์˜ ๋กœ์ปฌ VLM์€ ๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ์™€ ์„ ๋ช…ํ•œ ์‚ฌ์ง„์—๋Š” ์šฐ์ˆ˜ํ•˜์ง€๋งŒ, ์†๊ธ€์”จ์™€ ๋ณต์žกํ•œ ์ฐจํŠธ์—๋Š” ์—ฌ์ „ํžˆ ์•ฝํ•ฉ๋‹ˆ๋‹ค.

๋น ๋ฅธ ์‚ฌ์‹ค

  • VLM์˜ ์—ญํ• : ์ด๋ฏธ์ง€ + ํ…์ŠคํŠธ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ, ์ด๋ฏธ์ง€๋ฅผ *์ดํ•ด*ํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • Ollama ์ง€์›: ์ด ๋น„๊ต์˜ ๋ชจ๋“  ๋ชจ๋ธ์€ 2026๋…„ 5์›” ๊ธฐ์ค€์œผ๋กœ Ollama ๊ณต์‹ ๋˜๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ ํ†ตํ•ฉ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ€์žฅ ์ž‘์€ ์‚ฌ์šฉ ๊ฐ€๋Šฅ ๋ชจ๋ธ: Moondream 2, 1.9B ํŒŒ๋ผ๋ฏธํ„ฐ, ~2 GB VRAM.
  • ๊ฐ€์žฅ ํฐ ์‹ค์šฉ์  ๋กœ์ปฌ ๋ชจ๋ธ: Llama 3.2 Vision 90B, ~64 GB ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ ํ•„์š” (Apple M-series ๋˜๋Š” ๋ฉ€ํ‹ฐ GPU).
  • ์ด๋ฏธ์ง€ ์ž…๋ ฅ ํ˜•์‹: JPEG, PNG, WebP ์ง€์›. ์ตœ๋Œ€ ํ•ด์ƒ๋„๋Š” ๋ชจ๋ธ๋ณ„๋กœ ๋‹ค๋ฆ„ (์ผ๋ฐ˜์ ์œผ๋กœ 1024ร—1024~4096ร—4096).
  • OCR ์ •ํ™•๋„: Qwen2-VL 7B โ‰ˆ MiniCPM-V 2.6 > Llama 3.2 Vision 11B > LLaVA 1.6 13B > LLaVA 1.6 7B > Moondream 2.
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ โ‰  ๋น ๋ฆ„: ๋น„์ „ ๋ชจ๋ธ์€ LLM์— ์‹œ๊ฐ ์ธ์ฝ”๋”๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฏ€๋กœ, ๊ฐ™์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์˜ ํ…์ŠคํŠธ ์ „์šฉ ๋ชจ๋ธ๋ณด๋‹ค ํ† ํฐ ์ƒ์„ฑ์ด ์•ฝ 30~60% ๋А๋ฆฝ๋‹ˆ๋‹ค.

๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์ด๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์€ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ์ž…๋ ฅ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๊ณ  ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค. ํ‘œ์ค€ ์•„ํ‚คํ…์ฒ˜๋Š” ์‹œ๊ฐ ์ธ์ฝ”๋”(์ฃผ๋กœ CLIP ๋˜๋Š” SigLIP)์™€ ์–ธ์–ด ๋””์ฝ”๋”(LLM)๋ฅผ ๊ฒฐํ•ฉํ•˜๋ฉฐ, ์ด๋ฏธ์ง€ ํŠน์ง•์„ LLM์ด ์ดํ•ดํ•˜๋Š” ํ† ํฐ ๊ณต๊ฐ„์— ๋งคํ•‘ํ•˜๋Š” ํ”„๋กœ์ ์…˜ ๋ ˆ์ด์–ด๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.

  • ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ์˜ ์ฐจ์ด: Stable Diffusion, FLUX, DALL-E 3๋Š” ํ…์ŠคํŠธ์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. VLM์€ ์ด๋ฏธ์ง€์—์„œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ๋กœ, ์ด๋ฏธ์ง€๋ฅผ ๋ฌ˜์‚ฌํ•˜๊ณ  ๋ถ„์„ํ•˜๋ฉฐ ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์ „ํ†ต์ ์ธ OCR ๋„๊ตฌ์™€์˜ ์ฐจ์ด: ์ „ํ†ต์ ์ธ OCR(Tesseract, PaddleOCR)์€ ํŒจํ„ด ์ธ์‹์œผ๋กœ ๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ์—์„œ ํ…์ŠคํŠธ๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. VLM์€ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค โ€” ํ‘œ์˜ ์˜๋ฏธ๋ฅผ ์„ค๋ช…ํ•˜๊ณ , ์ฐจํŠธ์— ๋Œ€ํ•œ ์งˆ๋ฌธ์— ๋‹ตํ•˜๋ฉฐ, ์‚ฌ์ง„์˜ ๊ฐ์ฒด๋ฅผ ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋กœ์ปฌ ์‹คํ–‰์˜ ์ด์œ : ๊ฐœ์ธ ๋ฌธ์„œ(์˜๋ฃŒ ๊ธฐ๋ก, ๋ฒ•์  ๋ฌธ์„œ, ์žฌ๋ฌด์ œํ‘œ), ๋…์ ์  ์Šคํฌ๋ฆฐ์ƒท(๋‚ด๋ถ€ ๋Œ€์‹œ๋ณด๋“œ, ์†Œ์Šค ์ฝ”๋“œ), ๋˜๋Š” ํด๋ผ์šฐ๋“œ API์— ์ด๋ฏธ์ง€๋ฅผ ์ „์†กํ•˜๋Š” ๊ฒƒ์ด ์ปดํ”Œ๋ผ์ด์–ธ์Šค๋‚˜ ๊ธฐ๋ฐ€ ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•˜๋Š” ๋ชจ๋“  ์›Œํฌํ”Œ๋กœ์šฐ.
  • ํ•  ์ˆ˜ ์—†๋Š” ๊ฒƒ: ์ด๋ฏธ์ง€ ์ƒ์„ฑ, ์Šคํฌ๋ฆฐ์ƒท์— ํ‘œ์‹œ๋œ ์ฝ”๋“œ ์‹คํ–‰, ์ธํ„ฐ๋„ท ์ ‘์†. VLM์€ ์ด๋ฏธ์ง€์—์„œ ๋ณด์ด๋Š” ๊ฒƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ๋งŒ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ ๋น„๊ตํ‘œ

2026๋…„ 5์›” ๊ธฐ์ค€์œผ๋กœ Ollama ๋˜๋Š” ์ง์ ‘ ์ถ”๋ก ์„ ํ†ตํ•ด ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์ฃผ์š” ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ ๋น„๊ต. VRAM ์ˆ˜์น˜๋Š” ๋ณ„๋„ ํ‘œ์‹œ๊ฐ€ ์—†๋Š” ํ•œ 4๋น„ํŠธ ์–‘์žํ™”(Q4) ๋ณ€ํ˜• ๊ธฐ์ค€์ž…๋‹ˆ๋‹ค.

๐Ÿ“ ํ•œ ๋ฌธ์žฅ์œผ๋กœ

VRAM 6~8 GB์˜ ๊ฒฝ์šฐ: ๋ฌธ์„œ OCR์—๋Š” MiniCPM-V 2.6, ์ผ๋ฐ˜ ์ด๋ฏธ์ง€ ์งˆ์˜์‘๋‹ต์—๋Š” Llama 3.2 Vision 11B โ€” ๋‘ ๋ชจ๋ธ ๋ชจ๋‘ Ollama๋ฅผ ํ†ตํ•ด ๋กœ์ปฌ์—์„œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ฌ ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด

Moondream์€ ์–ด๋””์„œ๋“  ์‹คํ–‰๋˜์ง€๋งŒ ์ดํ•ด๋ ฅ์ด ๋‚ฎ์€ ๊ฒฝ๋Ÿ‰ ์˜ต์…˜, LLaVA๋Š” ์•ˆ์ „ํ•œ ๋ฒ”์šฉ ์„ ํƒ, MiniCPM-V๋Š” OCR ์ „๋ฌธ๊ฐ€, Llama 3.2 Vision์€ ์ „๋ฐ˜์  ์ตœ๊ณ  ์„ฑ๋Šฅ, InternVL์€ UI ์Šคํฌ๋ฆฐ์ƒท ๋ฐ ์ฝ”๋“œ ์ „๋ฌธ๊ฐ€๋กœ ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธํŒŒ๋ผ๋ฏธํ„ฐVRAM (Q4)์ด๋ฏธ์ง€ ์œ ํ˜•ํ’ˆ์งˆOllama ์ง€์›?
Moondream 21.9B~2 GB๋‹จ์ˆœ ์‚ฌ์ง„๊ธฐ๋ณธ์˜ˆ
LLaVA 1.6 7B7B~6 GB์‚ฌ์ง„, ๋ฌธ์„œ, ์ฐจํŠธ์ข‹์Œ์˜ˆ
LLaVA 1.6 13B13B~10 GB์‚ฌ์ง„, ๋ฌธ์„œ, ์ฐจํŠธ๋งค์šฐ ์ข‹์Œ์˜ˆ
MiniCPM-V 2.68B~6 GB์‚ฌ์ง„, ๋ฌธ์„œ, OCR๋งค์šฐ ์ข‹์Œ์˜ˆ
Llama 3.2 Vision 11B11B~8 GB์‚ฌ์ง„, ๋ฌธ์„œ์šฐ์ˆ˜์˜ˆ
Llama 3.2 Vision 90B90B~64 GB์‚ฌ์ง„, ๋ฌธ์„œ, ๋ณต์žกํ•œ ์ฝ˜ํ…์ธ ๋กœ์ปฌ ์ตœ๊ณ ์˜ˆ
InternVL 2.5 8B8B~8 GB๋ฌธ์„œ, ์ฐจํŠธ, UI, ์ฝ”๋“œ์šฐ์ˆ˜ (UI/์ฐจํŠธ)์ปค๋ฎค๋‹ˆํ‹ฐ
Qwen2-VL 7B7B~6 GB์‚ฌ์ง„, ๋ฌธ์„œ, OCR, ๋‹ค๊ตญ์–ด์šฐ์ˆ˜์˜ˆ
Qwen2-VL 72B72B~48 GB์‚ฌ์ง„, ๋ฌธ์„œ, ๋ณต์žกํ•œ ์ฝ˜ํ…์ธ ์ตœ๊ณ  (์˜คํ”ˆ์†Œ์Šค)์˜ˆ
PaliGemma 2 3B3B~3 GB์‚ฌ์ง„, ๋ฌธ์„œ์ข‹์Œ์ปค๋ฎค๋‹ˆํ‹ฐ
SmolVLM 2.2B2.2B~2 GB๋‹จ์ˆœ ์‚ฌ์ง„, ์„ค๋ช…๊ธฐ๋ณธ+์ปค๋ฎค๋‹ˆํ‹ฐ

์‹ค์ œ ์ •ํ™•๋„ ํ…Œ์ŠคํŠธ: ์ฒญ๊ตฌ์„œ ์ถ”์ถœ

๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ ์ถ”์ถœ ์ž‘์—…์—์„œ ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์˜ ์ •ํ™•๋„ ๋น„๊ต. ํ…Œ์ŠคํŠธ: ๋™์ผํ•œ ์ƒ˜ํ”Œ ์ฒญ๊ตฌ์„œ์—์„œ 5๊ฐœ ํ•„๋“œ(๊ณต๊ธ‰์—…์ฒด๋ช…, ๋‚ ์งœ, ํ•ฉ๊ณ„, ์„ธ๊ธˆ ๊ธˆ์•ก, ํ•ญ๋ชฉ ์ˆ˜) ์ถ”์ถœ.

๋ชจ๋ธ๊ณต๊ธ‰์—…์ฒด๋‚ ์งœํ•ฉ๊ณ„์„ธ๊ธˆํ•ญ๋ชฉ ์ˆ˜์ ์ˆ˜
Moondream 2โœ“โœ“โœ—โœ—โœ—2/5
LLaVA 1.6 7Bโœ“โœ“โœ“โœ—โœ“4/5
MiniCPM-V 2.6โœ“โœ“โœ“โœ“โœ“5/5
Qwen2-VL 7Bโœ“โœ“โœ“โœ“โœ“5/5
Llama 3.2 11Bโœ“โœ“โœ“โœ“โœ“5/5
GPT-5.5 Visionโœ“โœ“โœ“โœ“โœ“5/5

๐Ÿ“ŒNote: ๋‹จ์ผ ์ƒ˜ํ”Œ ์ฒญ๊ตฌ์„œ๋กœ ์–ป์€ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ์ •ํ™•๋„๋Š” ๋ฌธ์„œ ํ’ˆ์งˆ, ์„œ์ฒด, ๋””์ž์ธ ๋ณต์žก๋„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค. ์ถ”์ถœ๋œ ์ˆซ์ž๋Š” ํ•ญ์ƒ ์›๋ณธ ๋ฌธ์„œ์™€ ๋Œ€์กฐํ•˜์—ฌ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค.

๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ง€์›

๋ชจ๋“  ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์ด ๋‹จ์ผ ์š”์ฒญ์—์„œ ์—ฌ๋Ÿฌ ์ด๋ฏธ์ง€๋ฅผ ํ—ˆ์šฉํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ง€์›์€ ๋ฌธ์„œ ์ฒ˜๋ฆฌ(์—ฌ๋Ÿฌ ํŽ˜์ด์ง€ PDF์˜ ๋ชจ๋“  ํŽ˜์ด์ง€ ์ „์†ก)์™€ ์‹œ๊ฐ์  ๋น„๊ต ์ž‘์—…(๋‘ ์ œํ’ˆ ์‚ฌ์ง„ ๋น„๊ต)์— ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

  • MiniCPM-V 2.6์€ ํ”„๋กฌํ”„ํŠธ๋‹น ์ตœ๋Œ€ 4๊ฐœ ์ด๋ฏธ์ง€๋ฅผ, Qwen2-VL์€ ์ตœ๋Œ€ 8๊ฐœ ์ด๋ฏธ์ง€๋ฅผ ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค. LLaVA์™€ Moondream์€ ์š”์ฒญ๋‹น ์ด๋ฏธ์ง€ 1๊ฐœ๋งŒ ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹ค์ค‘ ์ด๋ฏธ์ง€๊ฐ€ ์ค‘์š”ํ•œ ๊ฒฝ์šฐ: ์™„์ „ํ•œ ๋ฌธ์„œ ์ถ”์ถœ์„ ์œ„ํ•ด ์—ฌ๋Ÿฌ ํŽ˜์ด์ง€ PDF์˜ ๋ชจ๋“  ํŽ˜์ด์ง€ ์ „์†ก. ๋‘ ์ œํ’ˆ ์‚ฌ์ง„์„ ๋‚˜๋ž€ํžˆ ๋น„๊ต. ๋‹จ์ผ ํ”„๋กฌํ”„ํŠธ์—์„œ ๋ณ€๊ฒฝ ์ „/ํ›„ ์Šคํฌ๋ฆฐ์ƒท ๋ถ„์„.
๊ธฐ๋ŠฅMoondreamLLaVA 7BMiniCPM-VQwen2-VLLLaVA 13BLlama 3.2 VisionInternVL
๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ž…๋ ฅ์•„๋‹ˆ์˜ค์•„๋‹ˆ์˜ค์˜ˆ (์ตœ๋Œ€ 4)์˜ˆ (์ตœ๋Œ€ 8)์•„๋‹ˆ์˜ค์˜ˆ (๋‹ค์ค‘ ํŽ˜์ด์ง€)์˜ˆ

Ollama ์„ค์ • โ€” ๋‹จ๊ณ„๋ณ„ ๊ฐ€์ด๋“œ

Ollama๋Š” ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์„ ์‹คํ–‰ํ•˜๋Š” ๊ฐ€์žฅ ๊ฐ„ํŽธํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. Ollama๋ฅผ ์„ค์น˜ํ•˜๋ฉด ๋น„์ „ ๋ชจ๋ธ์ด ๋‹จ์ผ pull ๋ช…๋ น์–ด๋กœ ๋™์ž‘ํ•˜๋ฉฐ CLI ํ”Œ๋ž˜๊ทธ๋‚˜ HTTP API๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€๋ฅผ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • 1๋‹จ๊ณ„ โ€” Ollama ์„ค์น˜: macOS, Linux ๋˜๋Š” Windows์šฉ ํŒŒ์ผ์„ ollama.com์—์„œ ๋‹ค์šด๋กœ๋“œํ•˜์‹ญ์‹œ์˜ค. ์„ค์น˜์— 2๋ถ„ ๋ฏธ๋งŒ์ด ์†Œ์š”๋ฉ๋‹ˆ๋‹ค.
  • 2๋‹จ๊ณ„ โ€” ๋น„์ „ ๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ: ollama pull llama3.2-vision (11B, ~8 GB ๋‹ค์šด๋กœ๋“œ) ๋˜๋Š” VRAM์ด ์ ์€ ๊ฒฝ์šฐ ollama pull moondream (1.9B, ~2 GB).
  • 3๋‹จ๊ณ„ โ€” CLI์—์„œ ์‚ฌ์šฉ: ollama run llama3.2-vision "์ด ์ด๋ฏธ์ง€์— ๋ฌด์—‡์ด ์žˆ์Šต๋‹ˆ๊นŒ?" --image /๊ฒฝ๋กœ/์‚ฌ์ง„.jpg
  • 4๋‹จ๊ณ„ โ€” HTTP API ์‚ฌ์šฉ: http://localhost:11434/api/generate์— POST ์š”์ฒญ์„ ๋ณด๋‚ด๊ณ  images ๋ฐฐ์—ด์— Base64 ์ธ์ฝ”๋”ฉ๋œ ์ด๋ฏธ์ง€ ๋ฌธ์ž์—ด์„ ํฌํ•จ์‹œํ‚ค์‹ญ์‹œ์˜ค.
  • 5๋‹จ๊ณ„ โ€” Python ์˜ˆ์ œ: Base64 ์ธ์ฝ”๋”ฉ๊ณผ ํ•จ๊ป˜ requests ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์‚ฌ์šฉ โ€” ์•„๋ž˜ ์ฝ”๋“œ ๋ธ”๋ก์„ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.
python
import base64
import requests

def ask_vision_model(image_path: str, prompt: str, model: str = "llama3.2-vision") -> str:
    with open(image_path, "rb") as f:
        image_b64 = base64.b64encode(f.read()).decode("utf-8")

    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "images": [image_b64],
            "stream": False,
        },
    )
    return response.json()["response"]

# ์‚ฌ์šฉ ์˜ˆ์‹œ
result = ask_vision_model("์ฒญ๊ตฌ์„œ.png", "์ด ์ฒญ๊ตฌ์„œ์—์„œ ๋ชจ๋“  ํ•ญ๋ชฉ๊ณผ ํ•ฉ๊ณ„๋ฅผ ์ถ”์ถœํ•˜์‹ญ์‹œ์˜ค.")
print(result)

ํ™œ์šฉ ์‚ฌ๋ก€ 1: OCR ๋ฐ ๋ฌธ์„œ ์ถ”์ถœ

VLM์€ ๋ฐ˜๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ์—์„œ ์ „ํ†ต์ ์ธ OCR๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค โ€” ์ฒญ๊ตฌ์„œ, ์˜์ˆ˜์ฆ, ๊ณ„์•ฝ์„œ, ํ…์ŠคํŠธ ์ž์ฒด๋งŒํผ ๋ ˆ์ด์•„์›ƒ์ด ์ค‘์š”ํ•œ ํ‘œ. ์ „ํ†ต์ ์ธ OCR(Tesseract)์€ ๋ฌธ์ž๋ฅผ ์ถ”์ถœํ•˜์ง€๋งŒ, VLM์€ ๋ฌธ๋งฅ์—์„œ ๊ทธ ๋ฌธ์ž๋“ค์ด ์˜๋ฏธํ•˜๋Š” ๋ฐ”๋ฅผ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค.

  • ์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒฝ์šฐ: ์Šค์บ”๋œ ์ฒญ๊ตฌ์„œ, PDF ์Šคํฌ๋ฆฐ์ƒท, ์ธ์‡„์ฒด ์†๊ธ€์”จ ๋ฉ”๋ชจ, ๋ช…ํ™•ํ•œ ํ…Œ๋‘๋ฆฌ๊ฐ€ ์žˆ๋Š” ํ‘œ, ๋ช…ํ•จ.
  • ์ž˜ ์ž‘๋™ํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ: ํ•„๊ธฐ์ฒด ์†๊ธ€์”จ, 150 DPI ๋ฏธ๋งŒ์˜ ์Šค์บ”, ๊ณผ๋„ํ•œ ์••์ถ• JPEG, ๊ฒน์นœ ํ…์ŠคํŠธ.
  • OCR ์ตœ์  ๋ชจ๋ธ: MiniCPM-V 2.6 (6 GB ์นดํ…Œ๊ณ ๋ฆฌ์—์„œ ์ตœ๊ณ  OCR ์ •ํ™•๋„), Llama 3.2 Vision 11B (ํ˜ผํ•ฉ ๋ฌธ์„œ ์œ ํ˜•์— ์ตœ์ ).
  • OCR ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง: "์ค„๋ฐ”๊ฟˆ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ด ๋ฌธ์„œ์˜ ๋ชจ๋“  ํ…์ŠคํŠธ๋ฅผ ์ •ํ™•ํžˆ ์ถ”์ถœํ•˜์‹ญ์‹œ์˜ค." ๋˜๋Š” "์ด ์ฒญ๊ตฌ์„œ์˜ ๋‚ด์šฉ์„ ๋‹ค์Œ ํ•„๋“œ๊ฐ€ ์žˆ๋Š” JSON์œผ๋กœ ๋ฐ˜ํ™˜ํ•˜์‹ญ์‹œ์˜ค: ๊ณต๊ธ‰์—…์ฒด, ๋‚ ์งœ, ํ•ญ๋ชฉ[], ํ•ฉ๊ณ„."
  • ์ „ํ†ต์ ์ธ OCR ๋Œ€๋น„: VLM์€ ๋” ๋А๋ฆฌ์ง€๋งŒ ๋” ์˜๋ฏธ๋ก ์ ์ž…๋‹ˆ๋‹ค. Tesseract๋Š” ๊นจ๋—ํ•œ ๋ฌธ์„œ์˜ ์ˆœ์ˆ˜ํ•œ ํ…์ŠคํŠธ ์ถ”์ถœ์— ๋” ๋น ๋ฆ…๋‹ˆ๋‹ค. ๋‹จ์ˆœ ์ผ๋ฐ˜ ํ…์ŠคํŠธ๊ฐ€ ์•„๋‹Œ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ ์ถ”์ถœ์ด ํ•„์š”ํ•  ๋•Œ VLM์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

ํ™œ์šฉ ์‚ฌ๋ก€ 2: ์ด๋ฏธ์ง€ ์งˆ์˜์‘๋‹ต

์ผ๋ฐ˜์ ์ธ ์žฅ๋ฉด ์ดํ•ด, ์ œํ’ˆ ์„ค๋ช…, ์‹œ๊ฐ์  ์งˆ์˜์‘๋‹ต์—๋Š” Llama 3.2 Vision 11B๊ฐ€ ๊ถŒ์žฅ ๋กœ์ปฌ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ์ƒ์„ธํ•œ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๋ฉฐ ์‚ฌ์ง„ ๋‚ด์šฉ์— ๋Œ€ํ•œ ๋ฏธ๋ฌ˜ํ•œ ์งˆ๋ฌธ๋„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  • ์žฅ๋ฉด ์„ค๋ช…: "์ด ์‚ฌ์ง„์— ๋ฌด์—‡์ด ์žˆ์Šต๋‹ˆ๊นŒ?" โ€” ๊ฐ์ฒด, ์‚ฌ๋žŒ, ํ™œ๋™, ํ™˜๊ฒฝ, ๋ถ„์œ„๊ธฐ.
  • ์ œํ’ˆ ์นดํƒˆ๋กœ๊ทธ ์ž‘์„ฑ: ํ”„๋กฌํ”„ํŠธ ํ…œํ”Œ๋ฆฟ์œผ๋กœ ์ œํ’ˆ ์‚ฌ์ง„ ์ฒ˜๋ฆฌ: "์ด ์ œํ’ˆ์„ ์„ค๋ช…ํ•˜์‹ญ์‹œ์˜ค: ์ƒ‰์ƒ, ํ˜•ํƒœ, ์†Œ์žฌ, ์ƒํƒœ." ํด๋ผ์šฐ๋“œ API ์—†์ด ์ „์ž์ƒ๊ฑฐ๋ž˜ ์žฌ๊ณ  ๊ด€๋ฆฌ์— ์œ ์šฉ.
  • ์ ‘๊ทผ์„ฑ: ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๋Œ€์ฒด ํ…์ŠคํŠธ๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํ‘œ์ค€ ์ œํ’ˆ ์‚ฌ์ง„์˜ ์ ‘๊ทผ์„ฑ ์ปดํ”Œ๋ผ์ด์–ธ์Šค์— ์ถฉ๋ถ„ํ•œ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ์ตœ์  ๋ชจ๋ธ: ์ผ๋ฐ˜ ์‚ฌ์ง„ ์งˆ์˜์‘๋‹ต์—๋Š” LLaVA 1.6 13B ๋˜๋Š” Llama 3.2 Vision 11B. ์ •ํ™•๋„๋ณด๋‹ค ์†๋„๊ฐ€ ์ค‘์š”ํ•œ ๋Œ€๋Ÿ‰ ์ฒ˜๋ฆฌ์—๋Š” LLaVA 1.6 7B.
  • ์†๋„ ๊ณ ๋ ค์‚ฌํ•ญ: 6 GB GPU์—์„œ Llama 3.2 Vision 11B Q4๋Š” ์ด๋ฏธ์ง€ ์‘๋‹ต ์ƒ์„ฑ ์‹œ ์ดˆ๋‹น ์•ฝ 8~12ํ† ํฐ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค โ€” 100๊ฐœ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์— ์„ค๋ช… ๊ธธ์ด์— ๋”ฐ๋ผ ์•ฝ 2~5๋ถ„์ด ์†Œ์š”๋ฉ๋‹ˆ๋‹ค.

ํ™œ์šฉ ์‚ฌ๋ก€ 3: ์Šคํฌ๋ฆฐ์ƒท ๋ฐ UI ๋ถ„์„

์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ์Šคํฌ๋ฆฐ์ƒท, ์˜ค๋ฅ˜ ๋ฉ”์‹œ์ง€, ๋Œ€์‹œ๋ณด๋“œ ๋ถ„์„์—๋Š” InternVL 2.5๊ฐ€ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ๋กœ์ปฌ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค โ€” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์†Œํ”„ํŠธ์›จ์–ด UI, GitHub ์Šคํฌ๋ฆฐ์ƒท, ์ฝ”๋“œ ์‹คํ–‰ ๊ฒฐ๊ณผ๊ฐ€ ๊ฐ•์กฐ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ฐœ๋ฐœ์ž ์›Œํฌํ”Œ๋กœ์šฐ: ์˜ค๋ฅ˜ ๋ฉ”์‹œ์ง€ ์Šคํฌ๋ฆฐ์ƒท์„ ๋ชจ๋ธ์— ์ „์†ก: "์ด ์Šคํฌ๋ฆฐ์ƒท์—์„œ ๋ฌด์—‡์ด ์ž˜๋ชป๋˜์—ˆ์œผ๋ฉฐ ์–ด๋–ป๊ฒŒ ์ˆ˜์ •ํ•˜๊ฒ ์Šต๋‹ˆ๊นŒ?"
  • ๋ฒ„๊ทธ ๋ฆฌํฌํŠธ ์ƒ์„ฑ: ๊ตฌ์กฐํ™”๋œ ํ”„๋กฌํ”„ํŠธ๋กœ ์Šคํฌ๋ฆฐ์ƒท์—์„œ ๋ฒ„๊ทธ ์„ค๋ช…์„ ์ž๋™ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ๋Œ€์‹œ๋ณด๋“œ ๋ชจ๋‹ˆํ„ฐ๋ง: ๋ชจ๋‹ˆํ„ฐ๋ง ๋Œ€์‹œ๋ณด๋“œ ์Šคํฌ๋ฆฐ์ƒท์—์„œ ์ด์ƒ ์ง•ํ›„ ๋ถ„์„ โ€” "์ด Grafana ์Šคํฌ๋ฆฐ์ƒท์—์„œ ๊ฒฝ๊ณ  ์ˆ˜์ค€์— ์žˆ๋Š” ์ง€ํ‘œ๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ?"
  • ์ ‘๊ทผ์„ฑ ํ…Œ์ŠคํŠธ: UI ๋ณ€๊ฒฝ ์ „/ํ›„ ์Šคํฌ๋ฆฐ์ƒท์„ ๋น„๊ตํ•˜์—ฌ ์‹œ๊ฐ์  ์ ‘๊ทผ์„ฑ ์†์„ฑ์„ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.
  • ์ตœ์  ๋ชจ๋ธ: InternVL 2.5 8B (์ตœ๊ณ  UI ์ดํ•ด), MiniCPM-V 2.6 (๋‘ ๋ฒˆ์งธ ์„ ํƒ, Ollama ์ง€์›).

ํ™œ์šฉ ์‚ฌ๋ก€ 4: ์ฐจํŠธ ๋ฐ ๋‹ค์ด์–ด๊ทธ๋žจ ์ฝ๊ธฐ

๋ง‰๋Œ€ํ˜•, ์„ ํ˜• ์ฐจํŠธ, ํ‘œ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ์‹ ์ค‘ํ•œ ํ”„๋กฌํ”„ํŒ…์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๋กœ์ปฌ VLM์€ ์‚ฌ์ง„ ์„ค๋ช…๋ณด๋‹ค ์ฐจํŠธ ์ฝ๊ธฐ์—์„œ ์•ฝํ•ฉ๋‹ˆ๋‹ค โ€” ํ•ญ์ƒ ์ฐจํŠธ์—์„œ ์ถ”์ถœํ•œ ์ˆซ์ž๋ฅผ ์›๋ณธ ๋ฐ์ดํ„ฐ์™€ ๋Œ€์กฐํ•˜์—ฌ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค.

  • ์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒฝ์šฐ: ์ถ• ๋ ˆ์ด๋ธ” ์ฝ๊ธฐ, ์ถ”์„ธ ํŒŒ์•…, ๋ง‰๋Œ€์˜ ์ƒ๋Œ€์  ๋†’์ด ๋น„๊ต, ๋ช…ํ™•ํ•œ ํฐํŠธ๊ฐ€ ์žˆ๋Š” ํ‘œ ๊ฐ’ ์ฝ๊ธฐ.
  • ์‹ ๋ขฐํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ: ์—ฐ์†ํ˜• ์ฐจํŠธ์—์„œ์˜ ์ •๋ฐ€ํ•œ ์ˆ˜์น˜ ์ถ”์ถœ (์˜ˆ: "3๋ถ„๊ธฐ ๋ง‰๋Œ€๋Š” 43.7 ๋‹จ์œ„"), ๋ช…์‹œ์  ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ํŒŒ์ด ์ฐจํŠธ ๋ฐฑ๋ถ„์œจ.
  • ํ”„๋กฌํ”„ํŠธ ์ „๋žต: "์ด ์„ ํ˜• ์ฐจํŠธ์— ํ‘œ์‹œ๋œ ์ถ”์„ธ๋ฅผ ์„ค๋ช…ํ•˜์‹ญ์‹œ์˜ค"๊ฐ€ "2026๋…„ 3์›”์˜ ์ •ํ™•ํ•œ ๊ฐ’์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?"๋ณด๋‹ค ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.
  • ์ฐจํŠธ ์ตœ์  ๋ชจ๋ธ: InternVL 2.5 (์ตœ๊ณ  ์ฐจํŠธ ์ดํ•ด), Llama 3.2 Vision 11B (๋ช…ํ™•ํ•œ ๋ ˆ์ด๋ธ”์ด ์žˆ๋Š” ์ฐจํŠธ์— ์šฐ์ˆ˜).
  • ์ œํ•œ ์‚ฌํ•ญ ์ฐธ๊ณ : 2026๋…„์˜ ์–ด๋–ค ๋กœ์ปฌ VLM๋„ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณต์žกํ•œ ์ฐจํŠธ์—์„œ ์ •๋ฐ€ํ•œ ์ˆซ์ž๋ฅผ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ์ถ”์ถœํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์กฐํ™”๋œ ์ฐจํŠธ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋ฉด ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ ์†Œ์Šค์—์„œ ์ถ”์ถœํ•˜์‹ญ์‹œ์˜ค.

ํ™œ์šฉ ์‚ฌ๋ก€ 5: ๋™์˜์ƒ ํ”„๋ ˆ์ž„ ๋ถ„์„

๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์€ ๊ฐœ๋ณ„ ํ”„๋ ˆ์ž„์„ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋™์˜์ƒ์„ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค โ€” ffmpeg์œผ๋กœ ํ”„๋ ˆ์ž„์„ ์ถ”์ถœํ•˜๊ณ , ๋น„์ „ ๋ชจ๋ธ์— ์ „์†กํ•˜์—ฌ ๋ถ„์„ํ•œ ๋‹ค์Œ, ํ…์ŠคํŠธ LLM์œผ๋กœ ํ”„๋ ˆ์ž„ ๊ฐ„ ์š”์•ฝ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„์ด ์•„๋‹˜: ๋ชจ๋ธ๊ณผ ํ•˜๋“œ์›จ์–ด์— ๋”ฐ๋ผ ํ”„๋ ˆ์ž„๋‹น 0.5~3์ดˆ๋ฅผ ์˜ˆ์ƒํ•˜์‹ญ์‹œ์˜ค.

  • ํ”„๋ ˆ์ž„ ์ถ”์ถœ: ffmpeg์œผ๋กœ 1fps ์ถ”์ถœ: ffmpeg -i video.mp4 -vf fps=1 frames/frame_%04d.jpg
  • ํ”„๋ ˆ์ž„๋ณ„ ๋ถ„์„: ์ผ๊ด€๋œ ํ”„๋กฌํ”„ํŠธ๋กœ ๊ฐ ํ”„๋ ˆ์ž„์„ ๋น„์ „ ๋ชจ๋ธ์— ์‹คํ–‰ (์˜ˆ: "์ด ํ”„๋ ˆ์ž„์—์„œ ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๊ณ  ์žˆ๋Š”์ง€ ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์„ค๋ช…ํ•˜์‹ญ์‹œ์˜ค").
  • ํ”„๋ ˆ์ž„ ๊ฐ„ ์š”์•ฝ: ๋ชจ๋“  ํ”„๋ ˆ์ž„ ์„ค๋ช…์„ ์ˆ˜์ง‘ํ•˜์—ฌ ์š”์•ฝ ํ”„๋กฌํ”„ํŠธ์™€ ํ•จ๊ป˜ ํ…์ŠคํŠธ LLM์— ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค.
  • ํ™œ์šฉ ์‚ฌ๋ก€: ๋ณด์•ˆ ์นด๋ฉ”๋ผ ๊ฒ€ํ†  (๋น„์ •์ƒ์ ์ธ ํ™œ๋™์ด ์žˆ๋Š” ํ”„๋ ˆ์ž„ ํ‘œ์‹œ), ๊ฐ•์˜ ๋…นํ™” ๋ถ„์„ (์Šฌ๋ผ์ด๋“œ๋ณ„ ๋…ธํŠธ ์ƒ์„ฑ), ์ œ์กฐ ํ’ˆ์งˆ ๊ฒ€์‚ฌ (๊ฒฐํ•จ์ด ๋‚˜ํƒ€๋‚˜๋Š” ํ”„๋ ˆ์ž„ ํ‘œ์‹œ).
  • ๋™์˜์ƒ ํ”„๋ ˆ์ž„ ์ตœ์  ๋ชจ๋ธ: ํ’ˆ์งˆ์—๋Š” Llama 3.2 Vision 11B, ์†๋„์—๋Š” LLaVA 1.6 7B (๋” ๋†’์€ ํ”„๋ ˆ์ž„ ์ฒ˜๋ฆฌ๋Ÿ‰).
  • ์†๋„ ํ˜„์‹ค: RTX 4070์—์„œ 1fps ์ถ”์ถœ๊ณผ ํ”„๋ ˆ์ž„๋‹น ์•ฝ 1์ดˆ ์ถ”๋ก ์œผ๋กœ, 10๋ถ„ ๋™์˜์ƒ์˜ ์™„์ „ํ•œ ์ฒ˜๋ฆฌ์—๋Š” ์•ฝ 20~30๋ถ„์ด ์†Œ์š”๋ฉ๋‹ˆ๋‹ค.
python
import base64
import subprocess
import os
import requests

def extract_frames(video_path: str, output_dir: str, fps: int = 1) -> list[str]:
    os.makedirs(output_dir, exist_ok=True)
    subprocess.run([
        "ffmpeg", "-i", video_path,
        "-vf", f"fps={fps}",
        f"{output_dir}/frame_%04d.jpg",
        "-y"
    ], check=True)
    return sorted([
        os.path.join(output_dir, f)
        for f in os.listdir(output_dir)
        if f.endswith(".jpg")
    ])

def analyze_frame(image_path: str, model: str = "llama3.2-vision") -> str:
    with open(image_path, "rb") as f:
        image_b64 = base64.b64encode(f.read()).decode("utf-8")
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": "์ด ํ”„๋ ˆ์ž„์—์„œ ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๊ณ  ์žˆ๋Š”์ง€ ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์„ค๋ช…ํ•˜์‹ญ์‹œ์˜ค.",
            "images": [image_b64],
            "stream": False,
        },
    )
    return response.json()["response"]

frames = extract_frames("๊ฐ•์˜.mp4", "frames/", fps=1)
descriptions = [analyze_frame(f) for f in frames]
print("
".join(f"[{i+1}์ดˆ] {d}" for i, d in enumerate(descriptions)))

VRAM ๋ฐ ์‹ค์ œ ์„ฑ๋Šฅ ํ™•์ธ

๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์€ ๊ธฐ๋ณธ LLM์— ์‹œ๊ฐ ์ธ์ฝ”๋”๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ํ…์ŠคํŠธ ์ „์šฉ ๋ชจ๋ธ์— ๋น„ํ•ด VRAM ์š”๊ตฌ ์‚ฌํ•ญ๊ณผ ์ถ”๋ก  ์‹œ๊ฐ„์ด ๋ชจ๋‘ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธVRAM (Q4)ํ† ํฐ/์ดˆ (RTX 4070)ํ† ํฐ/์ดˆ (M5 Pro 36GB)ํ”„๋กœ๋•์…˜ ์ ํ•ฉ?
Moondream 2 (1.9B)~2 GB~25โ€“35~30โ€“40์˜ˆ โ€” ๋‹จ์ˆœ ์ž‘์—…์—
LLaVA 1.6 7B~6 GB~15โ€“20~18โ€“25์˜ˆ โ€” ๋ฒ”์šฉ
MiniCPM-V 2.6 (8B)~6 GB~12โ€“18~15โ€“20์˜ˆ โ€” OCR ๋ฐ ๋ฌธ์„œ
Llama 3.2 Vision 11B~8 GB~10โ€“14~12โ€“16์˜ˆ โ€” ์ „๋ฐ˜์  ์ตœ๊ณ  ํ’ˆ์งˆ
LLaVA 1.6 13B~10 GB~8โ€“12~10โ€“14์˜ˆ โ€” 12 GB GPU์—์„œ
Llama 3.2 Vision 90B~64 GBN/A (๋ฉ€ํ‹ฐ GPU ๋˜๋Š” M-Max ํ•„์š”)N/A (M5 Max 128GB+ ํ•„์š”)๊ณ ๊ธ‰ Apple Silicon์—์„œ๋งŒ

๐Ÿ“ŒNote: ๋น„์ „ ๋ชจ๋ธ์˜ ํ† ํฐ ์ƒ์„ฑ ์†๋„๋Š” ๊ฐ™์€ ํฌ๊ธฐ์˜ ํ…์ŠคํŠธ ์ „์šฉ ๋ชจ๋ธ๋ณด๋‹ค ๋А๋ฆฝ๋‹ˆ๋‹ค. ์‹œ๊ฐ ์ธ์ฝ”๋”๊ฐ€ ์ฒซ ๋ฒˆ์งธ ์ด๋ฏธ์ง€ ํ† ํฐ์—์„œ ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ดํ›„ ํ…์ŠคํŠธ ํ† ํฐ์€ ๊ฑฐ์˜ ์ •์ƒ ์†๋„๋กœ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ“ŒNote: Apple Silicon์˜ ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ๋Š” ์ „์šฉ GPU VRAM์— ๋งž์ง€ ์•Š๋Š” ๋” ํฐ ๋ชจ๋ธ(M5 Max 128GB์—์„œ ์ตœ๋Œ€ 90B)์„ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์†๋„๋Š” ๋™๊ธ‰ NVIDIA GPU๋ณด๋‹ค ์•ฝ๊ฐ„ ๋‚ฎ์ง€๋งŒ VRAM ์ œํ•œ์ด ์—†์Šต๋‹ˆ๋‹ค.

๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ vs GPT-5.5 Vision ๋น„๊ต

๋กœ์ปฌ VLM์€ ๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ์—์„œ ๊ฒฉ์ฐจ๋ฅผ ํฌ๊ฒŒ ์ขํ˜”์ง€๋งŒ, ๋ณต์žกํ•˜๊ณ  ๋ชจํ˜ธํ•œ ์ž‘์—…์—์„œ๋Š” ์—ฌ์ „ํžˆ GPT-5.5 Vision์— ๋’ค์ฒ˜์ง‘๋‹ˆ๋‹ค.

  • ๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ (์ฒญ๊ตฌ์„œ, ์–‘์‹): ๋กœ์ปฌ ๋ชจ๋ธ์ด GPT-5.5 ํ’ˆ์งˆ์˜ 80~90% โ€” ๊นจ๋—ํ•˜๊ณ  ํ˜•์‹์ด ์ž˜ ๋œ ๋ฌธ์„œ์—์„œ ํ”„๋กœ๋•์…˜ ์‚ฌ์šฉ์— ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ณต์žกํ•œ ์žฅ๋ฉด, ๋ชจํ˜ธํ•œ ์ด๋ฏธ์ง€: ๋กœ์ปฌ ๋ชจ๋ธ์ด GPT-5.5์˜ 50~70% โ€” ๋น„์ •์ƒ์ ์ธ ๋งฅ๋ฝ, ์กฐ๋ช… ๋˜๋Š” ๋ชจํ˜ธํ•œ ๋‚ด์šฉ์ด ์žˆ๋Š” ์ด๋ฏธ์ง€์—์„œ ๋ˆˆ์— ๋„๋Š” ํ’ˆ์งˆ ๊ฒฉ์ฐจ.
  • ์†๊ธ€์”จ ์ธ์‹: ๋กœ์ปฌ ๋ชจ๋ธ์€ ํŠนํžˆ ํ•„๊ธฐ์ฒด์—์„œ ํฌ๊ฒŒ ์•ฝํ•ฉ๋‹ˆ๋‹ค. GPT-5.5 Vision์€ ์†๊ธ€์”จ ์ฒ˜๋ฆฌ๊ฐ€ ์‹ค์งˆ์ ์œผ๋กœ ๋” ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์ฐจํŠธ ๋ฐ์ดํ„ฐ ์ถ”์ถœ: ๋กœ์ปฌ ๋ชจ๋ธ๊ณผ GPT-5.5 ๋ชจ๋‘์—์„œ ์‹ ๋ขฐํ•  ์ˆ˜ ์—†์ง€๋งŒ, GPT-5.5๋Š” ์ •ํ™•ํ•œ ์ˆ˜์น˜์—์„œ ๋” ์ •ํ™•ํ•ฉ๋‹ˆ๋‹ค.
  • ๋น„์šฉ: GPT-5.5 Vision์ด ์ด๋ฏธ์ง€๋‹น $0.01~0.03 vs ๋กœ์ปฌ์—์„œ $0. ์›” 10,000๊ฐœ ์ด๋ฏธ์ง€ = ๋กœ์ปฌ ๋ชจ๋ธ๋กœ $100~300 ์ ˆ์•ฝ.
  • ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ: ๋กœ์ปฌ ๋ชจ๋ธ์€ ๊ธฐ๊ธฐ ๋‚ด์—์„œ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์™ธ๋ถ€๋กœ ๋‚˜๊ฐ€์ง€ ์•Š์Šต๋‹ˆ๋‹ค. GPT-5.5๋Š” ์ด๋ฏธ์ง€๋ฅผ OpenAI ์„œ๋ฒ„๋กœ ์ „์†กํ•ฉ๋‹ˆ๋‹ค.
  • ์†๋„: ๋กœ์ปฌ ๋ชจ๋ธ์€ 10~20 ํ† ํฐ/์ดˆ vs GPT-5.5์˜ 30~80 ํ† ํฐ/์ดˆ์ด์ง€๋งŒ, ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ ์‹œ ๋กœ์ปฌ์€ ๋„คํŠธ์›Œํฌ ์ง€์—ฐ์ด ์—†์Šต๋‹ˆ๋‹ค.

๐Ÿ“ŒNote: ๊นจ๋—ํ•œ ์ž…๋ ฅ์œผ๋กœ ์ฒญ๊ตฌ์„œ์™€ ์–‘์‹์„ ํ”„๋กœ๋•์…˜์—์„œ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒฝ์šฐ, ๋กœ์ปฌ VLM(Llama 3.2 Vision 11B, Qwen2-VL 7B)์€ ๋น„์šฉ ์—†์ด GPT-5.5 Vision์„ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์†๊ธ€์”จ, ๋ณต์žกํ•œ ์žฅ๋ฉด ๋ถ„์„, ๋ชจํ˜ธํ•œ ๋‚ด์šฉ์ด ํฌํ•จ๋œ ๋ชจ๋“  ๊ฒƒ์—๋Š” GPT-5.5๊ฐ€ ์—ฌ์ „ํžˆ ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค.

LLaVA ์‹ฌ์ธต ๋ถ„์„

LLaVA(Large Language and Vision Assistant)๋Š” ๊ธฐ๋ณธ์ ์ธ ์˜คํ”ˆ์†Œ์Šค VLM ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค. 2023๋…„ ์œ„์Šค์ฝ˜์‹ -๋งค๋””์Šจ ๋Œ€ํ•™๊ต์™€ Microsoft Research๊ฐ€ ์ถœ์‹œํ•˜์—ฌ ๋Œ€๋ถ€๋ถ„์˜ ํ˜„๋Œ€ ๋กœ์ปฌ VLM์ด ๋”ฐ๋ฅด๋Š” CLIP ์ธ์ฝ”๋” + LLM ๋””์ฝ”๋” ํŒจํ„ด์„ ํ™•๋ฆฝํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์•„ํ‚คํ…์ฒ˜: CLIP ViT-L/14 ์‹œ๊ฐ ์ธ์ฝ”๋” + Llama-2 ๋˜๋Š” Mistral ํ…์ŠคํŠธ ๋””์ฝ”๋”, ๋‹จ์ˆœํ•œ ์„ ํ˜• ํ”„๋กœ์ ์…˜ ๋ ˆ์ด์–ด๋กœ ์—ฐ๊ฒฐ.
  • LLaVA 1.5 vs 1.6: ๋ฒ„์ „ 1.6(2024๋…„ ์ดˆ ์ถœ์‹œ)์€ ๋™์  ํŒจ์น˜๋ฅผ ํ†ตํ•ด ๊ณ ํ•ด์ƒ๋„ ์ž…๋ ฅ ์ง€์›์„ ์ถ”๊ฐ€ํ•˜์—ฌ OCR ์ •ํ™•๋„์™€ ์ฐจํŠธ ์ฝ๊ธฐ๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ํ›ˆ๋ จ: LLaVA-Instruct-150K์—์„œ ์ง€์‹œ ํŠœ๋‹ โ€” ์ด๋ฏธ์ง€ ์„ค๋ช…๊ณผ ๊ฐ์ฒด ๊ฐ์ง€ ์ฃผ์„์—์„œ ์ƒ์„ฑ๋œ ์‹œ๊ฐ์  ๋Œ€ํ™” ๋ฐ์ดํ„ฐ์…‹.
  • ๊ฐ•์ : ๊ด‘๋ฒ”์œ„ํ•œ ์ผ๋ฐ˜ ์ง€์‹, ์ž˜ ๋ฌธ์„œํ™”๋จ, ๋Œ€๊ทœ๋ชจ ์ปค๋ฎค๋‹ˆํ‹ฐ, ๊ด‘๋ฒ”์œ„ํ•œ Ollama ํ†ตํ•ฉ.
  • ์•ฝ์ : MiniCPM-V 2.6๋ณด๋‹ค ์•ฝํ•œ OCR, InternVL 2.5๋ณด๋‹ค ์•ฝํ•œ UI ๋ถ„์„, ํ’ˆ์งˆ ๋ฒค์น˜๋งˆํฌ์—์„œ Llama 3.2 Vision 11B์— ์ „๋ฐ˜์ ์œผ๋กœ ๋’ค์ฒ˜์ง.
  • ์—ฌ์ „ํžˆ ๊ถŒ์žฅ๋˜๋Š” ์ด์œ : LLaVA 1.6์€ ๋ชจ๋“  ๋กœ์ปฌ VLM ์ค‘์—์„œ ๊ฐ€์žฅ ํฐ ์ปค๋ฎค๋‹ˆํ‹ฐ, ๊ฐ€์žฅ ๋งŽ์€ ํŠœํ† ๋ฆฌ์–ผ, ๊ฐ€์žฅ ๋งŽ์€ ํ”„๋กฌํ”„ํŠธ ์˜ˆ์ œ๋ฅผ ๋ณด์œ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฌธ์ œ๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ๋„์›€์„ ์ฐพ๊ธฐ๊ฐ€ ๋” ์‰ฝ์Šต๋‹ˆ๋‹ค.

Qwen2-VL โ€” ์ตœ๊ณ ์˜ ๋‹ค๊ตญ์–ด OCR ๋ฐ ๋ฌธ์„œ ์„ฑ๋Šฅ

Qwen2-VL์€ Alibaba์˜ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๋กœ 2026๋…„ ๋ฌธ์„œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ์˜คํ”ˆ์†Œ์Šค ์˜ต์…˜์ž…๋‹ˆ๋‹ค. 7B ๋ณ€ํ˜•์€ ๋” ์ ์€ VRAM์œผ๋กœ Llama 3.2 Vision 11B์™€ ๊ฒฝ์Ÿํ•˜๋ฉฐ, 72B ๋ณ€ํ˜•์€ ๋Œ€๋ถ€๋ถ„์˜ ์˜คํ”ˆ์†Œ์Šค VLM ์ˆœ์œ„์—์„œ ์„ ๋‘๋ฅผ ์ฐจ์ง€ํ•ฉ๋‹ˆ๋‹ค.

  • ์•„ํ‚คํ…์ฒ˜: ์ตœ๋Œ€ 4096ร—4096์˜ ๋™์  ํ•ด์ƒ๋„ ์ง€์› โ€” LLaVA 1.6(672ร—672)์ด๋‚˜ Llama 3.2 Vision(1120ร—1120)๋ณด๋‹ค ํฌ๊ฒŒ ๋†’์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์šด์ƒ˜ํ”Œ๋ง ์—†์ด ๊ณ DPI ์Šค์บ”์„ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค๊ตญ์–ด OCR: ์ค‘๊ตญ์–ด, ์ผ๋ณธ์–ด, ํ•œ๊ตญ์–ด, ์˜์–ด์—์„œ ๋™๊ธ‰ ์ตœ๊ณ  ์„ฑ๋Šฅ. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋Œ€๊ทœ๋ชจ ๋‹ค๊ตญ์–ด ๋ฌธ์„œ ์ฝ”ํผ์Šค๊ฐ€ ํฌํ•จ๋˜์–ด ์˜์–ด ์ด์™ธ์˜ ๋ฌธ์„œ์—์„œ LLaVA ๋ฐ Llama 3.2 Vision ๋Œ€๋น„ ์ƒ๋‹นํ•œ ์ด์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • 7B vs 72B: 7B๋Š” ~6 GB VRAM(Q4)์— ๋งž์œผ๋ฉฐ ๋Œ€๋ถ€๋ถ„์˜ ๋ฌธ์„œ ์ž‘์—…์—์„œ Llama 3.2 Vision 11B์™€ ๊ฒฝ์Ÿํ•ฉ๋‹ˆ๋‹ค. 72B๋Š” ~48 GB๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ ๋Œ€๋ถ€๋ถ„์˜ ์˜คํ”ˆ์†Œ์Šค ๋ฒค์น˜๋งˆํฌ๋ฅผ ์„ ๋„ํ•ฉ๋‹ˆ๋‹ค.
  • Ollama ์„ค์น˜: ollama pull qwen2-vl:7b โ€” Ollama ๋ชจ๋ธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ์ง์ ‘ ์‚ฌ์šฉ ๊ฐ€๋Šฅ.
  • ๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ง€์›: ์š”์ฒญ๋‹น ์ตœ๋Œ€ 8๊ฐœ ์ด๋ฏธ์ง€ ํ—ˆ์šฉ โ€” ์ด ๋น„๊ต์˜ ๋ชจ๋“  ๋ชจ๋ธ ์ค‘ ๊ฐ€์žฅ ๋†’์€ ๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์šฉ๋Ÿ‰.
  • ๋ชจ๋ธ ํŽ˜์ด์ง€: Qwen2-VL 7B on Hugging Face

๋น„์ „ ๋ชจ๋ธ ์„ ํƒ ๋ฐฉ๋ฒ•

์ ์ ˆํ•œ ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์„ ์„ ํƒํ•˜๊ธฐ ์œ„ํ•œ VRAM ๊ธฐ๋ฐ˜ ์˜์‚ฌ๊ฒฐ์ • ํŠธ๋ฆฌ:

๐Ÿ“ ํ•œ ๋ฌธ์žฅ์œผ๋กœ

๋จผ์ € VRAM(2โ†’4โ†’6โ†’8โ†’16 GB)์„ ๊ธฐ์ค€์œผ๋กœ ๋ชจ๋ธ์„ ์„ ํƒํ•œ ๋‹ค์Œ ํ™œ์šฉ ์‚ฌ๋ก€(OCR, UI, ์ผ๋ฐ˜ ์งˆ์˜์‘๋‹ต ๋˜๋Š” ์ตœ๊ณ  ํ’ˆ์งˆ)์— ๋”ฐ๋ผ ์„ธ๋ถ„ํ™”ํ•˜์‹ญ์‹œ์˜ค.

๐Ÿ’ฌ ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด

VRAM 4 GB ๋ฏธ๋งŒ: Moondream๋งŒ ๊ฐ€๋Šฅ. 6 GB: ๋ฌธ์„œ์—๋Š” MiniCPM-V, ์‚ฌ์ง„์—๋Š” LLaVA 7B. 8~16 GB: ๊ฑฐ์˜ ๋ชจ๋“  ์šฉ๋„์— Llama 3.2 Vision 11B. 64+ GB: ์ตœ๊ณ  ๋กœ์ปฌ ํ’ˆ์งˆ์„ ์œ„ํ•ด Llama 3.2 Vision 90B.

  • VRAM 4 GB ๋ฏธ๋งŒ: Moondream 2 (1.9B) โ€” 2 GB์—์„œ ์œ ์ผํ•œ ์‹ค์šฉ์  ์˜ต์…˜. Moondream 2 ์ด์ƒ์œผ๋กœ๋Š” PaliGemma 2 (3B)์™€ SmolVLM (2.2B)์ด ์‹ค์šฉ์ ์ธ ๋Œ€์•ˆ์ž…๋‹ˆ๋‹ค. PaliGemma 2๋Š” ์•ฝ๊ฐ„ ์ถ”๊ฐ€ VRAM (~3 GB) ๋น„์šฉ์œผ๋กœ Moondream๋ณด๋‹ค ๋” ๋‚˜์€ ๋ฌธ์„œ ์ดํ•ด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. SmolVLM์€ ๊ทน๋‹จ์ ์ธ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ํ’ˆ์งˆ์„ ํฌ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋นฝ๋นฝํ•œ ํ…์ŠคํŠธ OCR์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
  • VRAM 6 GB: ๋ฌธ์„œ OCR ๋ฐ ์ฒญ๊ตฌ์„œ ์ฒ˜๋ฆฌ์—๋Š” MiniCPM-V 2.6. ์ปค๋ฎค๋‹ˆํ‹ฐ ์ง€์›์ด ์ค‘์š”ํ•œ ์ผ๋ฐ˜ ์‚ฌ์ง„ ์งˆ์˜์‘๋‹ต์—๋Š” LLaVA 1.6 7B. ๋‹ค๊ตญ์–ด OCR ๋˜๋Š” ๊ฐ€๋Šฅํ•œ ๊ฐ€์žฅ ๋†’์€ OCR ์ •ํ™•๋„๊ฐ€ ํ•„์š”ํ•  ๋•Œ๋Š” Qwen2-VL 7B.
  • VRAM 8~16 GB: Llama 3.2 Vision 11B๊ฐ€ ๋ช…ํ™•ํ•œ ๊ถŒ์žฅ ์‚ฌํ•ญ โ€” ์ด VRAM ์นดํ…Œ๊ณ ๋ฆฌ์—์„œ ์ „๋ฐ˜์ ์ธ ์ตœ๊ณ  ํ’ˆ์งˆ, ๊ด‘๋ฒ”์œ„ํ•œ Ollama ์ง€์›.
  • VRAM 16+ GB: LLaVA 1.6 13B๋Š” 7B ๋ณ€ํ˜• ๋Œ€๋น„ ๋ณต์žกํ•œ ์žฅ๋ฉด ์ดํ•ด์— ๋” ๋งŽ์€ ์šฉ๋Ÿ‰์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. UI ์Šคํฌ๋ฆฐ์ƒท ๋˜๋Š” ์ฝ”๋“œ๊ฐ€ ์ฃผ์š” ํ™œ์šฉ ์‚ฌ๋ก€๋ผ๋ฉด InternVL 2.5 8B.
  • ํ†ตํ•ฉ ๋ฉ”๋ชจ๋ฆฌ 64+ GB (Apple M-Max/Ultra, ๋ฉ€ํ‹ฐ GPU): ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์ตœ๊ณ  ๋กœ์ปฌ VLM ํ’ˆ์งˆ์„ ์œ„ํ•ด Llama 3.2 Vision 90B โ€” ๋ฌธ์„œ ์ž‘์—…์—์„œ ํด๋ผ์šฐ๋“œ ์ˆ˜์ค€ ์„ฑ๋Šฅ์— ๊ทผ์ ‘. Qwen2-VL 72B๋Š” ์ตœ๊ณ ์˜ ์˜คํ”ˆ์†Œ์Šค ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๋ฅผ ๋ณด์œ ํ•œ ๋Œ€์•ˆ.
  • ํ•ญ์ƒ ์ˆซ์ž๋ฅผ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค: ๋ชจ๋ธ์— ๊ด€๊ณ„์—†์ด ์ฐจํŠธ๋‚˜ ํ‘œ์—์„œ ์ถ”์ถœํ•œ ์ˆ˜์น˜๋Š” ์›๋ณธ ๋ฐ์ดํ„ฐ์™€ ๋Œ€์กฐํ•˜์—ฌ ํ™•์ธํ•˜์‹ญ์‹œ์˜ค. ๋กœ์ปฌ VLM์€ ์‹œ๊ฐ์  ์ฐจํŠธ์—์„œ ์ •ํ™•ํ•œ ์ˆ˜์น˜๋ฅผ ํ™˜๊ฐํ•ฉ๋‹ˆ๋‹ค.

์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ

Ollama ์—†์ด LLaVA ๋˜๋Š” Llama 3.2 Vision์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์˜ˆ. llama.cpp(๋น„์ „ ์ง€์› ํฌํ•จ), transformers ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ(์ ์ ˆํ•œ ๋ชจ๋ธ ์นด๋“œ ํฌํ•จ), ๋˜๋Š” LM Studio(๋น„์ „ ๋ชจ๋ธ์šฉ GUI ํฌํ•จ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ LLaVA ๋ฐ Llama 3.2 Vision์„ ์ง์ ‘ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Ollama๋Š” ๋‹จ์ˆœ์„ฑ ๋•Œ๋ฌธ์— ๊ถŒ์žฅ๋ฉ๋‹ˆ๋‹ค โ€” ๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ, ์–‘์žํ™” ์„ ํƒ, API ํ˜ธ์ŠคํŒ…์„ ์ž๋™์œผ๋กœ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

Llama 3.2 Vision์€ PDF ์ง์ ‘ ์ž…๋ ฅ์„ ์ง€์›ํ•ฉ๋‹ˆ๊นŒ?

์–ด๋–ค ๋กœ์ปฌ VLM๋„ PDF๋ฅผ ์ง์ ‘ ๋ฐ›์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋จผ์ € PDF ํŽ˜์ด์ง€๋ฅผ ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜(pdf2image, pypdfium2 ๋“ฑ ์‚ฌ์šฉ)ํ•œ ๋‹ค์Œ ๊ฐ ํŽ˜์ด์ง€๋ฅผ ๋ณ„๋„์˜ ์ด๋ฏธ์ง€ ์š”์ฒญ์œผ๋กœ ์ „์†กํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. 10ํŽ˜์ด์ง€ PDF์˜ ๊ฒฝ์šฐ 10๊ฐœ์˜ ๋ณ„๋„ ์ด๋ฏธ์ง€ ์ฟผ๋ฆฌ๋ฅผ ์ „์†กํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ์—ฐ๊ฒฐํ•˜๊ฑฐ๋‚˜ ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค.

๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์€ GPT-5.5 Vision๊ณผ ์–ด๋–ป๊ฒŒ ๋น„๊ต๋ฉ๋‹ˆ๊นŒ?

GPT-5.5 Vision์€ ๋ชจํ˜ธํ•œ ์žฅ๋ฉด, ์†๊ธ€์”จ, ๋ณต์žกํ•œ ์ธํฌ๊ทธ๋ž˜ํ”ฝ, ์„ธ๊ณ„ ์ง€์‹์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ์—ฌ์ „ํžˆ ํฌ๊ฒŒ ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. Llama 3.2 Vision 11B๋Š” ๊ตฌ์กฐํ™”๋œ ๋ฌธ์„œ(์ฒญ๊ตฌ์„œ, ์–‘์‹, ์„ ๋ช…ํ•œ ์‚ฌ์ง„)์—์„œ GPT-5.5์— ๊ทผ์ ‘ํ•˜์ง€๋งŒ ๋ฏธ๋ฌ˜ํ•˜๊ฑฐ๋‚˜ ๋ชจํ˜ธํ•œ ์ด๋ฏธ์ง€์—์„œ๋Š” ๋’ค์ฒ˜์ง‘๋‹ˆ๋‹ค. ๋น„์šฉ, ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ, ์†๋„ ๋ถ„์„์€ ์œ„์˜ ์ „์ฒด ๋น„๊ต๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค.

๋กœ์ปฌ VLM์€ ์–ด๋–ค ์ด๋ฏธ์ง€ ํ•ด์ƒ๋„๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๊นŒ?

LLaVA 1.6์€ ์ตœ๋Œ€ 672ร—672์˜ ์‹คํšจ ํ•ด์ƒ๋„๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค(๋™์  ํŒจ์น˜ ํฌํ•จ). MiniCPM-V 2.6์€ ์ตœ๋Œ€ 1792ร—1792๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค โ€” ๊ณ DPI ๋ฌธ์„œ ์Šค์บ”์—์„œ LLaVA๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ด์œ  ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. Llama 3.2 Vision์€ ์ตœ๋Œ€ 1120ร—1120์˜ ๊ฐ€๋ณ€ ํ•ด์ƒ๋„๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ƒ์˜ OCR ๊ฒฐ๊ณผ๋ฅผ ์œ„ํ•ด ๋ฌธ์„œ ์ด๋ฏธ์ง€๋ฅผ 150+ DPI๋กœ ์ „์†กํ•˜์‹ญ์‹œ์˜ค.

์ž์ฒด ์ด๋ฏธ์ง€๋กœ ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์˜ˆ, ํ•˜์ง€๋งŒ VLM ํŒŒ์ธํŠœ๋‹์€ ํ…์ŠคํŠธ ์ „์šฉ LLM ํŒŒ์ธํŠœ๋‹๋ณด๋‹ค ๋” ๋งŽ์€ ๋ฆฌ์†Œ์Šค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค โ€” ์ด๋ฏธ์ง€์™€ ํ›ˆ๋ จ ํ…์ŠคํŠธ ๋ชจ๋‘ ์ „์ฒด ํฌ์›Œ๋“œ ํŒจ์Šค๋ฅผ ํ†ตํ•ด ์ฒ˜๋ฆฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. LLaVA ํŒŒ์ธํŠœ๋‹์€ ์›๋ณธ ํ›ˆ๋ จ ์ฝ”๋“œ๋ฒ ์ด์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž˜ ๋ฌธ์„œํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. MiniCPM-V๋Š” Hugging Face์˜ ๊ณต์‹ ํ›ˆ๋ จ ์Šคํฌ๋ฆฝํŠธ๋ฅผ ํ†ตํ•ด ํŒŒ์ธํŠœ๋‹์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ํ™œ์šฉ ์‚ฌ๋ก€์—์„œ๋Š” ํŒŒ์ธํŠœ๋‹ ์—†์ด ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

VRAM 8 GB์— ์ตœ์ ์ธ ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

๋ฒ”์šฉ ์‚ฌ์šฉ์—๋Š” Llama 3.2 Vision 11B (Q4 ์–‘์žํ™”๊ฐ€ ~8 GB์— ๋งž์Œ). ๋‹ค๊ตญ์–ด OCR์ด ์ฃผ์š” ์š”๊ตฌ ์‚ฌํ•ญ์ด๋ผ๋ฉด Qwen2-VL 7B. ๋‘ ๋ชจ๋ธ ๋ชจ๋‘ ๋‹จ์ผ pull ๋ช…๋ น์–ด๋กœ Ollama์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

LLaVA vs MiniCPM-V โ€” OCR์—๋Š” ์–ด๋А ๊ฒƒ์ด ๋” ๋‚ซ์Šต๋‹ˆ๊นŒ?

MiniCPM-V 2.6์€ ๋ฌธ์„œ OCR, ํŠนํžˆ ๋นฝ๋นฝํ•œ ํ‘œ์™€ ๊ณ DPI ์Šค์บ”์—์„œ ๋” ์ •ํ™•ํ•ฉ๋‹ˆ๋‹ค. LLaVA 1.6์€ ๋” ์ž˜ ๋ฌธ์„œํ™”๋˜์–ด ์žˆ๊ณ  ๋” ๋งŽ์€ ์ปค๋ฎค๋‹ˆํ‹ฐ ์ง€์›์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆœ์ˆ˜ํ•œ OCR ์ •ํ™•๋„๋ฅผ ์œ„ํ•ด์„œ๋Š” MiniCPM-V๋ฅผ ์„ ํƒํ•˜์‹ญ์‹œ์˜ค. ์ปค๋ฎค๋‹ˆํ‹ฐ ์ž๋ฃŒ์™€ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•ด์„œ๋Š” LLaVA๋ฅผ ์„ ํƒํ•˜์‹ญ์‹œ์˜ค.

๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ์ด ์†๊ธ€์”จ๋ฅผ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์ธ์‡„์ฒด ์†๊ธ€์”จ(๋ธ”๋ก ๋ฌธ์ž): ์˜ˆ, Llama 3.2 Vision 11B์™€ MiniCPM-V 2.6์—์„œ ์ค‘๊ฐ„ ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋กœ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•„๊ธฐ์ฒด: ๋ชจ๋“  ๋กœ์ปฌ ๋ชจ๋ธ์—์„œ ์‹ ๋ขฐํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. GPT-5.5 Vision์€ ํ•„๊ธฐ์ฒด ์ฒ˜๋ฆฌ๊ฐ€ ํฌ๊ฒŒ ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ํ”„๋กœ๋•์…˜์—์„œ ํ•„๊ธฐ์ฒด OCR์€ ํด๋ผ์šฐ๋“œ API๋ฅผ ์—ฌ์ „ํžˆ ๊ถŒ์žฅํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜

  • LLaVA ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€ โ€” LLaVA 1.5 ๋ฐ 1.6 ๋ชจ๋ธ ์นด๋“œ, ์•„ํ‚คํ…์ฒ˜ ์„ธ๋ถ€ ์‚ฌํ•ญ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹ ์„ค๋ช….
  • Llama 3.2 Vision on Hugging Face โ€” Meta์˜ ๊ณต์‹ ๋ชจ๋ธ ์ถœ์‹œ, ๋ชจ๋ธ ์นด๋“œ, ๋ฒค์น˜๋งˆํฌ ์ˆ˜์น˜.
  • MiniCPM-V 2.6 on Hugging Face โ€” OpenBMB ๋ชจ๋ธ ์นด๋“œ, OCR ๋ฒค์น˜๋งˆํฌ, ํŒŒ์ธํŠœ๋‹ ์ง€์นจ.
  • Moondream on GitHub โ€” ์•„ํ‚คํ…์ฒ˜ ์„ค๋ช…, ์ถ”๋ก  ์Šคํฌ๋ฆฝํŠธ, ๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ.
  • InternVL 2.5 on Hugging Face โ€” OpenGVLab ๋ชจ๋ธ ์นด๋“œ, ๋ฌธ์„œ ๋ฐ UI ์ž‘์—… ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜.
  • Ollama ๋ฌธ์„œ โ€” ๋น„์ „ ๋ชจ๋ธ ์ง€์›, API ์ฐธ์กฐ, ๋ชจ๋ธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ.
  • Qwen2-VL on Hugging Face โ€” Alibaba Qwen2-VL ๋ชจ๋ธ ์นด๋“œ, ์•„ํ‚คํ…์ฒ˜ ์„ธ๋ถ€ ์‚ฌํ•ญ, ๋‹ค๊ตญ์–ด OCR ๋ฒค์น˜๋งˆํฌ.
  • PaliGemma 2 on Hugging Face โ€” Google PaliGemma 2 3B ๋ชจ๋ธ ์นด๋“œ.
  • SmolVLM on Hugging Face โ€” HuggingFace SmolVLM ๋ชจ๋ธ ์นด๋“œ ๋ฐ ์ถ”๋ก  ์ง€์นจ.

โ† ๊ณ ๊ธ‰ ๋กœ์ปฌ LLM์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

์ตœ๊ณ ์˜ ๋กœ์ปฌ ๋น„์ „ ๋ชจ๋ธ 2026: LLaVA์™€ Qwen2-VL | PromptQuorum