Key Takeaways
- ๋ฉํฐ๋ชจ๋ฌ = ํ ์คํธ + ์ด๋ฏธ์ง (+ ์ค๋์ค). OCR ์ ์ฒ๋ฆฌ ์์ด ์ด๋ฏธ์ง๋ฅผ ์ง์ ์ฒ๋ฆฌํฉ๋๋ค.
- ์ต๊ณ ์ ๋ชจ๋ธ (2026): Llama 3.2 Vision 11B, Qwen2-VL 7B, Gemma 3 Vision 9B.
- ํ์ฉ ์ฌ๋ก: ๋ฌธ์ OCR, ์ด๋ฏธ์ง ๋ถ์, ์๊ฐ์ Q&A, ํ ์ถ์ถ.
- ์๋: ์ด๋ฏธ์ง๋น 2~5์ด (11B ๋ชจ๋ธ). ํ ์คํธ ์ ์ฉ๋ณด๋ค ๋๋ฆฌ์ง๋ง ์ค์ฉ์ ์ ๋๋ค.
- 2026๋ 4์ ๊ธฐ์ค์ผ๋ก ๋ฉํฐ๋ชจ๋ฌ์ ํน์ ์ฌ์ฉ ์ฌ๋ก์์ ์ฑ์ ๋จ๊ณ์ ์์ผ๋ฉฐ, ์์ง ๋ฒ์ฉ์ ์ด์ง๋ ์์ต๋๋ค.
์ฌ์ฉ ๊ฐ๋ฅํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ (2026๋ 4์)
| Model | Image Support | VRAM | Speed per Image | Best For |
|---|---|---|---|---|
| Llama 3.2 Vision 11B | ์ง์ | 8 GB | โ | ์ผ๋ฐ ๋น์ |
| Qwen2-VL 7B | ์ง์ | 5 GB | โ | ๊ณ ์ ๋น์ |
| Gemma 3 Vision 9B | ์ง์ | 6 GB | โ | ๊ท ํํ |
| Llama 3.2 Vision 90B | ์ง์ | 55 GB | โ | ๊ณ ํ์ง |
๋น์ ๊ธฐ๋ฅ
๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ค์์ ์ํํ ์ ์์ต๋๋ค:
- ์ด๋ฏธ์ง ์ค๋ช : ์ด๋ฏธ์ง์ ๋ฌด์์ด ์๋์ง ์ค๋ช ํฉ๋๋ค.
- OCR (๊ดํ ๋ฌธ์ ์ธ์): ์ด๋ฏธ์ง์์ ํ ์คํธ๋ฅผ ์ถ์ถํฉ๋๋ค (๋ช ํจ, ๋ฌธ์ ์ค์บ ๋ฑ).
- ์๊ฐ์ Q&A: ์ด๋ฏธ์ง์ ๊ดํ ์ง๋ฌธ์ ๋ตํฉ๋๋ค ("์ด ์ฐจ์ ๋ธ๋๋๋ ๋ฌด์์ ๋๊น?").
- ํ ์ถ์ถ: ์ด๋ฏธ์ง์์ ํ๋ฅผ ํ์ฑํ์ฌ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ก ๋ณํํฉ๋๋ค.
- ์ฐจํธ ๋ถ์: ๋ฐ์ดํฐ ์๊ฐํ ์๋ฃ๋ฅผ ํด์ํฉ๋๋ค.
- ๊ฐ์ฒด ํ์ง: ์ด๋ฏธ์ง์์ ๊ฐ์ฒด๋ฅผ ์๋ณํ๊ณ ์์น๋ฅผ ํ์ ํฉ๋๋ค.
์ค์ ๋ฐ ์ฌ์ฉ๋ฒ
Ollama์ ํจ๊ป Llama 3.2 Vision์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ:
# Pull the model
ollama pull llama3.2-vision:11b
# Use it
from ollama import Client
client = Client()
with open("image.jpg", "rb") as f:
image_data = f.read()
response = client.generate(
model="llama3.2-vision:11b",
prompt="Describe this image",
images=[image_data] # Pass image data
)
print(response["response"])์ค์ ํ์ฉ ์ฌ๋ก
- ๋ฌธ์ ์ฒ๋ฆฌ: ์ธ๋ถ OCR ์๋น์ค ์์ด ์ค์บ๋ PDF์์ ํ ์คํธ๋ฅผ ์ถ์ถํฉ๋๋ค.
- ์ฝํ ์ธ ๊ฒ์: ํด๋ผ์ฐ๋์ ์ ์กํ์ง ์๊ณ ๋ถ์ ์ ํ ์ด๋ฏธ์ง๋ฅผ ํํฐ๋งํฉ๋๋ค.
- ์ ๊ทผ์ฑ: ์๊ฐ ์ฅ์ ์ธ์ ์ํด ์ด๋ฏธ์ง๋ฅผ ์ค๋ช ํฉ๋๋ค.
- ์ ํ ๋ถ์: ์ ์ ์๊ฑฐ๋์์ ์ ํ ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํฉ๋๋ค (์นดํ ๊ณ ๋ฆฌ, ์ํ, ๊ฒฐํจ).
- ์ฐ๊ตฌ: ๊ณผํ์ ์ฐจํธ ๋ฐ ๋ค์ด์ด๊ทธ๋จ์ ๋ถ์ํฉ๋๋ค.
์ฑ๋ฅ ๋ฐ ํ๊ณ
์ ํ๋: ๋ฌธ์ OCR ๋ฐ ์ค๋ช ์๋ ์ ํฉํ์ง๋ง, ์ธ๋ถ ๋ถ์์ด๋ ์ํ ๊ฐ์ฒด์์๋ ์๋ฒฝํ์ง ์์ต๋๋ค.
์๋: ์ด๋ฏธ์ง๋น 2~5์ด. ํด๋ผ์ฐ๋ ๋ชจ๋ธ(GPT-4 Vision)์ 10~50๋ฐฐ ๋ ๋น ๋ฆ ๋๋ค.
์ด๋ฏธ์ง ํฌ๊ธฐ: ์ต๋ ์ฝ 1000ร1000ํฝ์ ์ ์ง์ํฉ๋๋ค. ๋ ํฐ ์ด๋ฏธ์ง๋ ๋ค์ด์ํ๋ง๋ฉ๋๋ค.
ํ๊ณ: ๋ณต์กํ ์ฅ๋ฉด์์ GPT-4 Vision์ ์ ํ๋๋ฅผ ๋ฐ๋ผ๊ฐ์ง ๋ชปํฉ๋๋ค. ๊ฐ์ธ ์ ๋ณด ๋ณดํธ์ ํ์ง ๊ฐ์ ํธ๋ ์ด๋์คํ๊ฐ ์์ต๋๋ค.
์์ฃผ ๋ฐ์ํ๋ ์ค์
- GPT-4 Vision ์์ค์ ์ ํ๋๋ฅผ ๊ธฐ๋ํ๋ ๊ฒ. ๋ก์ปฌ ๋ชจ๋ธ์ 20~30% ์ ํ๋๊ฐ ๋ฎ์ต๋๋ค. ๋ฒ์ฉ ๋น์ ์ด ์๋ ํน์ ๋๋ฉ์ธ์ ์ฌ์ฉํ์ญ์์ค.
- ์ด๋ฏธ์ง๋ฅผ ์ค๋นํ์ง ์๋ ๊ฒ. ์ด์ ์์ญ์ ๋ง๊ฒ ์ด๋ฏธ์ง๋ฅผ ์๋ฅด์ญ์์ค. ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ์ญ์์ค. ์ข์ ์ ๋ ฅ์ผ์๋ก ์ข์ ์ถ๋ ฅ์ด ๋์ต๋๋ค.
- ๋ณต์กํ ๋น์ ์์ ์ 7B ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ. ์ํ ๋ชจ๋ธ์ ์ธ๋ถ์ ์ธ ๋ํ ์ผ ์ฒ๋ฆฌ์ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ์์ ์ ์ธ ๋น์ ์์ ์ ์ํด์๋ 11B ์ด์์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค.
์ถ์ฒ
- Llama 3.2 Vision Model Card -- huggingface.co/meta-llama/Llama-3.2-11B-Vision
- Qwen2-VL -- github.com/QwenLM/Qwen2-VL