Key Takeaways
- Qwen2-VL 7B๋ Ollama๋ฅผ ํตํด ์ฝ 6 GB์ VRAM (Q4)์ผ๋ก ๋ก์ปฌ ์คํ ๊ฐ๋ฅ โ `ollama pull qwen2-vl:7b` ๋ช ๋ น ํ๋๋ก ์คํ๋๋ฉฐ ๋ชจ๋ธ ๋ณํ์ด ํ์ ์์ต๋๋ค.
- ๋ค๊ตญ์ด OCR์ ์ต์ ์ธ ๋ก์ปฌ ๋ชจ๋ธ: Qwen2-VL์ MiniCPM-V 2.6๊ณผ ๋๋ฑํ๋ฉฐ, ์ค๊ตญ์ดยท์ผ๋ณธ์ดยทํ๊ตญ์ด ํ ์คํธ์์ LLaVA 1.6 ๋ฐ Llama 3.2 Vision 11B๋ฅผ ๋ฅ๊ฐํฉ๋๋ค.
- 4096ร4096๊น์ง ๋ค์ดํฐ๋ธ ํด์๋ ์ง์ โ LLaVA 1.6 (672ร672) ๋๋ Llama 3.2 Vision (1120ร1120)๊ณผ ๋ฌ๋ฆฌ ๋ค์ด์ํ๋ง ์์ด ๊ณ ํด์๋ ์ค์บ์ ์ฝ์ต๋๋ค.
- ์ธ ๊ฐ์ง ํฌ๊ธฐ: 2B (~3 GB VRAM, ๋น ๋ฅด๊ณ ๊ธฐ๋ณธ์ ), 7B (~6 GB, ๋๋ถ๋ถ์ ์ฌ์ฉ์์๊ฒ ๊ถ์ฅ), 72B (~48 GB, ์คํ ์์ค ๋ฒค์น๋งํฌ ์ต์์).
- ์์ฒญ๋น ์ต๋ 8๊ฐ์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ โ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋์ ๋ค์ค ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์ฉ๋.
- ์ง์ PDF ์ ๋ ฅ ๋ถ๊ฐ: PDF ํ์ด์ง๋ฅผ PNG ๋๋ JPEG๋ก ๋จผ์ ๋ณํํ ํ ๊ฐ ํ์ด์ง๋ฅผ ๋ณ๋ ์ด๋ฏธ์ง๋ก ์ ์กํด์ผ ํฉ๋๋ค.
- ๋ค์ด๋ก๋ ํ 100% ์คํ๋ผ์ธ: API ํค ๋ถํ์, ํด๋ผ์ฐ๋ ์ ๋ก๋ ์์ โ ๋ชจ๋ ๋ฌธ์๊ฐ ์ฌ์ฉ์ ๊ธฐ๊ธฐ์ ๋ณด๊ด๋์ด GDPR ๋ฐ์ดํฐ ์ ์ก ๋ฒ์์์ AI ๋ ์ด์ด๊ฐ ์ ์ธ๋ฉ๋๋ค.
Qwen2-VL์ด ๋ค๊ตญ์ด OCR์์ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์ ์ ๋ํ๋ ์ด์
Qwen2-VL์ ๋ค๊ตญ์ด ๋ฌธ์ OCR์ ์ํ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ๋ก, ์๋น์ ํ๋์จ์ด์์ ์คํ๋๋ ๋ค๋ฅธ ๋ชจ๋ ๋ชจ๋ธ๊ณผ ๋๋ฑํ๊ฑฐ๋ ๋ฅ๊ฐํ์ฌ ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด, ์์ด ํ ์คํธ๋ฅผ ์ฝ์ต๋๋ค. Alibaba๋ ๋๊ท๋ชจ ๋ค๊ตญ์ด ๋ฌธ์ ์ฝํผ์ค๋ก ์ด ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ ๋๋ฌธ์ ๋น์์ด ํ ์คํธ ์ถ์ถ์์ LLaVA 1.6 ๋ฐ Llama 3.2 Vision 11B๋ฅผ ๋ฅ๊ฐํฉ๋๋ค.
Qwen2-VL์ ์ต๋ 4096ร4096 ํฝ์ ์ ๋์ ์ ๋ ฅ ํด์๋๋ฅผ ์ง์ํฉ๋๋ค. LLaVA 1.6์ 672ร672, Llama 3.2 Vision์ 1120ร1120์ผ๋ก ์ ํ๋์ด ๊ณ ํด์๋ ์ค์บ์ ์ฝ๊ธฐ ์ ์ ๋ค์ด์ํ๋งํฉ๋๋ค. Qwen2-VL์ 300 DPI A4 ์ค์บ์ ๋ค์ดํฐ๋ธ ํด์๋๋ก ์ฝ์ด๋ ๋๋ค โ ์ด๊ฒ์ด ๊ณ ๋ฐ๋ ๋ฌธ์์ ์์ CJK ๋ฌธ์์์ OCR ์ ํ๋๊ฐ ๋ ๋์ ์ฃผ๋ ์ด์ ์ ๋๋ค.
Qwen2-VL์ ๋ก์ปฌ๋ก ์คํํ๋ ๋น์ฉ์ ํ๋์จ์ด ์ดํ ์ด๋ฏธ์ง๋น โฌ0์ ๋๋ค. ํด๋ผ์ฐ๋ ๋น์ API๋ ์ด๋ฏธ์ง๋น ์ฝ $0.01โ0.03์ ์ฒญ๊ตฌํ๋ฉฐ, ์ 10,000๊ฐ์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์ $100โ300์ ์ ์ฝํ ์ ์๊ณ , ์ด๋ค ๋ฌธ์๋ ๊ธฐ๊ธฐ๋ฅผ ๋ฒ์ด๋์ง ์์ต๋๋ค.
CJK ํ ์คํธ, ์์ ํฐํธ, ๋๋ ๊ณ ํด์๋ ์ค์บ์ด ํฌํจ๋ ๋ฌธ์๊ฐ ์๋ค๋ฉด Qwen2-VL์ ์ฌ์ฉํ์ญ์์ค. ์์ด ์ ์ฉ ์ฌ์ง Q&A๋ผ๋ฉด Llama 3.2 Vision 11B๋ ๋๋ฑํ๊ฒ ์ข์ ์ ํ์ ๋๋ค.
Qwen2-VL์ Ollama๋ฅผ ํตํด ์ฝ 6 GB์ VRAM์ผ๋ก ์คํ๋๋ ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด ๋ฌธ์ OCR์ ๊ฐ์ฅ ์ ํํ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์ ๋๋ค.
๋น์ -์ธ์ด ๋ชจ๋ธ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋์ ์ด๋ฏธ์ง๋ฅผ ์ฝ์ต๋๋ค. Qwen2-VL์ ์ฌ์ง์ด๋ ์ค์บ๋ ํ์ด์ง๋ฅผ ์ ๊ณตํ๋ฉด ํ ์คํธ๋ฅผ ๋ฐํํฉ๋๋ค โ ์ค๋ช , ๋ต๋ณ, ๋๋ ์ถ์ถ๋ ๋ด์ฉ์.
Qwen2-VL ๋ชจ๋ธ ํฌ๊ธฐ ์ ํ
Qwen2-VL์ ์ธ ๊ฐ์ง ํฌ๊ธฐ๋ก ์ ๊ณต๋ฉ๋๋ค. VRAM๊ณผ ํ์ํ ์ ํ๋์ ๋ฐ๋ผ ์ ํํ์ญ์์ค. ๋ชจ๋ ํฌ๊ธฐ๋ Hugging Face (Qwen)๊ณผ ๋ช ์์ ํ๊ทธ๊ฐ ์๋ Ollama ๋ชจ๋ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
| Model | VRAM (Q4) | Ollama tag | Best For |
|---|---|---|---|
| Qwen2-VL 2B Q4 | ~3 GB | qwen2-vl:2b | ๋น ๋ฅธ ์บก์ , ๊ฐ๋จํ OCR, ์ VRAM ๋ ธํธ๋ถ |
| Qwen2-VL 7B Q4 | ~6 GB | qwen2-vl:7b | ๊ถ์ฅ โ ๋ฌธ์ OCR, ์ด๋ฏธ์ง Q&A, ์ฐจํธ |
| Qwen2-VL 72B Q4 | ~48 GB | qwen2-vl:72b | ์ต๊ณ ํ์ง, Apple Silicon 64 GB ์ด์ ๋๋ ๋ฉํฐ GPU |
Q4_K_M์ ๊ถ์ฅ ์์ํ๋ก ์ต๊ณ ์ ํ์ง ๋ ํฌ๊ธฐ ๋น์จ์ ์ ๊ณตํฉ๋๋ค. ๋๋ถ๋ถ์ ์ฌ์ฉ์๋ Qwen2-VL 7B๋ก ์์ํด์ผ ํฉ๋๋ค: 8 GB GPU์ ๋ง์ผ๋ฉฐ ์ด ๊ฐ์ด๋์ ๋ชจ๋ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. VRAM์ด 6 GB ๋ฏธ๋ง์ธ ๊ฒฝ์ฐ์๋ง 2B ๋ชจ๋ธ๋ก ๋ด๋ ค๊ฐ์ญ์์ค. Q4๊ฐ ํ์ง์ ๋ฏธ์น๋ ์ํฅ์ ๋ํด์๋ LLM ์์ํ ์ค๋ช ์ ์ฐธ์กฐํ์ญ์์ค.
Qwen2-VL ํ๋์จ์ด ์๊ตฌ ์ฌํญ
- ์ต์ ์ฌ์ (Qwen2-VL 7B Q4): 8 GB VRAM GPU โ NVIDIA RTX 4060, RTX 3060 12 GB, ๋๋ RTX 2080.
- ์ VRAM ์ต์ (Qwen2-VL 2B Q4): 4 GB VRAM โ ๋๋ถ๋ถ์ ๋ ธํธ๋ถ GPU ๋ฐ ํตํฉ Apple Silicon์์ ์คํ ๊ฐ๋ฅ.
- ์ต๊ณ ํ์ง (Qwen2-VL 72B Q4): ~48 GB โ 64 GB ์ด์ ํตํฉ ๋ฉ๋ชจ๋ฆฌ์ Apple Silicon, ๋๋ 24 GB GPU ๋ ๊ฐ.
- Apple Silicon: 16 GB ์ด์ ํตํฉ ๋ฉ๋ชจ๋ฆฌ์ M ์๋ฆฌ์ฆ ์นฉ์ 7B ๋ชจ๋ธ์ ์ํํ ์คํ; 72B์๋ 64 GB ์ด์ ํ์.
- ์์คํ RAM: GPU ์ถ๋ก ๊ณผ ํจ๊ป ์ต์ 16 GB; ์ ์ฒด ๊ฐ๋ฐ ํ๊ฒฝ์ด ์ด๋ ค ์์ ๋ 32 GB ๊ถ์ฅ.
- ์ ์ฅ ๊ณต๊ฐ: Qwen2-VL 7B Q4 (GGUF)์ฉ ์ฝ 6 GB, 72B์ฉ ์ฝ 30 GB์ ์ฌ์ ๋์คํฌ ๊ณต๊ฐ.
๐Note: ๋น์ ๋ชจ๋ธ์ ๋์ผํ ํ๋ผ๋ฏธํฐ ์์ ํ ์คํธ ์ ์ฉ ๋ชจ๋ธ๋ณด๋ค ์ฝ 30โ60% ๋๋ฆฌ๊ฒ ์คํ๋ฉ๋๋ค. ๋น์ ์ธ์ฝ๋๋ ์ฒซ ๋ฒ์งธ ํ ํฐ์์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ์ดํ ํ ์คํธ๋ ๊ฑฐ์ ์ ์ ์๋๋ก ์์ฑ๋ฉ๋๋ค. ์ธ์ฝ๋์ ์ธ์ด ๋ชจ๋ธ ๋ชจ๋๋ฅผ ์ํ VRAM์ ํ๋ณดํ์ญ์์ค.
Ollama๋ก Qwen2-VL ์ค์
Ollama๋ Qwen2-VL์ ๋ก์ปฌ๋ก ์คํํ๋ ๊ฐ์ฅ ๋น ๋ฅธ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ๊ณ , ์์ํ๋ฅผ ๊ด๋ฆฌํ๋ฉฐ, localhost:11434์ API๋ฅผ ๋ ธ์ถํฉ๋๋ค. ollama.com์์ ์ค์นํ๊ฑฐ๋, ์ฒ์ ์ฌ์ฉํ์๋ ๊ฒฝ์ฐ Ollama ์ค์น ๋ฐฉ๋ฒ์์ ์์ํ์ญ์์ค.
- 1Ollama ์ค์น
Why it matters: Ollama๋ ๋ชจ๋ธ ๋ค์ด๋ก๋, GGUF ํ์, ๋ก์ปฌ API๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. macOS, Linux, Windows์์ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค. - 2๋ช ์์ ํฌ๊ธฐ ํ๊ทธ๋ก Qwen2-VL ๋ค์ด๋ก๋
Why it matters: qwen2-vl:7b๋ฅผ ์ฌ์ฉํ์ญ์์ค. ํ๊ทธ ์๋ qwen2-vl์ ๋ค๋ฅธ ํฌ๊ธฐ๋ก ํด์๋ ์ ์์ต๋๋ค โ ํญ์ 2b, 7b, ๋๋ 72b๋ฅผ ์ง์ ํ์ฌ ์ด ๊ฐ์ด๋์์ ๋์์ผ๋ก ํ๋ ๋ชจ๋ธ์ ๋ฐ์ผ์ญ์์ค. - 3๋ชจ๋ธ ์คํ ๋ฐ ์ด๋ฏธ์ง ์ฒจ๋ถ
Why it matters: ๋ํํ ๋ชจ๋์์ ํ๋กฌํํธ์ ์ด๋ฏธ์ง ํ์ผ ๊ฒฝ๋ก๋ฅผ ์ ๋ ฅํ์ญ์์ค. Ollama๊ฐ ๊ฒฝ๋ก๋ฅผ ๊ฐ์งํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋น์ ์ธ์ฝ๋์ ๋ก๋ํฉ๋๋ค. - 4API๋ฅผ ํตํ ์ด๋ฏธ์ง ์ ์ก
Why it matters: /api/generate ์๋ํฌ์ธํธ๋ base64๋ก ์ธ์ฝ๋ฉ๋ images ๋ฐฐ์ด์ ์์ ํฉ๋๋ค. ์ด๊ฒ์ด ์ ํ๋ฆฌ์ผ์ด์ โ ๋ฐ PromptQuorum โ ์ด ์ด๋ฏธ์ง๋ฅผ ํ๋ก๊ทธ๋๋ฐ ๋ฐฉ์์ผ๋ก ์ ์กํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. - 5๋ค๊ตญ์ด OCR ํ์ธ
Why it matters: ์ค๊ตญ์ด ๋๋ ์ผ๋ณธ์ด ๋ฌธ์ ์ค์บ์ ์ ์กํ๊ณ ์ถ์ถ๋ ํ ์คํธ๊ฐ ์ผ์นํ๋์ง ํ์ธํ์ญ์์ค. ์ด๋ฅผ ํตํด ๋น์ ์ธ์ฝ๋์ ํ ํฌ๋์ด์ ๊ฐ CJK ์คํฌ๋ฆฝํธ๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ์ฒ๋ฆฌํ๋์ง ํ์ธํ ํ ๊ตฌ์ถ์ ์งํํ ์ ์์ต๋๋ค.
# Step 1 โ Install Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows โ download from https://ollama.com/download
# Step 2 โ Pull Qwen2-VL 7B (explicit size tag)
ollama pull qwen2-vl:7b
# Downloads Qwen2-VL 7B Q4_K_M (~6 GB)
# Step 3 โ Run and attach an image (interactive)
ollama run qwen2-vl:7b
>>> Extract every line of text from ./invoice-jp.png
# Step 4 โ Send an image through the API
# Encode the image first: base64 -i scan.png (macOS)
curl http://localhost:11434/api/generate -d '{
"model": "qwen2-vl:7b",
"prompt": "Extract every line of text from this document. Preserve line breaks.",
"images": ["<base64-encoded-image>"],
"stream": false
}'
# Step 5 โ Verify multilingual OCR
ollama run qwen2-vl:7b
>>> Extract all text from this image: ./contract-zh.pngโ ๏ธWarning: ๋ฌธ์ ์ด๋ฏธ์ง๋ฅผ 150 DPI ์ด์์ผ๋ก ์ ์กํ์ญ์์ค. Qwen2-VL์ 4096ร4096๊น์ง ๋ค์ดํฐ๋ธ๋ก ์ฝ์ผ๋ฏ๋ก ๊ณ ํด์๋ ์ค์บ์ ์ง์ ์ ์ผ๋ก ์ ํ๋๋ฅผ ํฅ์์ํต๋๋ค. ํ ์คํธ ํ๋กฌํํธ์ ๋ฌ๋ฆฌ ์ด๋ฏธ์ง ํ์ง์ด OCR ๊ฒฐ๊ณผ์์ ๊ฐ์ฅ ์ค์ํ ๋จ์ผ ์์์ ๋๋ค โ ํ๋ฆฟํ ์ค์บ์ ๋ชจ๋ธ์ด ์๋ฌด๋ฆฌ ์ข์๋ ์๋ชป๋ ๋ฌธ์๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
LM Studio๋ก Qwen2-VL ์ค์
LM Studio๋ CLI ๋ช ๋ น ์์ด ๊ทธ๋ํฝ ์ธํฐํ์ด์ค๋ฅผ ํตํด Qwen2-VL์ ์คํํฉ๋๋ค. Windows ์ฌ์ฉ์ ๋ฐ GUI๋ฅผ ์ ํธํ๋ ๋ถ๋ค์๊ฒ ๊ถ์ฅ๋๋ ๊ฒฝ๋ก์ ๋๋ค. lmstudio.ai์์ ๋ค์ด๋ก๋ํ๊ฑฐ๋, LM Studio ์ค์น ๋ฐฉ๋ฒ์ ์ฐธ์กฐํ์ญ์์ค.
- 1LM Studio ๋ค์ด๋ก๋ ๋ฐ ์ค์น
Why it matters: ๋ก์ปฌ ๋ชจ๋ธ ์ถ๋ก ์ ์ํ ๋ฌด๋ฃ ํฌ๋ก์ค ํ๋ซํผ GUI. ํฐ๋ฏธ๋์ด ํ์ ์์ต๋๋ค. - 2๋ชจ๋ธ ๋ธ๋ผ์ฐ์ ์์ Qwen2-VL ๊ฒ์
Why it matters: "Qwen2-VL 7B"๋ฅผ ๊ฒ์ํ๊ณ Q4_K_M GGUF ๋น๋๋ฅผ ์ ํํ์ญ์์ค. LM Studio๋ ๋น์ ์ง์ ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์์ด์ฝ์ ํ์ํฉ๋๋ค. - 3๋ชจ๋ธ ๋ก๋ ๋ฐ ์ด๋ฏธ์ง ์ฒจ๋ถ
Why it matters: ์ฑํ ์ ๋ ฅ์ ์ด๋ฏธ์ง ์์ด์ฝ์ ํด๋ฆญํ์ฌ ์ฌ์ง์ด๋ ์ค์บ์ ์ ๋ก๋ํ์ญ์์ค. LM Studio๊ฐ ์ด๋ฅผ ๋น์ ์ธ์ฝ๋์ ์ ๋ฌํฉ๋๋ค. - 4๋ก์ปฌ ์๋ฒ ์์
Why it matters: "Start Server" ๋ฒํผ์ ๋๋ฅด๋ฉด localhost:1234์ OpenAI ํธํ API๊ฐ ๋ ธ์ถ๋ฉ๋๋ค. ๋น์ ์์ฒญ์ ํ์ค image_url ์ฝํ ์ธ ํ์์ ์ฌ์ฉํฉ๋๋ค.
// LM Studio โ OpenAI-compatible vision request (localhost:1234)
{
"model": "qwen2-vl-7b",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Extract all text from this document." },
{
"type": "image_url",
"image_url": { "url": "data:image/png;base64,<base64-encoded-image>" }
}
]
}
]
}์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํผํฉ ์ธ์ด ํ์ผ ๋ฌธ์ OCR
Qwen2-VL์ ๋ค๋ฅธ ์ด๋ค ๋ก์ปฌ ๋น์ ๋ชจ๋ธ๋ณด๋ค ์ ํํ๊ฒ ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด, ํผํฉ ์ธ์ด ๋ฌธ์์์ ํ ์คํธ๋ฅผ ์ถ์ถํฉ๋๋ค. ํ๋ จ ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ๋ค๊ตญ์ด ๋ฌธ์ ์ฝํผ์ค๊ฐ ํฌํจ๋์์ผ๋ฉฐ, 4096ร4096 ๋ค์ดํฐ๋ธ ํด์๋๋ LLaVA 1.6๊ณผ Llama 3.2 Vision์ด ๋ค์ด์ํ๋ง์ผ๋ก ๋์น๋ ์์ CJK ๋ฌธ์๋ฅผ ์ฝ์ด๋ ๋๋ค.
๊ฐ์ฅ ์ ๋ขฐํ ์ ์๋ ํจํด์ ๊ตฌ์ฒด์ ์ธ ์ถ์ถ ํ๋กฌํํธ์ ๋๋ค. "์ด๊ฒ์ ์ฝ์ด๋ผ"์ ๊ฐ์ ๋ชจํธํ ์์ฒญ ๋์ ๊ตฌ์กฐ๋ฅผ ์์ฒญํ์ญ์์ค โ "ํ ์ด๋ธ ๋ ์ด์์ ์ ์ง", "๊ฐ ํ๋๋ฅผ key: value๋ก ๋ฐํ". Qwen2-VL์ ์์ ์ง์๋ฅผ ๋ฉด๋ฐํ ๋ฐ๋ฅด๋ฏ๋ก ํ์ฒ๋ฆฌ ์์ด๋ ์ถ๋ ฅ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
Qwen2-VL๋ก CJK ๋ฌธ์์์ ํ ์คํธ๋ฅผ ์ถ์ถํ๋ ค๋ฉด 150 DPI ์ด์์ ์ด๋ฏธ์ง๋ฅผ "๊ฐ ํ๋๋ฅผ key: value๋ก ๋ฐํ"๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์์ฒญํ๋ ๊ตฌ์ฒด์ ์ธ ํ๋กฌํํธ์ ํจ๊ป ์ ์กํ์ญ์์ค.
OCR์ ํ ์คํธ ์ฌ์ง์ ํธ์ง ๊ฐ๋ฅํ ํ ์คํธ๋ก ๋ณํํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. Qwen2-VL์ ์ค์บ๋ ํ์ด์ง๋ฅผ ๋ณด๊ณ ๋ณด์ด๋ ๊ฒ์ ํ์ดํํ๋ฉฐ, ์์ด๋งํผ ์ค๊ตญ์ด์ ์ผ๋ณธ์ด ๋ฌธ์๋ ์ ์ฒ๋ฆฌํฉ๋๋ค.
- ์ผ๋ฐ ํ ์คํธ ์ถ์ถ: "์ด ์ด๋ฏธ์ง์ ๋ชจ๋ ํ ์คํธ ์ค์ ์ถ์ถํ์ญ์์ค. ์ค ๋ฐ๊ฟ๊ณผ ์ฝ๊ธฐ ์์๋ฅผ ์ ์งํ์ญ์์ค."
- ๊ตฌ์กฐํ๋ ํ๋: "์ด๊ฒ์ ์ผ๋ณธ์ด ์ฒญ๊ตฌ์์ ๋๋ค. ๊ณต๊ธ์ ์ฒด, ๋ ์ง, ์๊ณ, ์ธ๊ธ, ํฉ๊ณ๋ฅผ key: value ์์ผ๋ก ๋ฐํํ์ญ์์ค."
- ํ ์ด๋ธ ์ถ์ถ: "์ด ํ ์ด๋ธ์ CSV๋ก ์ถ์ถํ์ญ์์ค. ์ฒซ ๋ฒ์งธ ํ์ ํค๋๋ก ์ฒ๋ฆฌํ์ญ์์ค."
- ํ ๋ฒ์ ์ถ์ถ ๋ฐ ๋ฒ์ญ: "์ด ์ด๋ฏธ์ง์์ ์ค๊ตญ์ด ํ ์คํธ๋ฅผ ์ถ์ถํ ํ ์์ด๋ก ๋ฒ์ญํ์ญ์์ค. ๋ ๋ค ํ์ํ์ญ์์ค."
# Japanese invoice -> structured fields
ollama run qwen2-vl:7b
>>> This is a Japanese invoice. Extract vendor name, invoice date,
subtotal, consumption tax, and total. Return as key: value pairs.
./invoice-jp.png
# Example output:
# vendor: Sample Trading Co., Ltd.
# date: 2026-04-30
# subtotal: 84,000 JPY
# tax: 8,400 JPY
# total: 92,400 JPYโขImportant: ํญ์ ์ถ์ถ๋ ์ซ์๋ฅผ ์๋ณธ ๋ฌธ์์ ๋์กฐํ์ฌ ํ์ธํ์ญ์์ค. Qwen2-VL์ ํฌํจํ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์ ์ ํ์ง ์ค์บ์์ ์ซ์๋ฅผ ์๋ชป ์ฝ์ ์ ์์ต๋๋ค. OCR ์ถ๋ ฅ์ ์ต์ข ๊ฐ์ด ์๋ ํ์ธ์ด ํ์ํ ์ด์์ผ๋ก ์ทจ๊ธํ์ญ์์ค โ ํนํ ์ฒญ๊ตฌ์ ๋ฐ ์ฌ๋ฌด ๋ฌธ์์ ๊ฒฝ์ฐ.
์ด๋ฏธ์ง Q&A, ์คํฌ๋ฆฐ์ท ๋ถ์, ์ฐจํธ ์ฝ๊ธฐ
OCR ์ธ์๋ Qwen2-VL์ ์ฌ์ง ์ค๋ช , ์คํฌ๋ฆฐ์ท ์ง๋ฌธ ์๋ต, ์ฐจํธ ์ฝ๊ธฐ ๋ฑ ์ผ๋ฐ์ ์ธ ์ด๋ฏธ์ง ์ดํด๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ๋ช ํํ ์ ๋ ฅ์์๋ ์ ํํ๋ฉฐ, ๋ณต์กํ๊ฑฐ๋ ๋ชจํธํ ์ฅ๋ฉด์์๋ ๋ค์ ์ฝํฉ๋๋ค.
- ์ด๋ฏธ์ง Q&A: ์ฌ์ง์ ๋ํ ๊ฐ๋ฐฉํ ์ง๋ฌธ โ "์ด ์ด๋ฏธ์ง์ ๋ฌด์์ด ์์ต๋๊น?", "๋นจ๊ฐ์์ ์ ์ ์ฌ๋์ ๋ช ๋ช ์ ๋๊น?". Qwen2-VL 7B๋ ๋ช ํํ ์ฌ์ง์์ ์ ํํ๋ฉฐ, ๋ณต์กํ๊ฑฐ๋ ๋ชจํธํ ์ฅ๋ฉด์์๋ ๋ค์ ์ฝํฉ๋๋ค.
- ์คํฌ๋ฆฐ์ท ๋ฐ UI ๋ถ์: Qwen2-VL์ UI ์คํฌ๋ฆฐ์ท, ์ค๋ฅ ๋ํ ์์, ์ฑ ์ํ๋ฅผ ์ฝ์ต๋๋ค. ๊ณ ๋ฐ๋ ์ฝ๋ ์คํฌ๋ฆฐ์ท์ ๊ฒฝ์ฐ InternVL 2.5๊ฐ ํด๋น ๋ฐ์ดํฐ์ ๋ ์ง์ค์ ์ผ๋ก ํ๋ จ๋์์ผ๋ฏ๋ก, UI ๋ฐ ์ฝ๋๊ฐ ์ฃผ์ ์์ ์ธ ๊ฒฝ์ฐ ์ด๋ฅผ ์ฌ์ฉํ์ญ์์ค.
- ์ฐจํธ ๋ฐ ๊ทธ๋ํ ์ฝ๊ธฐ: Qwen2-VL์ ์ฐจํธ ๊ตฌ์กฐ์ ์ถ์ธ๋ฅผ ์ ์ค๋ช ํ์ง๋ง, ์ฐจํธ์์ ์ ํํ ์์น๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ๋ชจ๋ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์์ ์ ๋ขฐํ ์ ์์ต๋๋ค. ์ ํํ ์์น๋ ๊ธฐ์ ๋ฐ์ดํฐ์ ๋์กฐํ์ฌ ํ์ธํ์ญ์์ค.
- ๋น๋์ค ํ๋ ์: Qwen2-VL์ ์ฌ๋ฌ ํ๋ ์์ ์ํ์ค๋ก ์์ ํฉ๋๋ค โ ์ด๋น ์ฝ 1 ํ๋ ์์ ์ํ๋งํ์ฌ ์งง์ ํด๋ฆฝ์ ์์ฝํ๊ธฐ ์ํด ์ต๋ 8๊ฐ๋ฅผ ์ ์กํ์ญ์์ค.
- ๋ค์ค ์ด๋ฏธ์ง ๋น๊ต: ํ ๋ฒ์ ์์ฒญ์ ์ต๋ 8๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์ ์กํ์ฌ ๋ฒ์ ์ ๋น๊ตํ๊ฑฐ๋, ์ฐจ์ด๋ฅผ ์ฐพ๊ฑฐ๋, ์ธํธ๋ฅผ ์ผ๊ด ์ค๋ช ํ์ญ์์ค.
๐กTip: OCR, ๋ค๊ตญ์ด ๋ฌธ์, ์ผ๋ฐ ์ด๋ฏธ์ง Q&A์๋ Qwen2-VL์ ์ฌ์ฉํ์ญ์์ค. ์ฝ๋๋ UI ์คํฌ๋ฆฐ์ท์ด ์ฃผ์ ์์ ์ธ ๊ฒฝ์ฐ InternVL 2.5๋ก ์ ํํ๊ฑฐ๋, VRAM์ด 4 GB ๋ฏธ๋ง์ธ ๊ฒฝ์ฐ Moondream 2๋ก ์ ํํ์ญ์์ค.
๋ชจ๋ธ ๋น๊ต: Qwen2-VL vs LLaVA vs Llama 3.2 Vision
๋ค๊ตญ์ด OCR์ ๊ฒฝ์ฐ Qwen2-VL์ ๋ ๋ฎ์ VRAM์์ LLaVA 1.6์ ๋ฅ๊ฐํ๊ณ Llama 3.2 Vision 11B์ ๋๋ฑํ๊ฑฐ๋ ๋ฅ๊ฐํฉ๋๋ค. ์์ด ์ ์ฉ ์ฌ์ง Q&A์ ๊ฒฝ์ฐ Llama 3.2 Vision 11B๊ฐ ๋๋ฑํ๊ฒ ๊ฐ๋ ฅํ ์ ํ์ ๋๋ค. LLaVA 1.6์ ์ปค๋ฎค๋ํฐ ๋ฌธ์ ํด๊ฒฐ ๋ฆฌ์์ค๊ฐ ๊ฐ์ฅ ๋ง์ด ๋ฌธ์ํ๋ ๋ชจ๋ธ์ ๋๋ค.
| Model | VRAM (Q4) | OCR / CJK | Max Resolution | Best For |
|---|---|---|---|---|
| Qwen2-VL 7B | ~6 GB | ์ฐ์ | 4096ร4096 | ๋ค๊ตญ์ด OCR, ๊ณ ํด์๋ ์ค์บ |
| Llama 3.2 Vision 11B | ~8 GB | ์ํธ | 1120ร1120 | ์์ด ์ฌ์ง Q&A, ์ผ๋ฐ ๋ฌธ์ |
| LLaVA 1.6 7B | ~6 GB | ๋ณดํต | 672ร672 | ์ผ๋ฐ Q&A, ์ปค๋ฎค๋ํฐ ์ง์ |
| MiniCPM-V 2.6 8B | ~6 GB | ์ฐ์ | 1792ร1792 | ๋ฌธ์ OCR (์์ด ์ค์ฌ) |
| InternVL 2.5 8B | ~8 GB | ์ํธ | High | ์ฝ๋ ๋ฐ UI ์คํฌ๋ฆฐ์ท |
๋ค์ฏ ๋ชจ๋ธ ๋ชจ๋ Ollama๋ฅผ ํตํด ์คํ๋ฉ๋๋ค (InternVL 2.5๋ ์ปค๋ฎค๋ํฐ ๋น๋๋ฅผ ํตํด). Moondream 2 ๋ฐ ์ฒญ๊ตฌ์ ์ถ์ถ ๋ฒค์น๋งํฌ๋ฅผ ํฌํจํ ์ ์ฒด ๋ก์ปฌ ๋น์ ๋ชจ๋ธ ์กฐ์ฌ๋ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ ๋น๊ต๋ฅผ ์ฐธ์กฐํ์ญ์์ค. ํ์ ์ด ์๋ค๋ฉด Qwen2-VL 7B๋ถํฐ ์์ํ์ญ์์ค: 6 GB์ VRAM์ผ๋ก OCR, ๋ฌธ์, ์ผ๋ฐ Q&A๋ฅผ ๋ชจ๋ ์ฒ๋ฆฌํฉ๋๋ค.
PromptQuorum์ ๋ก์ปฌ Qwen2-VL ์ฐ๊ฒฐ
PromptQuorum์ ์ฌ๋ฌ ๋ชจ๋ธ์ ๊ฑธ์ณ ํ๋กฌํํธ๋ฅผ ๋ผ์ฐํ ํฉ๋๋ค. ๋ก์ปฌ Qwen2-VL์ ๋น์ ๋์คํจ์น ๋์์ผ๋ก ์ฌ์ฉํ๋ ค๋ฉด PromptQuorum์ ๋ก์ปฌ LLM ์๋ํฌ์ธํธ๋ฅผ Ollama ์๋ฒ๋ก ์ง์ ํ์ญ์์ค. ์ด๋ ๊ฒ ํ๋ฉด ์ด๋ฏธ์ง ์ฒ๋ฆฌ๊ฐ ์ฌ์ฉ์ ํ๋์จ์ด์ ์ ์ง๋๋ฉฐ, ํ ์คํธ ์์ ์๋ ํด๋ผ์ฐ๋ ๋ชจ๋ธ์ ๊ณ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ด๊ฒ์ Claude์ ์ฌ์ฉ๋๋ Anthropic API ๊ตฌ์ฑ๊ณผ๋ ๋ณ๊ฐ์ธ Ollama (OpenAI ํธํ) ์๋ํฌ์ธํธ์ ๋๋ค. ๋ ๊ฐ์ง๋ฅผ ๋์์ ํ์ฑํํ์ฌ PromptQuorum์ด ์์ ์ ํ ๋ฐ ๋ฐ์ดํฐ ๋ฏผ๊ฐ๋์ ๋ฐ๋ผ ๋ผ์ฐํ ํ๋๋ก ํ ์ ์์ต๋๋ค.
OLLAMA_BASE_URL์ http://localhost:11434/v1๋ก ์ค์ ํ๊ณ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์ qwen2-vl:7b๋ก ์ง์ ํ์ฌ PromptQuorum์ ๋ก์ปฌ Qwen2-VL์ ์ฐ๊ฒฐํ์ญ์์ค.
# PromptQuorum dispatch config โ local Qwen2-VL via Ollama
# Set in your .env or the PromptQuorum settings panel
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_VISION_MODEL=qwen2-vl:7b
# Example routing rules:
# - task_type: ocr / image -> qwen2-vl:7b (local Ollama, no cloud upload)
# - task_type: text -> claude-sonnet-4-6 (Anthropic API, separate config)Qwen2-VL ๋ฌธ์ ํด๊ฒฐ
- "unknown model" ์ค๋ฅ ๋๋ ๋ค์ด๋ก๋ ์คํจ: ๋ช ์์ ํฌ๊ธฐ ํ๊ทธ๋ฅผ ์ฌ์ฉํ์ญ์์ค โ `qwen2-vl`์ด ์๋ `ollama pull qwen2-vl:7b`. ์ค์น๋ ์ด๋ฆ์ ํ์ธํ๋ ค๋ฉด `ollama list`๋ฅผ ์คํํ์ญ์์ค.
- ์ด๋ฏธ์ง๊ฐ ๋ฌด์๋๊ณ ์ด๋ฏธ์ง ์์ด ๋ต๋ณํ๋ ๊ฒฝ์ฐ: ํ์ผ ๊ฒฝ๋ก๊ฐ ์ฌ๋ฐ๋ฅด๊ณ ์ฝ๊ธฐ ๊ฐ๋ฅํ์ง ํ์ธํ์ญ์์ค. Ollama API์์ `images` ๋ฐฐ์ด์ `data:` ์ ๋์ฌ ์์ด ์์ base64๋ฅผ ํฌํจํด์ผ ํฉ๋๋ค โ `data:` ์ ๋์ฌ๋ LM Studio ๋ฐ OpenAI ํ์์๋ง ํด๋นํฉ๋๋ค.
- ๊นจ์ง๊ฑฐ๋ ๋๋ฝ๋ CJK ๋ฌธ์: ์ค์บ ํด์๋๊ฐ ๋๋ฌด ๋ฎ์ต๋๋ค. 150โ300 DPI๋ก ์ฌ์ค์บํ์ญ์์ค. Qwen2-VL์ 4096ร4096๊น์ง ์ฝ์ผ๋ฏ๋ก ๋์ ์ ๋ ฅ ํด์๋๊ฐ ์ค๊ตญ์ด ๋ฐ ์ผ๋ณธ์ด ์ ํ๋๋ฅผ ์ง์ ์ ์ผ๋ก ํฅ์์ํต๋๋ค.
- CUDA out of memory: ๋ชจ๋ธ์ด VRAM์ ๋ง์ง ์์ต๋๋ค. Qwen2-VL 2B (~3 GB)๋ก ๋ด๋ ค๊ฐ๊ฑฐ๋, CPU์ GPU ๊ฐ์ ํตํฉ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ณต์ ํ๋ Apple Silicon์์ ์คํํ์ญ์์ค.
- ์ฒซ ๋ฒ์งธ ์๋ต์ ๋๋ฆฌ๊ณ ์ดํ๋ ๋น ๋ฅธ ๊ฒฝ์ฐ: ์ ์์ ๋๋ค. ๋น์ ์ธ์ฝ๋๊ฐ ์ฒซ ๋ฒ์งธ ํ ํฐ์์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ์ดํ ํ ์คํธ๋ ๊ฑฐ์ ์ ์ ์๋๋ก ์์ฑ๋ฉ๋๋ค.
- ์ฒญ๊ตฌ์๋ ์ฐจํธ์์ ์๋ชป๋ ์ซ์ ์ถ์ถ: ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ ๋ ฅ์์ ์ซ์๋ฅผ ์๋ชป ์ฝ์ต๋๋ค. ์ค์บ ํ์ง์ ๋์ด๊ณ ํญ์ ์์น ์ถ๋ ฅ์ ์๋ณธ๊ณผ ๋์กฐํ์ฌ ํ์ธํ์ญ์์ค.
- PDF๊ฐ ๋ก๋๋์ง ์๋ ๊ฒฝ์ฐ: ์ด๋ค ๋ก์ปฌ ๋น์ ๋ชจ๋ธ๋ PDF๋ฅผ ์ง์ ์์ ํ์ง ์์ต๋๋ค. pdf2image ๋๋ pypdfium2๋ฅผ ์ฌ์ฉํ์ฌ ํ์ด์ง๋ฅผ PNG ๋๋ JPEG๋ก ๋ณํํ ํ ๊ฐ ํ์ด์ง๋ฅผ ๋ณ๋์ ์ด๋ฏธ์ง๋ก ์ ์กํ์ญ์์ค.
- LM Studio์์ "failed to load model" ํ์: VRAM ๋ถ์กฑ์ด๊ฑฐ๋ ๋น์ ์ด ์๋ GGUF๋ฅผ ๋ค์ด๋ก๋ํ์ต๋๋ค. ๋ชจ๋ธ ์นด๋์ ๋น์ ์ง์์ด ๋ช ์๋์ด ์๋์ง ํ์ธํ๊ณ Q4_K_M ๋น๋๋ฅผ ์ ํํ์ญ์์ค.
๐กTip: `ollama ps`๋ฅผ ์คํํ๋ฉด VRAM์ ๋ก๋๋ ๋ชจ๋ธ๊ณผ ๊ฐ ๋ชจ๋ธ์ด ์ฌ์ฉํ๋ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค. 72B๋ก ์ ํํ๊ธฐ ์ ์ `ollama stop qwen2-vl:7b`๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ธ๋ก๋ํ์ญ์์ค.
FAQ
Qwen2-VL์ ๋ก์ปฌ๋ก ์คํํ๊ธฐ ์ํ ์ต์ ํ๋์จ์ด๋ ๋ฌด์์ ๋๊น?
Q4_K_M ์์ํ์ Qwen2-VL 7B๋ 8 GB VRAM (RTX 4060, RTX 3060 12 GB, ๋๋ RTX 2080)์ด ํ์ํฉ๋๋ค. ๋ ์์ Qwen2-VL 2B๋ 4 GB์์ ์คํ๋ฉ๋๋ค. 72B ๋ชจ๋ธ์ ์ฝ 48 GB๊ฐ ํ์ํฉ๋๋ค โ 64 GB ์ด์ ํตํฉ ๋ฉ๋ชจ๋ฆฌ์ Apple Silicon ๋๋ 24 GB GPU ๋ ๊ฐ. 16 GB ์ด์ ํตํฉ ๋ฉ๋ชจ๋ฆฌ์ Apple Silicon์ 7B ๋ชจ๋ธ์ ์ํํ ์คํํฉ๋๋ค.
Qwen2-VL์ด OCR์์ LLaVA๋ณด๋ค ๋ซ์ต๋๊น?
์, ํนํ ๋น์์ด ํ ์คํธ์์ ๊ทธ๋ ์ต๋๋ค. Qwen2-VL์ MiniCPM-V 2.6๊ณผ ๋๋ฑํ๋ฉฐ, ์ค๊ตญ์ดยท์ผ๋ณธ์ดยทํ๊ตญ์ด OCR์์ LLaVA 1.6 ๋ฐ Llama 3.2 Vision 11B๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. ๋ค์ดํฐ๋ธ 4096ร4096 ํด์๋๋ LLaVA 1.6์ด 672ร672๋ก ์ ํ๋๋ ๋์ ๋ค์ด์ํ๋ง ์์ด ๊ณ ํด์๋ ์ค์บ์ ์ฝ์ต๋๋ค. LLaVA๋ ์ฌ์ ํ ๊ฐ์ฅ ํฐ ์ปค๋ฎค๋ํฐ์ ๊ฐ์ฅ ๋ง์ ํํ ๋ฆฌ์ผ์ ๋ณด์ ํ๊ณ ์์ต๋๋ค.
Qwen2-VL์ด PDF๋ฅผ ์ง์ ์ฝ์ ์ ์์ต๋๊น?
์๋์. ์ด๋ค ๋ก์ปฌ ๋น์ ๋ชจ๋ธ๋ PDF ์ ๋ ฅ์ ์ง์ ์์ ํ์ง ์์ต๋๋ค. pdf2image ๋๋ pypdfium2๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ PDF ํ์ด์ง๋ฅผ PNG ๋๋ JPEG ์ด๋ฏธ์ง๋ก ๋จผ์ ๋ณํํ ํ, ๊ฐ ํ์ด์ง๋ฅผ ๋ณ๋์ ์ด๋ฏธ์ง ์์ฒญ์ผ๋ก ์ ์กํ์ญ์์ค. 10ํ์ด์ง PDF์ ๊ฒฝ์ฐ 10๊ฐ์ ์ด๋ฏธ์ง ์ฟผ๋ฆฌ๋ฅผ ์ ์กํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ํฉ์นฉ๋๋ค.
Ollama๋ฅผ ํตํด Qwen2-VL์ ์ด๋ฏธ์ง๋ฅผ ์ด๋ป๊ฒ ์ ์กํฉ๋๊น?
๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. ๋ํํ ๋ชจ๋ (`ollama run qwen2-vl:7b`)์์๋ ํ๋กฌํํธ์ ์ด๋ฏธ์ง ํ์ผ ๊ฒฝ๋ก๋ฅผ ์ ๋ ฅํ๋ฉด Ollama๊ฐ ์ด๋ฅผ ๊ฐ์งํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋ก๋ํฉ๋๋ค. API๋ฅผ ํตํด์๋ base64๋ก ์ธ์ฝ๋ฉ๋ `images` ๋ฐฐ์ด๊ณผ ํจ๊ป /api/generate์ POST ์์ฒญ์ ๋ณด๋ด์ญ์์ค. base64 ๋ฌธ์์ด์๋ `data:` ์ ๋์ฌ๊ฐ ํฌํจ๋์ง ์์์ผ ํฉ๋๋ค.
Qwen2-VL์ด ์์ ํ ์คํ๋ผ์ธ์ผ๋ก ์คํ๋ฉ๋๊น?
์. ์ผํ์ฑ ๋ชจ๋ธ ๋ค์ด๋ก๋ ํ Qwen2-VL์ ์ฌ์ฉ์ ๊ธฐ๊ธฐ์์ ์์ ํ ์คํ๋ฉ๋๋ค โ API ํค์ ํด๋ผ์ฐ๋ ๊ณ์ ์ด ํ์ ์์ต๋๋ค. ์ด๋ค ์ด๋ฏธ์ง๋ ์ด๋์๋ ์ ๋ก๋๋์ง ์์ ๋ฌธ์ ์ฒ๋ฆฌ๊ฐ ์ฌ์ฉ์ ์ธํ๋ผ ๋ด์ ์ ์ง๋ฉ๋๋ค. ๊ท์ ์ค์ ์๋ฏธ์ ๋ํด์๋ Qwen ๋ก์ปฌ GDPR ์ค์ ๊ฐ์ด๋๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
Qwen2-VL์ด ํ ๋ฒ์ ์ฒ๋ฆฌํ ์ ์๋ ์ด๋ฏธ์ง๋ ๋ช ๊ฐ์ ๋๊น?
์์ฒญ๋น ์ต๋ 8๊ฐ์ ์ด๋ฏธ์ง โ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ ์ค ๊ฐ์ฅ ๋์ ๋ค์ค ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์ฉ๋์ ๋๋ค. ์ด๋ก ์ธํด ๋ฌธ์ ๋ฒ์ ๋น๊ต, ์ฐจ์ด ๋ฐ๊ฒฌ, ๋๋ ์ด๋น 1 ํ๋ ์์ผ๋ก ์ํ๋ง๋ ์งง์ ๋น๋์ค ์์ฝ์ ์ ํฉํฉ๋๋ค.
Qwen2-VL ๋๋ Llama 3.2 Vision โ ์ด๋ ๊ฒ์ ์ ํํด์ผ ํฉ๋๊น?
์ค๊ตญ์ด, ์ผ๋ณธ์ด, ํ๊ตญ์ด ๋ฌธ์, ๊ณ ํด์๋ ์ค์บ, ๋๋ ์์ ๊ธ๊ผด์ ๊ฒฝ์ฐ Qwen2-VL์ ์ ํํ์ญ์์ค โ Llama 3.2 Vision 11B์ 8 GB ๋๋น 7B๊ฐ 6 GB์ VRAM์ ๋ง๊ธฐ ๋๋ฌธ์ด๊ธฐ๋ ํฉ๋๋ค. ๋ ๋ชจ๋ธ์ด ๋น์ทํ ์์ด ์ ์ฉ ์ผ๋ฐ ์ฌ์ง Q&A์๋ Llama 3.2 Vision 11B๋ฅผ ์ ํํ์ญ์์ค.
OCR ์ถ๋ ฅ์์ ๋ฌธ์๊ฐ ๊นจ์ง๋ ์ด์ ๋ ๋ฌด์์ ๋๊น?
๊ฑฐ์ ํญ์ ์ ํด์๋ ์ค์บ ๋๋ฌธ์ ๋๋ค. Qwen2-VL์ 4096ร4096๊น์ง ๋ค์ดํฐ๋ธ๋ก ์ฝ์ผ๋ฏ๋ก, 150โ300 DPI๋ก ๋ฌธ์๋ฅผ ์ฌ์ค์บํ๋ฉด ๋ณดํต ๊นจ์ง๊ฑฐ๋ ๋๋ฝ๋ ๋ฌธ์๊ฐ ์์ ๋ฉ๋๋ค. ์ ํ์ง ์ ๋ ฅ์ ๋ชจ๋ ๋ก์ปฌ ๋น์ ๋ชจ๋ธ์์ OCR ์ค๋ฅ์ ๊ฐ์ฅ ํฐ ๋จ์ผ ์์ธ์ ๋๋ค.