重要なポイント
- マルチモーダル = テキスト + 画像 (+ オーディオ)。 OCR前処理なしで画像をネイティブに処理します。
- 最適なモデル (2026年): Llama 3.2 Vision 11B、Qwen2-VL 7B、Gemma 3 Vision 9B。
- 使用例: ドキュメントOCR、画像分析、視覚的Q&A、表抽出。
- 速度: 画像あたり2-5秒(11Bモデル)。テキストのみより遅いが実用的。
- 2026年4月現在、マルチモーダルは特定の使用例に成熟していますが、まだ汎用的ではありません。
利用可能なマルチモーダルモデル (2026年4月)
| モデル | 画像サポート | VRAM | 画像あたりの速度 | 最適用途 |
|---|---|---|---|---|
| Llama 3.2 Vision 11B | はい | 8 GB | — | 汎用ビジョン |
| Qwen2-VL 7B | はい | 5 GB | — | 高速ビジョン |
| Gemma 3 Vision 9B | はい | 6 GB | — | バランス型 |
| Llama 3.2 Vision 90B | はい | 55 GB | — | 高品質 |
ビジョン機能
マルチモーダルモデルは以下が可能です:
- 画像説明: 画像に何が含まれているかを説明します。
- OCR (光学文字認識): 画像からテキストを抽出 (名刺、スキャンドキュメント)。
- 視覚的Q&A: 画像についての質問に回答 (「車のブランドは何ですか?」)。
- 表抽出: 画像から表を構造化データに変換。
- グラフ分析: データビジュアライゼーションを解釈。
- 物体検出: 画像内の物体を識別して配置。
セットアップと使用
Ollama でLlama 3.2 Visionを使用:
# Pull the model
ollama pull llama3.2-vision:11b
# Use it
from ollama import Client
client = Client()
with open("image.jpg", "rb") as f:
image_data = f.read()
response = client.generate(
model="llama3.2-vision:11b",
prompt="Describe this image",
images=[image_data] # Pass image data
)
print(response["response"])実世界の使用例
- ドキュメント処理: 外部OCRサービスなしでスキャンされたPDFからテキストを抽出。
- コンテンツモデレーション: クラウドに送信せず不適切な画像にフラグを立てます。
- アクセシビリティ: 視覚障害者ユーザーのために画像を説明。
- 製品分析: eコマースで製品画像を分析 (カテゴリー、状態、欠陥)。
- 研究: 科学図表やダイアグラムを分析。
パフォーマンスと制限
精度: ドキュメントOCRと説明には適していますが、詳細な分析や小さな物体には完全ではありません。
速度: 画像あたり2-5秒。クラウドモデル (GPT-4 Vision) は10-50倍高速です。
画像サイズ: 最大 ~1000×1000ピクセルをサポート。より大きな画像はダウンサンプリングされます。
制限: 複雑なシーンではGPT-4 Vision精度と同等にはできません。トレードオフ: プライバシー対品質。
よくある間違い
- GPT-4 Visionの精度を期待する。 ローカルモデルは20-30%精度が低い。汎用ビジョンではなく、特定の領域に使用します。
- 画像を準備しない。 画像をフォーカス領域にトリミングします。ノイズを除去します。入力が良い = 出力が良い。
- 複雑なビジョンに7Bモデルを使用する。 小さいモデルは微細な詳細で苦しみます。信頼できるビジョンには11B+を使用します。
ソース
- Llama 3.2 Vision Model Card -- huggingface.co/meta-llama/Llama-3.2-11B-Vision
- Qwen2-VL -- github.com/QwenLM/Qwen2-VL