重要なポイント
- Llama 3.2 Vision 11Bは8〜16GB VRAMを持つ多くの開発者にとって最良のローカルビジョンモデルです。 写真、ドキュメント、混合コンテンツをクラス最高の精度で処理し、Ollamaから直接利用できます。
- MiniCPM-V 2.6(8B)は6GB VRAMでのドキュメントOCRに最適です。 高解像度ドキュメントスキャンを含むトレーニングデータにより、テーブル・請求書・密なテキストでLLaVAより高精度です。
- LLaVA 1.6 7Bは最も文書化・コミュニティテスト済みのローカルVLMです。 豊富なチュートリアルとトラブルシューティングリソースが必要な場合の最安全な汎用選択肢です。
- Moondream 2(1.9B)は4GB VRAM未満での唯一の実用的な選択肢です。 高速・軽量ですが、複雑なシーン・密なテキスト・精密なグラフ読み取りは苦手です。
- InternVL 2.5(8B)はコードスクリーンショットとUI分析に最強です。 GitHubスクリーンショット・UIモックアップ・コード実行出力を含むトレーニングデータを使用しています。
- **すべてのモデルはOllamaで単一の
pullコマンドで利用可能です。** モデル変換・量子化・Python設定は不要です。 - これらのモデルはいずれもGPT-4o Visionの品質には達しません。 2026年のローカルVLMは強力なTier-2の選択肢 — 構造化ドキュメントと明確な写真には優れていますが、手書きや複雑なインフォグラフィックスには弱点があります。
基本情報
- VLMの機能: 画像+テキスト入力 → テキスト出力。画像生成器ではなく、画像を*理解する*モデルです。
- Ollamaサポート: この比較の全モデルが2026年5月時点で公式またはコミュニティのOllama統合を持っています。
- 最小の実用モデル: Moondream 2(1.9Bパラメータ、〜2GB VRAM)。
- 最大の実用ローカルモデル: Llama 3.2 Vision 90B(〜64GBユニファイドメモリ、Apple M-SeriesまたはマルチGPU)。
- 画像入力形式: JPEG、PNG、WebP。最大解像度はモデルによって異なります(通常1024×1024〜4096×4096)。
- OCR精度: Qwen2-VL 7B ≈ MiniCPM-V 2.6 > Llama 3.2 Vision 11B > LLaVA 1.6 13B > LLaVA 1.6 7B > Moondream 2。
- マルチモーダル = 低速: ビジョンモデルはLLMにビジョンエンコーダーを追加するため、同サイズのテキストのみモデルより〜30〜60%遅くなります。
ビジョン言語モデル(VLM)とは?
ビジョン言語モデル(VLM)は画像とテキスト入力を同時に処理してテキスト出力を生成するニューラルネットワークです。標準的なアーキテクチャは、ビジョンエンコーダー(通常CLIPまたはSigLIP)と言語デコーダー(LLM)を投影層で接続し、画像特徴をLLMが理解するトークン空間にマッピングします。
- 画像生成器との違い: Stable Diffusion、FLUX、DALL-E 3はテキストから画像を生成します。VLMは画像からテキストへのモデルで、画像を説明・分析・回答します。
- OCRツールとの違い: 従来のOCR(Tesseract)はパターン認識でテキストを抽出します。VLMはコンテキストを理解し、テーブルの意味を説明したり、グラフに関する質問に答えたりできます。
- ローカル実行の理由: プライベートドキュメント(医療記録・法的スキャン・財務諸表)、独自スクリーンショット、または画像をクラウドAPIに送信することにコンプライアンス上の懸念があるワークフロー。
- できないこと: 画像生成、スクリーンショット内のコード実行、インターネットアクセス。VLMは画像に見えるものに基づいてテキスト出力のみを生成します。
利用可能なローカルビジョンモデル — 比較表
2026年5月時点でOllamaまたは直接推論で利用可能な主要ローカルビジョンモデルの比較。VRAM値は特に記載がない限り4ビット量子化(Q4)バリアントの値です。
📍 一文で説明
6〜8GB VRAMの場合:ドキュメントOCRにはMiniCPM-V 2.6、一般的な画像Q&AにはLlama 3.2 Vision 11B — 両方ともOllama経由でローカル実行可能。
💬 簡潔に説明
Moondream:どこでも動く軽量オプション。LLaVA:安全な汎用選択肢。MiniCPM-V:OCRスペシャリスト。Llama 3.2 Vision:全体的に最高。InternVL:UI/コードスクリーンショットエキスパート。
| モデル | パラメータ | VRAM (Q4) | 画像タイプ | 品質 | Ollama対応? |
|---|---|---|---|---|---|
| Moondream 2 | 1.9B | 〜2GB | シンプルな写真 | 基本的 | 対応 |
| LLaVA 1.6 7B | 7B | 〜6GB | 写真・ドキュメント・グラフ | 良好 | 対応 |
| LLaVA 1.6 13B | 13B | 〜10GB | 写真・ドキュメント・グラフ | 非常に良好 | 対応 |
| MiniCPM-V 2.6 | 8B | 〜6GB | 写真・ドキュメント・OCR | 非常に良好 | 対応 |
| Llama 3.2 Vision 11B | 11B | 〜8GB | 写真・ドキュメント | 優秀 | 対応 |
| Llama 3.2 Vision 90B | 90B | 〜64GB | 写真・ドキュメント・複雑 | ローカル最高 | 対応 |
| InternVL 2.5 8B | 8B | 〜8GB | ドキュメント・グラフ・UI・コード | 優秀(UI/グラフ) | コミュニティ |
| Qwen2-VL 7B | 7B | 〜6GB | 写真・ドキュメント・OCR・多言語 | 優秀 | 対応 |
| Qwen2-VL 72B | 72B | 〜48GB | 写真・ドキュメント・複雑 | オープンソース最高 | 対応 |
| PaliGemma 2 3B | 3B | 〜3GB | 写真・ドキュメント | 良好 | コミュニティ |
| SmolVLM 2.2B | 2.2B | 〜2GB | シンプルな写真・キャプション | 基本的+ | コミュニティ |
実用精度テスト:請求書抽出
構造化ドキュメント抽出タスクにおけるローカルビジョンモデルの精度比較。テスト:同一のサンプル請求書から5フィールド(ベンダー名、日付、合計、税額、行項目数)を抽出。
| モデル | ベンダー | 日付 | 合計 | 税額 | 行項目 | スコア |
|---|---|---|---|---|---|---|
| Moondream 2 | ✓ | ✓ | ✗ | ✗ | ✗ | 2/5 |
| LLaVA 1.6 7B | ✓ | ✓ | ✓ | ✗ | ✓ | 4/5 |
| MiniCPM-V 2.6 | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
| Qwen2-VL 7B | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
| Llama 3.2 11B | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
| GPT-4o Vision | ✓ | ✓ | ✓ | ✓ | ✓ | 5/5 |
📌Note: 単一のテスト請求書による結果です。精度はドキュメント品質・フォント・レイアウトの複雑さによって異なります。抽出した数値は必ず元のドキュメントと照合してください。
マルチ画像サポート
1回のリクエストで複数の画像を受け付けないローカルVLMもあります。マルチ画像サポートは複数ページのPDF処理や視覚的な比較タスクに重要です。
- MiniCPM-V 2.6は1プロンプトで最大4枚の画像を受け付け、Qwen2-VLは最大8枚に対応。LLaVAとMoondreamは1リクエストにつき1枚のみです。
- マルチ画像が重要な場面: 複数ページのPDFの全ページを送信して完全なドキュメント抽出、2つの商品写真を並べて比較、1つのプロンプトでビフォー・アフターのスクリーンショットを分析。
| 機能 | Moondream | LLaVA 7B | MiniCPM-V | Qwen2-VL | LLaVA 13B | Llama 3.2 Vision | InternVL |
|---|---|---|---|---|---|---|---|
| マルチ画像入力 | 非対応 | 非対応 | 対応(最大4枚) | 対応(最大8枚) | 非対応 | 対応(複数ページ) | 対応 |
Ollamaセットアップ — ステップバイステップ
Ollamaはローカルビジョンモデルを実行する最も簡単な方法です。インストール後、単一のpullコマンドでビジョンモデルが利用可能になります。
- ステップ1 — Ollamaをインストール: macOS・Linux・Windows用をollama.comからダウンロード。インストールは2分以内。
- ステップ2 — ビジョンモデルをダウンロード:
ollama pull llama3.2-vision(11B、〜8GBダウンロード)またはVRAMが少ない場合はollama pull moondream(1.9B、〜2GB)。 - ステップ3 — CLIで使用:
ollama run llama3.2-vision "この画像に何がありますか?" --image /path/to/photo.jpg - ステップ4 — HTTP APIで使用:
http://localhost:11434/api/generateにPOSTし、images配列にBase64エンコードされた画像を含める。 - ステップ5 — Pythonの例: Base64エンコーディングで
requestsライブラリを使用 — 以下のコードブロックを参照。
import base64
import requests
def ask_vision_model(image_path: str, prompt: str, model: str = "llama3.2-vision") -> str:
with open(image_path, "rb") as f:
image_b64 = base64.b64encode(f.read()).decode("utf-8")
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": model,
"prompt": prompt,
"images": [image_b64],
"stream": False,
},
)
return response.json()["response"]
# 使用例
result = ask_vision_model("invoice.png", "この請求書からすべての行項目と合計金額を抽出してください。")
print(result)ユースケース1:ドキュメントOCRと抽出
VLMは半構造化ドキュメントで従来のOCRを上回ります — レイアウトとテキストが同様に重要な請求書・レシート・契約書・テーブルなど。
- うまく機能するもの: スキャンした請求書・PDFスクリーンショット・手書きのブロック体メモ・明確な境界線のあるテーブル・名刺。
- うまく機能しないもの: 手書きの草書体・150DPI未満のスキャン・高圧縮JPEG・重なり合うテキスト。
- OCRに最適なモデル: MiniCPM-V 2.6(6GBクラスで最高のOCR精度)、Llama 3.2 Vision 11B(混合ドキュメントタイプに最適)。
- OCR向けプロンプトエンジニアリング: 「このドキュメントのすべてのテキストを改行を保持して正確に抽出してください。」または「この請求書の内容をJSONで返してください(フィールド:ベンダー、日付、行項目[]、合計)。」
- 従来のOCRとの比較: VLMは低速ですが意味的に強力です。クリーンなドキュメントの純粋なテキスト抽出にはTesseractが高速です。構造化データ抽出が必要な場合はVLMを使用。
ユースケース2:画像Q&Aと説明
一般的なシーン理解・商品説明・視覚的Q&Aには、Llama 3.2 Vision 11Bが推奨されるローカルモデルです。
- シーン説明: 「この写真には何がありますか?」— オブジェクト・人物・活動・設定・雰囲気。
- 商品カタログ化: プロンプトテンプレートで商品写真を処理:「この商品を説明してください:色・形・素材・状態。」クラウドAPIなしでECインベントリに有用。
- アクセシビリティ: 大規模に画像のaltテキストを生成。
- 最適なモデル: LLaVA 1.6 13BまたはLlama 3.2 Vision 11B(一般的な写真Q&A)。LLaVA 1.6 7B(速度が精度より重要な大量処理)。
- 速度の考慮: 6GB GPUでLlama 3.2 Vision 11B Q4は〜8〜12トークン/秒 — 100枚の画像処理に〜2〜5分かかります。
ユースケース3:スクリーンショットとUI分析
アプリケーションのスクリーンショット・エラーメッセージ・ダッシュボードの分析には、InternVL 2.5が最強のローカルモデルです。
- 開発者ワークフロー: エラーメッセージのスクリーンショットをモデルに送る:「このスクリーンショットの何が問題で、どう修正しますか?」
- バグレポート生成: 構造化プロンプトを使ってスクリーンショットから自動的にバグレポートの説明を生成。
- ダッシュボードモニタリング: モニタリングダッシュボードのスクリーンショットを分析して異常を検出。
- アクセシビリティテスト: UI変更前後のスクリーンショットを比較して視覚的アクセシビリティを確認。
- 最適なモデル: InternVL 2.5 8B(最高のUI理解)、MiniCPM-V 2.6(2番目に良く、Ollamaサポートあり)。
ユースケース4:グラフとチャートの読み取り
棒グラフ・折れ線グラフ・テーブルからデータを抽出することは可能ですが、慎重なプロンプティングが必要です。 すべてのローカルVLMはグラフ読み取りで写真説明より弱く、抽出した数値は必ずソースデータと照合してください。
- 機能するもの: 軸ラベルの読み取り・傾向の特定・相対的なバーの高さの比較・明確なフォントのテーブル値の読み取り。
- 信頼性が低いもの: 連続グラフからの精密な数値抽出・ラベルなしの円グラフのパーセンテージ。
- プロンプト戦略: 「この折れ線グラフに示されている傾向を説明してください」は「2026年3月の正確な値は?」より効果的。
- グラフに最適なモデル: InternVL 2.5(最高のグラフ理解)、Llama 3.2 Vision 11B(明確にラベルされたグラフに良好)。
- 制限の注意: 2026年時点で、視覚的に複雑なグラフから精密な数値を確実に抽出できるローカルVLMはありません。
ユースケース5:動画フレーム分析
ローカルビジョンモデルは個別フレームを処理することで動画を分析できます — ffmpegでフレームを抽出し、ビジョンモデルで処理し、テキストLLMでフレーム全体をサマリー。リアルタイムではなく、モデルとハードウェアに応じて1フレームあたり0.5〜3秒かかります。
- フレーム抽出:
ffmpeg -i video.mp4 -vf fps=1 frames/frame_%04d.jpg(1fpsで抽出) - フレームごとの分析: 一貫したプロンプトで各フレームをビジョンモデルに送信(例:「このフレームで起きていることを1文で説明してください」)。
- クロスフレームのサマリー: すべてのフレーム説明を収集してテキストLLMにサマリープロンプトと共に渡す。
- ユースケース: セキュリティカメラレビュー(異常なアクティビティのフレームにフラグ)、講義録画分析(スライドごとのノート生成)、製造品質検査(欠陥のあるフレームにフラグ)。
- 動画フレームに最適なモデル: Llama 3.2 Vision 11B(品質)、LLaVA 1.6 7B(速度・高フレームスループット)。
- 速度の現実: RTX 4070で1秒/フレームの推論では、10分の動画の完全処理に〜20〜30分かかります。
import base64
import subprocess
import os
import requests
def extract_frames(video_path: str, output_dir: str, fps: int = 1) -> list[str]:
os.makedirs(output_dir, exist_ok=True)
subprocess.run([
"ffmpeg", "-i", video_path,
"-vf", f"fps={fps}",
f"{output_dir}/frame_%04d.jpg",
"-y"
], check=True)
return sorted([
os.path.join(output_dir, f)
for f in os.listdir(output_dir)
if f.endswith(".jpg")
])
def analyze_frame(image_path: str, model: str = "llama3.2-vision") -> str:
with open(image_path, "rb") as f:
image_b64 = base64.b64encode(f.read()).decode("utf-8")
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": model,
"prompt": "Describe what is happening in this frame in one sentence.",
"images": [image_b64],
"stream": False,
},
)
return response.json()["response"]
frames = extract_frames("lecture.mp4", "frames/", fps=1)
descriptions = [analyze_frame(f) for f in frames]
print("\n".join(f"[{i+1}s] {d}" for i, d in enumerate(descriptions)))VRAMとパフォーマンスの現実
ローカルビジョンモデルはベースLLMにビジョンエンコーダーを追加するため、テキストのみのモデルと比べてVRAM要件と推論時間の両方が増加します。
| モデル | VRAM (Q4) | トークン/秒 (RTX 4070) | トークン/秒 (M5 Pro 36GB) | 本番対応? |
|---|---|---|---|---|
| Moondream 2 (1.9B) | 〜2GB | 〜25〜35 | 〜30〜40 | はい — 単純なタスクに |
| LLaVA 1.6 7B | 〜6GB | 〜15〜20 | 〜18〜25 | はい — 汎用 |
| MiniCPM-V 2.6 (8B) | 〜6GB | 〜12〜18 | 〜15〜20 | はい — OCRとドキュメント |
| Llama 3.2 Vision 11B | 〜8GB | 〜10〜14 | 〜12〜16 | はい — 最高品質 |
| LLaVA 1.6 13B | 〜10GB | 〜8〜12 | 〜10〜14 | はい — 12GB GPUで |
| Llama 3.2 Vision 90B | 〜64GB | N/A(マルチGPUまたはM-Max) | N/A(M5 Max 128GB+が必要) | ハイエンドApple Siliconのみ |
📌Note: ビジョンモデルのトークン生成速度は、ビジョンエンコーダーが最初の画像トークンで大きな計算オーバーヘッドを追加するため、同サイズのテキストのみモデルより遅くなります。
📌Note: Apple Siliconのユニファイドメモリにより、ディスクリートGPU VRAMに収まらない大きなモデル(M5 Max 128GBで最大90B)を実行できます。NVIDIA GPUと比べて若干遅いですが、VRAM制限がありません。
ローカルVLM vs GPT-4o Vision比較
ローカルVLMは構造化ドキュメントでのギャップを大幅に縮めましたが、複雑で曖昧なタスクではGPT-4o Visionに後れを取っています。
- 構造化ドキュメント(請求書・フォーム): ローカルモデルはGPT-4o品質の80〜90% — クリーンでフォーマットが整ったドキュメントなら本番使用に十分。
- 複雑なシーン・曖昧な画像: ローカルモデルはGPT-4oの50〜70% — 珍しいコンテキスト・照明・曖昧なコンテンツで明確な品質差。
- 手書き認識: ローカルモデルは特に草書体で著しく弱い。GPT-4o Visionは手書きを大幅に良く処理。
- グラフデータ抽出: 両方で信頼性が低いが、GPT-4oは正確な数値でより精確。
- コスト: GPT-4o Vision:1枚あたり$0.01〜$0.03 vs ローカルは$0。月10,000枚 = $100〜$300の節約。
- プライバシー: ローカルモデルはデバイス上で画像を処理 — データが外部に送信されない。GPT-4oは画像をOpenAIサーバーに送信。
- 速度: ローカルモデル10〜20トークン/秒 vs GPT-4o 30〜80トークン/秒、ただしローカルはバッチ処理でネットワーク遅延なし。
📌Note: クリーンな入力での請求書・フォーム処理なら、ローカルVLM(Llama 3.2 Vision 11B、Qwen2-VL 7B)がGPT-4o Visionをゼロコストで代替できます。手書きや複雑なシーン分析にはGPT-4oが依然として優位です。
LLaVA詳細解説
LLaVA(Large Language and Vision Assistant)は基盤となるオープンソースVLMアーキテクチャです。 2023年にウィスコンシン大学マディソン校とMicrosoft Researchによって公開されました。
- アーキテクチャ: CLIP ViT-L/14ビジョンエンコーダー + Llama-2またはMistralテキストデコーダー、シンプルな線形投影層で接続。
- LLaVA 1.5 vs 1.6: バージョン1.6(2024年初頭)は動的パッチングによる高解像度入力サポートを追加し、OCRとグラフ読み取り精度を大幅に向上。
- トレーニング: LLaVA-Instruct-150Kでインストラクションチューニング — 画像キャプションと物体検出アノテーションから生成された視覚的会話データセット。
- 強み: 幅広い一般知識・充実したドキュメント・大きなコミュニティ・豊富なOllama統合。
- 弱み: MiniCPM-V 2.6よりOCRが弱く、InternVL 2.5よりUI分析が劣り、Llama 3.2 Vision 11Bに品質ベンチマークで全体的に上回られている。
- それでも推奨される理由: すべてのローカルVLMの中で最大のコミュニティ・最多のチュートリアル・最多のプロンプト例を持つ。問題が発生した時にサポートが見つけやすい。
Qwen2-VL — 最高の多言語OCR性能
Qwen2-VLはAlibabaのビジョン言語モデルで、2026年のドキュメントベンチマークで最強のオープンソース選択肢です。
- アーキテクチャ: 4096×4096までの動的解像度サポート — LLaVA 1.6(672×672)やLlama 3.2 Vision(1120×1120)より大幅に高い。高DPIスキャンをダウンサンプリングなしで読み取り可能。
- 多言語OCR: 中国語・日本語・韓国語・英語のOCRでクラス最高。大規模な多言語ドキュメントコーパスを含むトレーニングデータが、非英語ドキュメントでLLaVAやLlama 3.2 Visionに対して大きな優位性をもたらす。
- 7B vs 72B: 7Bは〜6GB VRAM(Q4)に収まり、ほとんどのドキュメントタスクでLlama 3.2 Vision 11Bと競争力があります。72Bは〜48GBを使用し、ほとんどのオープンソースベンチマークをリードしています。
- Ollamaインストール:
ollama pull qwen2-vl:7b— Ollamaモデルライブラリから直接利用可能。 - マルチ画像サポート: 1リクエストで最大8枚 — この比較で最高のマルチ画像容量。
- モデルページ: Hugging FaceのQwen2-VL 7B
ビジョンモデルの選び方
VRAMを最初の基準にしたローカルビジョンモデル選択のデシジョンツリー:
📍 一文で説明
まずVRAMで選択(2→4→6→8→16GB)、次にユースケースで絞り込む(OCR・UI・一般Q&A・最高品質)。
💬 簡潔に説明
4GB未満:Moondreamのみ。6GB:ドキュメントにはMiniCPM-V、写真にはLLaVA 7B。8〜16GB:ほぼすべてにLlama 3.2 Vision 11B。64GB以上:最高品質にLlama 3.2 Vision 90B。
- 4GB未満のVRAM: 2GBではMoondream 2(1.9B)のみ。PaliGemma 2(3B)とSmolVLM(2.2B)も選択肢 — PaliGemma 2はわずかに多いVRAM(〜3GB)でMoondreamより優れたドキュメント理解。SmolVLMは品質を犠牲にして極端な効率を実現。密なテキストOCRには不向き。
- 6GB VRAM: ドキュメントOCRと請求書処理にはMiniCPM-V 2.6。コミュニティサポートが重要な一般写真Q&AにはLLaVA 1.6 7B。多言語OCRまたは最高精度が必要な場合はQwen2-VL 7B。
- 8〜16GB VRAM: Llama 3.2 Vision 11Bが明確な推奨 — このVRAM層での最高品質、幅広いOllamaサポート。
- 16GB以上のVRAM: LLaVA 1.6 13B(7Bバリアントより複雑なシーン理解に対応)。主なユースケースがUIやコードスクリーンショットならInternVL 2.5 8B。
- 64GB以上のユニファイドメモリ(Apple M-Max/Ultra、マルチGPU): ドキュメントタスクでクラウドレベルに近いLlama 3.2 Vision 90B。最高のオープンソースベンチマークスコアを持つQwen2-VL 72Bも選択肢。
- 数値は必ず検証: モデルに関わらず、グラフやテーブルから抽出した数値は必ずソースデータと照合。ローカルVLMは視覚的グラフから精密な数値を幻覚することがあります。
よくある質問
LLaVAやLlama 3.2 VisionはOllamaなしで使えますか?
はい。llama.cpp(ビジョンサポート付き)、transformersライブラリ(適切なモデルカード使用)、またはLM Studio(ビジョンモデルのGUI付き)を使って直接実行できます。Ollamaはシンプルさのために推奨されます。
Llama 3.2 VisionはPDF入力を直接サポートしていますか?
PDFを直接受け付けるローカルVLMはありません。まずPDFページを画像に変換(pdf2image、pypdfium2等)し、各ページを別個の画像リクエストとして送信する必要があります。
ローカルビジョンモデルはGPT-4o Visionとどう比較されますか?
GPT-4o Visionは曖昧なシーン・手書き・複雑なインフォグラフィックスで依然として大幅に優れています。Llama 3.2 Vision 11Bは構造化ドキュメントでGPT-4oに近づきますが、曖昧な画像での推論には後れを取ります。コスト・プライバシー・速度の詳細な比較は上記を参照してください。
ローカルVLMはどの画像解像度をサポートしていますか?
LLaVA 1.6は動的パッチングで最大672×672。MiniCPM-V 2.6は最大1792×1792 — 高DPIドキュメントスキャンでLLaVAを上回る理由の一つ。Llama 3.2 Visionは最大1120×1120の可変解像度。最良のOCR結果のためにドキュメント画像は150+ DPIで送信してください。
ローカルビジョンモデルを独自の画像でファインチューニングできますか?
はい、ただしVLMのファインチューニングはテキストのみのLLMより資源集約的です。LLaVAのファインチューニングはオリジナルのトレーニングコードベースを使って文書化されています。MiniCPM-VはHugging Faceの公式スクリプトでファインチューニングをサポート。ほとんどのユースケースにはプロンプトエンジニアリングだけで十分です。
8GB VRAMに最適なローカルビジョンモデルは?
Llama 3.2 Vision 11B(Q4量子化で〜8GBに収まる)が一般使用に最適。多言語OCRが主な用途なら Qwen2-VL 7B。両方ともOllamaで単一コマンドで利用可能。
LLaVA vs MiniCPM-V — OCRにはどちらが優れていますか?
MiniCPM-V 2.6はドキュメントOCR、特に密なテーブルと高DPIスキャンでより精確。LLaVA 1.6はより文書化されていてコミュニティサポートが充実。純粋なOCR精度にはMiniCPM-V。コミュニティリソースとトラブルシューティングにはLLaVAを選択。
ローカルビジョンモデルは手書きを読めますか?
活字体の手書き(ブロック体):Llama 3.2 Vision 11BとMiniCPM-V 2.6で中程度の精度で認識可能。草書体:すべてのローカルモデルで信頼性が低い。GPT-4o Visionは草書体で大幅に優れています。草書体ドキュメントの本番手書きOCRにはクラウドAPIが依然として推奨されます。
参考資料
- LLaVAプロジェクトページ — LLaVA 1.5・1.6モデルカード、アーキテクチャの詳細、トレーニングデータセットの説明。
- Hugging FaceのLlama 3.2 Vision — Metaの公式モデルリリース、モデルカード、ベンチマーク値。
- Hugging FaceのMiniCPM-V 2.6 — OpenBMBモデルカード、OCRベンチマーク、ファインチューニング手順。
- GitHubのMoondream — アーキテクチャの説明、推論スクリプト、モデルダウンロード。
- Hugging FaceのInternVL 2.5 — OpenGVLabモデルカード、ドキュメントとUIタスクのベンチマーク。
- Ollamaドキュメント — ビジョンモデルサポート、APIリファレンス、モデルライブラリ。
- Hugging FaceのQwen2-VL — AlibabaのQwen2-VLモデルカード、アーキテクチャの詳細、多言語OCRベンチマーク。
- Hugging FaceのPaliGemma 2 — GoogleのPaliGemma 2 3Bモデルカード。
- Hugging FaceのSmolVLM — HuggingFaceのSmolVLMモデルカードと推論手順。