クイック回答
クラウド利用では:GPT-4oが一般タスクをリード、Claude 3.7 Sonnetが長文書とコーディング、Gemini 2.5 Proがマルチモーダルタスクを担当。ローカルでは:40GB以上のVRAMがあればLlama 3.1 70BまたはQwen 2.5 72B(Q4)、12GB VRAMならQwen 2.5 14B。
更新: 2026-05
重要なポイント
2026年5月時点で、GPT-4oはMMLUスコア約88%で汎用ReasoningとInstruction Followingにおいてクラウドモデルをリードし、Claude 3.7 SonnetはSWE-benchスコア約49%でコーディングと長文書タスクのトップを保持しています。 Gemini 2.5 Proは画像分析や動画理解などのネイティブマルチモーダルタスクでリードしています。
すべてのベンチマークを制する単一のクラウドモデルは存在しません。GPT-4oは多様な日常タスクで最も安定した結果を生み出します。Claude 3.7 Sonnetはソフトウェアエンジニアリングタスク、100K+トークンの文書分析、または長い推論チェーンが必要なワークフローにおいてより明確な選択肢です。
Gemini 2.5 Proはネイティブな動画理解が組み込まれた唯一のクラウドモデルです。純粋なテキストやコードのタスクでは、GPT-4oとGemini 2.5 Proの品質差はわずかであり、価格とレイテンシが重要になることが多いです。
| カテゴリ | モデル | 主な強み |
|---|---|---|
| クラウド汎用 | GPT-4o | Reasoning + 命令追従 |
| クラウドコーディング | Claude 3.7 Sonnet | SWE-bench ~49%、長文脈 |
| ローカル(12 GB VRAM) | Qwen 2.5 14B Q4 | 最高の品質/VRAM比 |
| ローカル(6 GB VRAM) | Llama 3 8B Q4 | スピード + 効率 |
クラウドモデルはAPIキーが必要でトークンごとに課金されます — GPT-4oは入力トークン100万件あたり約5ドル、出力トークン100万件あたり約15ドルのコストがかかります。ハードウェアの初期費用はかからず、最新モデルバージョンへすぐにアクセスできます。
ローカルモデルはハードウェア投資後は完全無料で動作します。 Q4_K_M量子化のQwen 2.5 14Bは12GB VRAMが必要で、12〜18か月前の中程度のクラウドモデルと競合できる出力品質を提供します。40GB以上のVRAMシステムでは、Llama 3.1 70BまたはQwen 2.5 72B Q4が現行クラウドフラグシップモデルの品質に近づきます。
特定のハードウェアで最も動作するオープンソースモデルの詳細な比較については、Ollama向けトップオープンソースモデルガイドをご覧ください。