重要なポイント
- コーディング:Qwen3はすべてのサイズで勝つ----72Bで87% HumanEval、32Bで79%、7Bで72%。
- 一般的推論:Llama 3.3 70BとQwen3 72Bはほぼ同等;Llama 3.xは英語が強く、Qwenは多言語が強い。
- 効率(RAM 1 GBあたりの品質):Mistral Small 3.1 24Bはわずか14 GB RAMでほぼ70B品質を提供。
- 英語以外の言語:Qwen3は29言語をネイティブにサポート;LlamaとMistralは主に英語最適化。
- 8 GB RAMの初心者:Llama 4 3BまたはMistral 7Bは最も文書化され、コミュニティに支持された選択肢。
モデルファミリー概要:Qwen、Llama、Mistral
| ファミリー | 開発者 | 利用可能なサイズ | ライセンス |
|---|---|---|---|
| Qwen3 | Alibaba | 0.5B、1.5B、3B、7B、14B、32B、72B | Apache 2.0(ほとんど) |
| Llama 3.x | Meta | 1B、3B、8B、70B | Llama Community(カスタム) |
| Mistral | Mistral AI | 7B、Small 3.1(24B)、Large(123B) | Apache 2.0(7B、Small) |
ベンチマーク比較:Qwen3 vs Llama 3.x vs Mistral
| モデル | MMLU | HumanEval | MATH | RAM (Q4_K_M) |
|---|---|---|---|---|
| Qwen3 72B | 84% | 87% | 83% | 43 GB |
| Llama 3.3 70B | 82% | 88% | 77% | 40 GB |
| Mistral Small 3.1 24B | 79% | 74% | 65% | 14 GB |
| Qwen3 32B | 83% | 79% | 79% | 20 GB |
| Qwen3 14B | 79% | 75% | 70% | 9 GB |
| Llama 3.2 3B | 73% | 72% | 51% | 5.5 GB |
| Mistral 7B v0.3 | 64% | 39% | 28% | 4.5 GB |
| Qwen3 7B | 74% | 72% | 52% | 4.7 GB |
Qwen3:コーディング、数学、非英語言語に最適
AlibabaのQwen2 .5は、構造化出力タスク用の最強のモデルファミリーです。比較可能なすべてのサイズティアでHumanEvalを先導します(70Bを除く、Llama 3.3が1%上回る)。各サイズでMATHスコアはLlamaより6~10ポイント高い。
強み:コーディング(Python、JavaScript、SQL)、数学的推論、29言語ネイティブサポート、JSONモード、Function Calling、すべてのサイズで128Kコンテキストウィンドウ。
弱み:英語の指示スタイルはLlamaやMistralより自然でない場合があります;一部のユーザーは英語での創造的なライティングの流暢性が低いと報告;Alibaba発祥はオープンウェイトにもかかわらず一部の企業ユーザーにとってデータ処理の懸念を提起。
Llama 3.x:一般的な英語タスクとエコシステムサポートに最適
MetaのLlama 3 .xファミリーは最も広くサポートされているオープンウェイトモデルシリーズです。他のどのファミリーよりもLlamaに対するより多くのツール、ファインチューン、量子化、コミュニティガイドが存在します。Llama 3.3 70Bは一般的な英語ベンチマークのすべての競合他社と同等かそれ以上です。
強み:最も幅広いエコシステムサポート(すべてのツールがLlamaをサポート)、最高の英語創造的なライティング、強い指示追従、3.1/3.2/3.3バリアントで128Kコンテキスト、コミュニティテスト済みの信頼性。
弱み:基本的な機能を超えた多言語ネイティブサポートなし;Llama 4 3Bは同じパラメータ数であるにもかかわらずQwen3 3BおよびPhi-4 Miniのコーディングと数学で遅い。
Mistral:最高の効率と最強の7B級の歴史
Mistral AIはこの比較で最もパラメータ効率の良いモデルを生産します。 Mistral Small 3.1は24Bで70Bクラスに近いベンチマークスコアを提供しながら、わずか14 GB RAMしか必要としません----この比較のどのモデルよりも最高の品質対RAM比。
強み:最高の品質対RAM比(Small 3.1)、強いFunction CallingとTool使用、主要モデルでの清潔なApache 2.0ライセンス、GDPR敏感な使用ケース向けのヨーロッパ発祥。
弱み:Mistral 7B v0.3はベンチマークでQwen3 7BおよびLlama 3.1 8Bに上回られるようになった;Qwenやllamaより少ないサイズオプション。
ツール呼び出しと推論の比較
ツール呼び出し(関数呼び出し)により、モデルはエージェント ワークフロー内で外部APIとツールを呼び出すことができます。2026年4月から、3つのファミリー すべてがこれをネイティブにサポートします。
| モデル | ツール呼び出し | 推論 (MATH) | ベストフォー |
|---|---|---|---|
| Qwen3 72B | ✅ ネイティブ | 83% | 複雑なマルチステップ エージェント |
| Llama 3.3 70B | ✅ ネイティブ | 77% | 英語中心のエージェント ワークフロー |
| Mistral Small 3.1 24B | ✅ ネイティブ、よくテストされ | 65% | 16 GBでの本番ツール使用 |
| Qwen3 14B | ✅ ネイティブ | 70% | コスト効果的なツール呼び出し |
| Llama 3.2 3B | ✅ ネイティブ | 51% | 軽量エージェント |
| Mistral 7B v0.3 | ⚠️ 制限あり | 28% | ツール使用は推奨されない |
推論集約的なタスク(数学、ロジック、コード レビュー)の場合:DeepSeek-R1(MIT ライセンス、7B-32B)は MATH ベンチマークですべての 3 つのファミリーを上回ります。
タスク別にはどのモデルファミリーが勝つ?
モデルの選択はステップ1、プロンプトの設計はステップ2です。同じプロンプトでも、Qwen・Llama・Mistralでは全く異なる結果が生じることがあります。どのモデルファミリーからも一貫した結果を得るための体系的テクニックについては、プロンプトエンジニアリングガイドをご覧ください。
| タスク | 勝者 | 理由 |
|---|---|---|
| Python / JavaScriptコーディング | Qwen3 | すべてのサイズティアで最高のHumanEval |
| 一般的なQ&A(英語) | Llama 3.3 / Qwen3(同等) | どちらも70Bで82~84% MMLU達成 |
| 数学的推論 | Qwen3 | 72Bで83% MATHはLlama 3.3 70Bの77%対 |
| 非英語言語 | Qwen3 | 29ネイティブ言語;LlamaとMistralは英語優先 |
| 創造的なライティング(英語) | Llama 3.x | より自然な英語生成スタイル |
| 16 GB RAMでの品質 | Mistral Small 3.1 | 14 GB RAMでほぼ70B品質 |
| 初心者の最初のモデル | Llama 4 3B | 最も文書化されて、最も多くのコミュニティサポート |
サイズ別比較:どのファミリーが各スケールで優れているか?
3B~4Bクラス:Qwen3 3BおよびPhi-4 Mini 3.8BはLlama 4 3Bをコーディングと数学で上回る。一般的な英語使用の場合、Llama 4 3Bはより信頼性が高い。
7B~8Bクラス:Qwen3 7BおよびLlama 3.1 8Bの両方がMistral 7B v0.3を大幅に上回る。Qwen3 7Bはコーディングで先導;Llama 3.1 8Bは英語指示追従で先導。
14B~24Bクラス:Qwen3 14BとMistral Small 3.1 24Bが主な選択肢。Mistral Small 3.1は全体的により強いですがより多くのRAMが必要。Qwen3 14Bはより低いRAMでコーディングと多言語に優れている。
70B~72Bクラス:Llama 3.3 70BとQwen3 72Bは2026年で最高のローカル実行可能なモデル。コーディングと多言語にはQwen3 72Bを選択;英語優先の一般的なタスクにはLlama 3.3 70Bを選択。
Qwen・Llama・Mistralはオープンソース領域をカバーしています。GPT-4o・Claude・Geminiなどの商用代替品との比較や、オープンソースよりプロプライエタリを選ぶべき場面については適切なAIモデルの選び方をご覧ください。
各ファミリーで始める方法
macOS、WindowsまたはLinuxでOllamaをインストール(単一コマンド)し、1ステップで任意のモデルをプル。
# Qwen3ファミリー
ollama run qwen3:7b
ollama run qwen3:14b
ollama run qwen3:72b
# Llama 3.xファミリー
ollama run llama3.2:3b
ollama run llama3.2
ollama run llama3.3:70b
# Mistralファミリー
ollama run mistral # 7B
ollama run mistral-small3.1 # 24Bソース
- Qwen3 Technical Report(Alibaba DAMO Academy、2024)-- arXiv:2412.15115 -- コーディング、数学、多言語タスク全体の全サイズバリアントに対するベンチマークデータ。
- Llama 3 Model Card(Meta AI、2024)-- ai.meta.com/blog/meta-llama-3 -- Llama 3.3 70B仕様、評価結果、ライセンス条件。
- Mistral 7B Technical Paper(Mistral AI、2023)-- arXiv:2310.06825 -- オリジナルMistralアーキテクチャ、スライディングウィンドウ注意、初期ベンチマークデータ。
- Open LLM Leaderboard(Hugging Face、2026)-- huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard -- すべてのオープンモデルに対するリアルタイムMMUL、HumanEval、およびMATHベンチマークランキング。
模型ファミリー選択時の一般的な誤り
- 異なるパラメータ数のモデルを比較----Qwen 32B対Llama 70Bはりんご対りんご比較ではない。
- ワークロードが多言語の場合、多言語ベンチマークを無視する。
- 最新のモデルバージョンが常に最高と仮定----時々古い量子化はより良いコミュニティサポートを持つ。
- ライセンス要件を見落とす----Llamaモデルはカスタムllama Community Licenseを使用し、700M月間アクティブユーザー以上の使用を制限;スケール展開前に確認。
- 1つのベンチマークのみでテスト----MMLUは知識、HumanEvalはコーディング、MATHは推論を測定。1つのベンチマークで先導するモデルは別のベンチマークで遅い場合があります。
関連読書
- 最高のLocal LLMs 2026 -- 現在の最高のモデルの全体的なランキング
- 最高の初心者Local LLMモデル -- 新しいユーザーのための基礎モデル
- Ollamaをインストール方法 -- 任意のモデルで始める
- Local LLM Hardware Guide 2026 -- モデルフォーマットの理解
- コーディング用の最高のLocal LLMs -- コーディング最適化モデル比較
- 多言語Local LLMs -- 非英語モデルサポート
地域的コンテキスト:EU/GDPR、日本、中国
EU/GDPR:Mistralモデルはフランスの下のEU管轄で製造され、GDPR Article 5要件適合を満たすクリアなデータプロベナンストレイルを与える。Meta Llamaモデルはmodel cardで訓練データの血統を開示。Qwen3はAlibaba(中国発祥)により製造されており、いくつかのEUデータ保護当局はGDPR Chapter Vの下でクロスボーダー転送レビューのためにフラグ。規制EUインダストリーの場合、MistralまたはON-PREMISESデプロイメント付きllamaが最もリスク低い選択肢。
日本(METI AIガバナンス):2024年のMETI AIガバナンスガイドラインは、Enterprise展開のためにモデルプロベナンスと性能ベンチマークをドキュメント化することを組織に奨励。出版された技術レポート(Qwen、Llama、MistralはすべてarXivペーパーを持つ)を持つモデルはこのドキュメンテーション要件を満たす。Qwenのネイティブ日本語トークン化(29の支持言語の1つ)は日本語NLPタスクの好ましい選択肢である。
中国(CAC Interim Measures):2023年中国のCyberspace Administration(CAC)Generative AIサービスの中間措置は中国ユーザーに提供されるAIサービスの登録が必要。完全にオンプレミスで実行されるモデル(QwenつまりLlamaやOllamaを通じたMistral)は公開フェイシングプロバイダー定義の外にあり、CAC登録は不要。Qwen3の中国語言語性能は3つのファミリーの中で最高。
よくある質問
コーディングに最適なのはどれ:Qwen、Llama、Mistral?
Qwen3はすべてのサイズティアでコーディングベンチマークをリード。Qwen3 72Bは87% HumanEvalスコア;Llama 3.3 70Bは88%スコア;Mistral 7B v0.3は39%スコア。7Bクラスの場合、Qwen3 7B(72% HumanEval)はMistral 7B(39%)を大幅に上回り、Llama 3.1 8B(72%)と一致。
最も多くの言語をサポートするLocal LLMはどれですか?
Qwen3は、アラビア語、日本語、韓国語、中国語、すべての主要ヨーロッパ言語を含む29言語をネイティブにサポート。Llama 4は公式に8言語をサポート。Mistralモデルは主に英語と主要ヨーロッパ言語に焦点を当てる。
8 GB RAMでどのモデルを選ぶべき?
8 GB RAMで、一般的なタスクの場合はLlama 4 3B(Q4、〜2 GB)またはコーディングの場合はQwen3 7B(Q4、〜4.7 GB)を使用。どちらも8 GB RAMのCPUで15~25トークン/秒で実行。以下でインストール:ollama pull llama3.2:3b またはollama pull qwen2.5:7b。
Qwen3は70Bスケールでllama 3.3より優れていますか?
全体的にほぼ同等。Qwen3 72Bは数学(83%対77%)と多言語タスクで先導。Llama 3.3 70Bはhumaneval(88%対87%)で先導。ほとんどのベンチマークで差は1~6%以内。コーディングと多言語にはQwen3を選択;英語優先の一般的なタスクにはLlama 3.3を選択。
VRAMが限られている場合、最も効率的なLocal LLMは?
Mistral Small 3.1 24Bが最も効率的:わずか14 GB RAMで79% MMLUおよび74% HumanEval----ほぼ70Bクラス品質をVRAM費用の約35%で達成。
Qwen3はコーディングタスク用のGPT-4を置き換えることができますか?
多くの標準コーディングタスク(Python、JavaScript、SQL生成)では、Qwen3 72B(87% HumanEval)は標準ベンチマークでGPT-4oの5~10%以内で実行。複雑なマルチファイル再構成の場合、クラウドモデルはまだ利点を保持。
Mistral 7Bは2026年で使う価値がありますか?
わずか4~5 GB VRAMしかないシステムの場合、Mistral 7Bは使用可能なオプションのままです。ただし、Qwen3 7BおよびLlama 3.1 8Bの両方がMistral 7B v0.3を同様のVRAMが必要でもすべての主要ベンチマークで上回る。Mistral 7Bの主な利点は今日はその長く確立されたコミュニティサポートとツール統合。
Llama Community Licenseの制限は何ですか?
MetaのLlama Community Licenseは700百万月間アクティブユーザー以下の商用使用のために無料。その閾値の上、Metaを使用した別の商用契約が必要。ほとんどのユースケース、この限度は問題ではない。
これらのモデルを完全にオフラインで実行できますか?
はい。すべての3ファミリー(Qwen、Llama、Mistral)は1回限りのモデルダウンロード後、OllamaまたはLM Studioを通じて完全にオフラインで実行。APIキー不要、テレメトリなし、推論に必要な他のインターネット接続。
どのモデルファミリーが最も簡単に始めることができますか?
Llama 4 3Bは最大のコミュニティと最も多くの初心者チュートリアルを持つ。以下で実行:ollama run llama3.2:3b(8 GB RAM必須、GPU不要)。すべてのメジャーLocal LLMツール(Ollama、LM Studio、OpenWebUI)はデフォルトでLlamaモデルをサポート。