重要なポイント
- Qwen2.5 7B は中国語、日本語、韓国語の最適なローカルモデル(中国語5つ星、日本語/韓国語4つ星)。
- Mistral 7B と Qwen2.5 7B はヨーロッパ言語で同等(フランス語、ドイツ語、スペイン語、イタリア語それぞれ4つ星)。
- Q4_K_M量子化 はVRAM要件を75%削減し、精度損失は最小(<1%)-- ローカル展開に必須。
- ローカル処理(Ollama、llama.cpp)はAPI費用とレイテンシを排除;データ機密性とGDPR準拠に理想的。
- アジアなら Qwen2.5、ヨーロッパなら Mistral または Qwen2.5 を選択(ハードウェア予算に基づき、7Bモデルに8GB VRAM必要)。
ローカルLLMはどの言語をサポートしていますか?
全ての最新ローカルモデル(Qwen2.5、Llama 3.1、Mistral、Gemma)は最低限、話者数トップ10言語をサポート。ただしサポート品質は大きく異なる:Qwen2.5はアジア言語を支配、Mistral と Llama はヨーロッパ言語で競争。
| 言語グループ | Qwen2.5 7B | Llama 3.1 8B | Mistral 7B | Gemma 3 9B |
|---|---|---|---|---|
| 中国語(全言語変種) | ★★★★★ (5.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
| 日本語 | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
| 韓国語 | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
| フランス語 / ドイツ語 | ★★★★ (4.0) | ★★★ (3.0) | ★★★★ (4.0) | ★★★ (3.0) |
| スペイン語 / イタリア語 | ★★★★ (4.0) | ★★★ (3.0) | ★★★ (3.0) | ★★★ (3.0) |
| アラビア語(MSA) | ★★★ (3.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
ヨーロッパ言語向けベストローカルLLM
フランス語、ドイツ語、スペイン語、イタリア語:Mistral 7B と Qwen2.5 7B は同等。Mistral はフランス語とドイツ語に優位;Qwen2.5 はスペイン語とイタリア語で若干優秀。両者とも Q4_K_M で 8GB VRAM のみ必要。日本でのMETI AI統治に続き、ヨーロッパでも地域データセキュリティを重視する傾向が強化。
- Mistral 7B for フランス語とドイツ語:Mistral はフランス語とドイツ語の訓練データで学習、ネイティブ精度を提供。GDPR準拠と地域データ保護義務に理想的。
- Qwen2.5 7B for スペイン語とイタリア語:Qwen2.5 はロマンス言語で優れた品質。Q4_K_M 量子化で MacBook Pro M2 または標準Linux GPU でメモリ問題なし。
- Llama 3.1 8B as フォールバック:Llama 3.1 8B はヨーロッパ言語で十分(3つ星評価)だが最適でない。Qwen2.5 または Mistral が利用不可の場合のみ使用。
- DACH専門家(ドイツ/オーストリア/スイス):ドイツ語圏企業向け:Mistral 7B はローカル処理で BSI-Grundschutz 要件を満たす。米国サーバーへのデータ転送不要。
- 量子化:Q4_K_M は標準:ヨーロッパ言語の 7B モデル で常に Q4_K_M を使用。VRAM 要件:8GB。精度低下:fp16 比 <0.5%。
- ベンチマーク:JMT-bench + MMLU:Qwen2.5 と Mistral は MMLU(多択知識テスト)で 72-75% 精度。ドメイン固有テスト(法律、医療、金融)では 55-70% に低下。
アジア言語向けベストローカルLLM
Qwen2.5 7B はアジア言語を圧倒的に支配。中国語、日本語、韓国語で 4-5つ星達成一方、Llama と Mistral は 1-2つ星。日本、韓国、中国の企業にとって Qwen2.5 が唯一の実用的選択肢。
| 言語 | Qwen2.5 7B | Llama 3.1 8B | Mistral 7B |
|---|---|---|---|
| 中国語(簡体字・繁体字) | ★★★★★ (5.0) | ★★ (2.0) | ★ (1.0) |
| 日本語(ひらがな・漢字・カタカナ) | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) |
| 韓国語(ハングル) | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) |
アラビア言語サポート
アラビア語はローカルモデルに課題。Qwen2.5 は現代標準アラビア語(MSA)で 3つ星、Llama と Mistral は 1-2つ星のみ。方言アラビア語(エジプト、湾岸)は 7B モデルで十分にサポートされず;13B モデル または専門モデル が必要。中東企業向け:Qwen2.5 7B は最良の小規模モデル、ただしプロダクション用途では 13B モデル を推奨。
多言語LLMの評価
MMLU と JMT-bench は英語と日本語のみを測定。真の多言語性を検証するには実タスク(目標言語でのドキュメント要約、ドメイン固有質問、文化コンテキスト化)でテスト。ベストプラクティス:
- 1目標言語でローカルテストセット作成:20-50 の代表的質問を目標言語で作成(例:中国語、日本語)。ドメイン固有用語(医療、法律、技術)を使用。JSON ファイルに保存。
- 24 つのモデル全てをこのテストセットに対して実行:各モデルを Q4_K_M で量子化。Ollama または llama.cpp でローカル実行。回答品質を手動またはメトリクス(グラウンドトゥルースとの類似度)で比較。
- 3レイテンシと VRAM 消費を測定:クエリあたりの推論時間と最大 VRAM 消費をログ。例:Qwen2.5 7B (Q4_K_M) on M2 Max = 400ms レイテンシ、8.2GB VRAM。
- 4ドメイン固有ベンチマークで検証:専門用途向け:日本語は JMT-bench、中国語は C-Eval、英語は MMLU を使用。結果を独自テストと組み合わせ。
比較表:Qwen2.5 vs Llama vs Mistral vs Gemma
本表は言語サポートをまとめ。評価は JMT-bench(日本語)、MMLU(一般)、言語固有評価(2026)に基づく。
| 言語グループ | Qwen2.5 7B | Llama 3.1 8B | Mistral 7B | Gemma 3 9B |
|---|---|---|---|---|
| 中国語(全言語変種) | ★★★★★ | ★★ | ★ | ★★★ |
| 日本語 | ★★★★ | ★★ | ★ | ★★★ |
| 韓国語 | ★★★★ | ★★ | ★ | ★★★ |
| フランス語 / ドイツ語 | ★★★★ | ★★★ | ★★★★ | ★★★ |
| スペイン語 / イタリア語 | ★★★★ | ★★★ | ★★★ | ★★★ |
| アラビア語(MSA) | ★★★ | ★★ | ★ | ★★★ |
多言語LLM使用時の一般的なミス
ローカルLLMが中国語では機能するが日本語では機能しないのはなぜ?
おそらく Llama または Mistral を使用中。両者ともアジア言語に最適化されていない。Qwen2.5 7B に切り替え。明確に中国語、日本語、韓国語でトレーニング済み。
Q4_K_M または Q5_K_M を使うべき?
Q4_K_M を使用(>12GB VRAM でない限り)。Q4_K_M は fp16 比 75% メモリ削減で <0.5% 精度損失。Q5_K_M はほぼの用途で不要。
4GB VRAM で 7B モデル実行可能?
いいえ。Qwen2.5 7B (Q4_K_M) は最少 8GB 必須。4GB VRAM 向けは 3B モデル(Phi-3、MobileLLM)を使用。または CPU のみ推論(非常に遅い、未推奨)。
Mistral のフランス語/ドイツ語タスク品質がより高いのはなぜ?
Mistral はより多くのフランス語・ドイツ語訓練データを持つ。ヨーロッパ言語:Mistral と Qwen2.5 は同等。Qwen2.5 はアジア言語とロマンス言語で優秀。
言語向けモデル を微調整すべき?
言語ごとに >10,000 高品質サンプルを保有する場合のみ。多くの用途では Prompt Engineering(few-shot コンテキスト内サンプル)が費用効率的で迅速。
よくある質問
ローカルLLM とは何ですか、なぜ使うべき?
ローカルLLM はマシン(MacBook、Linux デスクトップ、サーバー)上で実行、クラウド API なし。利点:(1) API 費用なし、(2) プライバシー(OpenAI/Google へのアップロードなし)、(3) オフライン利用、(4) 微調整による適応。欠点:推論が遅い、モデルサイズ制限(コンシューマ向けハードウェア上最大 13B)。
Ollama または llama.cpp どちらが高速?
速度は同等。Ollama は初心者向けで使い易い(CLI、Web UI)。llama.cpp より直接的で高性能セットアップで高速。初心者:Ollama、エキスパート:llama.cpp。
ローカルLLM実行 vs OpenAI GPT-4o のコスト比較?
ローカル利用(ハードウェア償却後):$0/クエリ。GPT-4o API:$0.03/1K 入力トークン、$0.06/1K 出力トークン。月 1,000 クエリ:ローカル $0、GPT-4o $30-100。
ノート PC で 13B モデル実行可能?
Q4_K_M 量子化と >16GB RAM/VRAM のみ。Qwen2.5 13B (Q4_K_M):~12GB VRAM 必須。Llama 3.1 70B:コンシューマハードで非実用的。最大互換性向け 7B モデル使用。
ローカルLLM で機密データの安全性は?
非常に安全。ローカル実行モデルはマシンから外出しない。重要:Ollama で telemetry 無効化(`OLLAMA_NUM_PARALLEL=1` env)。企業要件:Security チーム検証。GDPR/CCPA 準拠(第三者へのデータ送信なし)。
Python コード生成向けモデル選択?
Qwen2.5 7B または Mistral 7B。両者とも HumanEval(Python コーディングタスク)で 85-90% 成功率。専門コードモデル:DeepSeek Coder 7B。高精度:Qwen2.5 32B(20+GB VRAM 必須)。
ローカルLLM を言語向けに微調整可能?
はい、ただし >5,000 高品質サンプル必須。LoRA(パラメータ効率微調整)または完全微調整使用。ツール:Ollama 拡張、llama-cpp-python、Hugging Face Transformers。多くの用途:文脈内 few-shot Prompt Engineering が費用効率的。
GGUF モデル量子化修正方法?
`llama.cpp` の `quantize` ユーティリティ使用:`./quantize model.gguf model-q4_km.gguf Q4_K_M`。オリジナルモデル不変。量子化:モデルサイズ次第で 5-20 分。新モデル別名保存(`-q4_km` サフィックス)。
大規模バッチ処理(100+クエリ)で OpenAI と競争可能?
レイテンシ要件:いいえ。OpenAI GPT-4o は 5-10x 高速。コスト最適化:はい、ローカル費用効率的。トレードオフ:プライバシー/オフラインはローカル、速度/精度は OpenAI。
CPU または GPU 推論選択?
利用可能なら GPU 必須。GPU 推論は CPU 比 10-50x 高速。CPU のみセットアップ:3B 量子化モデル使用。推奨 GPU:NVIDIA(CUDA)、AMD(ROCm)、Apple(M シリーズ用 Metal)。
参考資料
- Ollama インストール:完全ガイド -- 全プラットフォーム対応(macOS、Linux、Windows)。
- LM Studio vs Ollama:2026 比較 -- ローカルモデルに最良のツール?
- ローカルLLM ハードウェア要件 2026 -- Qwen2.5、Llama、Mistral の GPU/CPU/RAM 要件。
- LLM 量子化説明:Q4_K_M vs Q5_K_M -- Q4_K_M が標準な理由。
- ローカルLLM セットアップトラブルシューティング -- 一般的エラーと解決策(VRAM、パス、量子化)。
出典
- Qwen2.5 ドキュメント -- 公式モデルカード、ベンチマーク、多言語トレーニング詳細。
- Llama 3.1 ベンチマーク -- Meta ドキュメント、MMLU スコア(英語、日本語)。
- Mistral 7B モデルカード -- トレーニング、言語サポート、ライセンス。
- JMT-Benchmark(日本語) -- ローカルモデル向け日本語テキスト理解ベンチマーク。
- Ollama ドキュメント -- CLI、インストール、モデルダウンロード、ローカルLLM質問。