日本語対応のローカルLLMモデルはどれがベスト?
クイック回答
用途によって最適な日本語ローカルLLMは異なります。会話なら:Rinna 3.6B(4 GB RAMで動作)。指示追従なら:ELYZA-7B。コーディング+日本語なら:Qwen2.5-Coder。すべてOllama経由で実行可能です。
- ▸Rinna 3.6B — 日本語ネイティブ(Rinna株式会社製)、4 GB RAM最小、日常会話向け
- ▸ELYZA-7B — 指示追従・Q&A、6 GB RAM、Llama 3ファインチューン
- ▸Qwen2.5 7B — 多言語JA/ZH/EN対応・コーディング、6 GB RAM
更新: 2026-05
重要なポイント
- ✓Rinna 3.6B(Rinna株式会社製)が最軽量の日本語ネイティブモデル — 4 GB RAMでOllama経由(専用推論のみ;他のアプリはすべて終了すること)、ファインチューン不要
- ✓ELYZA-7B(Llama 3ファインチューン)が日本語の指示追従でトップ — Q&AやタスクオートメーションはELYZAが適切
- ✓Qwen2.5 7Bが最良の多言語モデル:日本語・中国語・英語を一つのモデルで処理、コーディングにも対応
- ✓日本語トークナイズは漢字・ひらがな・カタカナのオーバーヘッドで英語比~20–30%トークン/秒が低下 — レイテンシ計算に注意
- ✓Q4_K_Mが日本語の推奨最低量子化。Q3以下では品質劣化が顕著、Q2は非推奨
日本語モデル比較表
2026年5月時点で、日本語タスクに優れた5つのローカルLLMがあります:Rinna 3.6B、ELYZA-7B、CyberAgent CALM3-22B、Qwen2.5 7B、Phi-4。それぞれ異なるハードウェア環境と用途に対応しています。日本国内では特に、Rinna株式会社とELYZA株式会社のモデルがオープンソースコミュニティで広く使われています。
決断のショートカット:RAMが4 GBしかない場合はRinna 3.6Bを選択。6 GBハードウェアで構造的な指示追従が必要な場合はELYZA-7Bを選択。日本語・中国語・英語の多言語出力が一つのモデルで必要な場合はQwen2.5 7Bを選択。
| モデル | サイズ / 最低RAM | 用途 |
|---|---|---|
| Rinna 3.6B | 3.6B / 4 GB RAM | 日常会話(日本語ネイティブ) |
| ELYZA-7B | 7B / 6 GB RAM | 指示追従・Q&A |
| CyberAgent CALM3-22B | 22B / 16 GB RAM | ビジネス文書・フォーマル文章 |
| Qwen2.5 7B | 7B / 6 GB RAM | 多言語JA/ZH/EN・コーディング |
| Phi-4 | 14B / 10–12 GB RAM | 推論+日本語(ファインチューン経由) |
タスク別推奨モデル
最大サイズではなく、タスクに合ったモデルを選ぶことが重要です。日本語の特性として、漢字・ひらがな・カタカナがそれぞれ個別のトークンスロットを占有するため、英語比で~20–30%トークン/秒が低下します。英語で20 tok/sのモデルは日本語では約14~16有効tok/sになります。レイテンシ計算に注意してください。
日常チャット → Rinna 3.6B(最軽量、日本語ネイティブ、ファインチューン不要)。ビジネス文書・フォーマル文章 → ELYZA-7BまたはCyberAgent CALM3-22B(16 GB RAMが使えるならCALM3がより高品質)。日本語でのコーディング支援 → Qwen2.5-Coder(日本語コメント・ドキュメントに強い多言語コードモデル)。日英中の翻訳 → Qwen2.5 7B(モデル切り替えなしで3言語対応)。
日本語においては量子化の影響が英語より大きいです。Q4_K_Mが推奨最低ライン — 品質劣化は最小限。Q3_K_Mは日本語テキストで~5–10%の品質低下を示します(長文・フォーマル文章で顕著)。日本語用途ではQ2は完全に非推奨。すべてのモデルはOllamaまたはLM Studio経由でQ4_K_Mとして利用可能です。
日本でAndroid上でこれらのモデルを使用するアプリについては、日本向けAndroid LLMアプリガイドを参照してください。日本で7B以上の日本語モデルをローカル実行するためのGPU推奨については、日本向けGPU価格ガイドを参照してください。より広範なモデル選択ガイドとして、コーディング向け最良ローカルLLMとLLM量子化の解説もご覧ください。
日本語ローカルLLMに関するよくある質問
LlamaやMistralは日本語に対応していますか?▾
量子化は日本語品質に影響しますか?▾
8 GBのMacBookで日本語モデルは動きますか?▾
Ollamaで日本語モデルを起動するには?▾
ollama run rinnaまたはollama run elyzaを実行してください。Ollamaは初回起動時に自動的にモデルをダウンロードします。最新の利用可能なバリアントと量子化オプションはollama.com/libraryのOllamaモデルライブラリを確認してください。