Skip to main content
PromptQuorumPromptQuorum

日本語対応のローカルLLMモデルはどれがベスト?

クイック回答

用途によって最適な日本語ローカルLLMは異なります。会話なら:Rinna 3.6B(4 GB RAMで動作)。指示追従なら:ELYZA-7B。コーディング+日本語なら:Qwen2.5-Coder。すべてOllama経由で実行可能です。

  • Rinna 3.6B — 日本語ネイティブ(Rinna株式会社製)、4 GB RAM最小、日常会話向け
  • ELYZA-7B — 指示追従・Q&A、6 GB RAM、Llama 3ファインチューン
  • Qwen2.5 7B — 多言語JA/ZH/EN対応・コーディング、6 GB RAM

更新: 2026-05

Model Comparisons

重要なポイント

  • Rinna 3.6B(Rinna株式会社製)が最軽量の日本語ネイティブモデル — 4 GB RAMでOllama経由(専用推論のみ;他のアプリはすべて終了すること)、ファインチューン不要
  • ELYZA-7B(Llama 3ファインチューン)が日本語の指示追従でトップ — Q&AやタスクオートメーションはELYZAが適切
  • Qwen2.5 7Bが最良の多言語モデル:日本語・中国語・英語を一つのモデルで処理、コーディングにも対応
  • 日本語トークナイズは漢字・ひらがな・カタカナのオーバーヘッドで英語比~20–30%トークン/秒が低下 — レイテンシ計算に注意
  • Q4_K_Mが日本語の推奨最低量子化。Q3以下では品質劣化が顕著、Q2は非推奨

日本語モデル比較表

2026年5月時点で、日本語タスクに優れた5つのローカルLLMがあります:Rinna 3.6B、ELYZA-7B、CyberAgent CALM3-22B、Qwen2.5 7B、Phi-4。それぞれ異なるハードウェア環境と用途に対応しています。日本国内では特に、Rinna株式会社とELYZA株式会社のモデルがオープンソースコミュニティで広く使われています。

決断のショートカット:RAMが4 GBしかない場合はRinna 3.6Bを選択。6 GBハードウェアで構造的な指示追従が必要な場合はELYZA-7Bを選択。日本語・中国語・英語の多言語出力が一つのモデルで必要な場合はQwen2.5 7Bを選択。

モデルサイズ / 最低RAM用途
Rinna 3.6B3.6B / 4 GB RAM日常会話(日本語ネイティブ)
ELYZA-7B7B / 6 GB RAM指示追従・Q&A
CyberAgent CALM3-22B22B / 16 GB RAMビジネス文書・フォーマル文章
Qwen2.5 7B7B / 6 GB RAM多言語JA/ZH/EN・コーディング
Phi-414B / 10–12 GB RAM推論+日本語(ファインチューン経由)

タスク別推奨モデル

最大サイズではなく、タスクに合ったモデルを選ぶことが重要です。日本語の特性として、漢字・ひらがな・カタカナがそれぞれ個別のトークンスロットを占有するため、英語比で~20–30%トークン/秒が低下します。英語で20 tok/sのモデルは日本語では約14~16有効tok/sになります。レイテンシ計算に注意してください。

日常チャット → Rinna 3.6B(最軽量、日本語ネイティブ、ファインチューン不要)。ビジネス文書・フォーマル文章 → ELYZA-7BまたはCyberAgent CALM3-22B(16 GB RAMが使えるならCALM3がより高品質)。日本語でのコーディング支援 → Qwen2.5-Coder(日本語コメント・ドキュメントに強い多言語コードモデル)。日英中の翻訳 → Qwen2.5 7B(モデル切り替えなしで3言語対応)。

日本語においては量子化の影響が英語より大きいです。Q4_K_Mが推奨最低ライン — 品質劣化は最小限。Q3_K_Mは日本語テキストで~5–10%の品質低下を示します(長文・フォーマル文章で顕著)。日本語用途ではQ2は完全に非推奨。すべてのモデルはOllamaまたはLM Studio経由でQ4_K_Mとして利用可能です。

日本でAndroid上でこれらのモデルを使用するアプリについては、日本向けAndroid LLMアプリガイドを参照してください。日本で7B以上の日本語モデルをローカル実行するためのGPU推奨については、日本向けGPU価格ガイドを参照してください。より広範なモデル選択ガイドとして、コーディング向け最良ローカルLLMLLM量子化の解説もご覧ください。

日本語ローカルLLMに関するよくある質問

LlamaやMistralは日本語に対応していますか?
基本的なサポートのみです。Llama 3.1 8Bには一部の日本語訓練データが含まれていますが、日本語ベンチマークでは日本語特化モデルより30–40%性能が低下します。Mistral 7Bは日本語訓練データが最小限であり、日本語タスクには推奨されません。信頼性の高い日本語出力にはELYZA-7B(Llamaファインチューン)またはRinna 3.6Bを使用してください。
量子化は日本語品質に影響しますか?
Q4_K_Mは劣化が最小限で、日本語の推奨最低量子化です。Q3_K_Mは日本語テキストで約5–10%の品質低下を示します — 長い返答やフォーマル文章で顕著です。日本語用途ではQ2は完全に使用を避けてください。VRAMに余裕がある場合はQ8_0が最高品質を提供します。
8 GBのMacBookで日本語モデルは動きますか?
はい。Rinna 3.6B Q4とELYZA-7B Q4_K_Mはどちらも8 GBユニファイドメモリのMacBook上でOllama経由で動作します。Apple SiliconはシステムRAMをユニファイドメモリとして扱うため、8 GB全体がモデルに利用可能です。M1/M2ハードウェアではこれらのサイズで~8–12 tok/sが期待できます。
Ollamaで日本語モデルを起動するには?
ターミナルでollama run rinnaまたはollama run elyzaを実行してください。Ollamaは初回起動時に自動的にモデルをダウンロードします。最新の利用可能なバリアントと量子化オプションはollama.com/libraryのOllamaモデルライブラリを確認してください。