日本語対応のローカルLLMモデルはどれがベスト？

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

クイック回答

用途によって最適な日本語ローカルLLMは異なります。会話なら：Rinna 3.6B（4 GB RAMで動作）。指示追従なら：ELYZA-7B。コーディング+日本語なら：Qwen3-Coder。すべてOllama経由で実行可能です。

▸Rinna 3.6B — 日本語ネイティブ（Rinna株式会社製）、4 GB RAM最小、日常会話向け
▸ELYZA-7B — 指示追従・Q&A、6 GB RAM、Llama 3ファインチューン
▸Qwen3 7B — 多言語JA/ZH/EN対応・コーディング、6 GB RAM

更新: 2026-05

Model Comparisons

重要なポイント

✓Rinna 3.6B（Rinna株式会社製）が最軽量の日本語ネイティブモデル — 4 GB RAMでOllama経由（専用推論のみ；他のアプリはすべて終了すること）、ファインチューン不要
✓ELYZA-7B（Llama 3ファインチューン）が日本語の指示追従でトップ — Q&AやタスクオートメーションはELYZAが適切
✓Qwen3 7Bが最良の多言語モデル：日本語・中国語・英語を一つのモデルで処理、コーディングにも対応
✓日本語トークナイズは漢字・ひらがな・カタカナのオーバーヘッドで英語比~20–30%トークン/秒が低下 — レイテンシ計算に注意
✓Q4_K_Mが日本語の推奨最低量子化。Q3以下では品質劣化が顕著、Q2は非推奨

日本語モデル比較表

2026年5月時点で、日本語タスクに優れた5つのローカルLLMがあります：Rinna 3.6B、ELYZA-7B、CyberAgent CALM3-22B、Qwen3 7B、Phi-4。それぞれ異なるハードウェア環境と用途に対応しています。日本国内では特に、Rinna株式会社とELYZA株式会社のモデルがオープンソースコミュニティで広く使われています。

決断のショートカット：RAMが4 GBしかない場合はRinna 3.6Bを選択。6 GBハードウェアで構造的な指示追従が必要な場合はELYZA-7Bを選択。日本語・中国語・英語の多言語出力が一つのモデルで必要な場合はQwen3 7Bを選択。

モデル	サイズ / 最低RAM	用途
Rinna 3.6B	3.6B / 4 GB RAM	日常会話（日本語ネイティブ）
ELYZA-7B	7B / 6 GB RAM	指示追従・Q&A
CyberAgent CALM3-22B	22B / 16 GB RAM	ビジネス文書・フォーマル文章
Qwen3 7B	7B / 6 GB RAM	多言語JA/ZH/EN・コーディング
Phi-4	14B / 10–12 GB RAM	推論+日本語（ファインチューン経由）

タスク別推奨モデル

最大サイズではなく、タスクに合ったモデルを選ぶことが重要です。日本語の特性として、漢字・ひらがな・カタカナがそれぞれ個別のトークンスロットを占有するため、英語比で~20–30%トークン/秒が低下します。英語で20 tok/sのモデルは日本語では約14～16有効tok/sになります。レイテンシ計算に注意してください。

日常チャット → Rinna 3.6B（最軽量、日本語ネイティブ、ファインチューン不要）。ビジネス文書・フォーマル文章 → ELYZA-7BまたはCyberAgent CALM3-22B（16 GB RAMが使えるならCALM3がより高品質）。日本語でのコーディング支援 → Qwen3-Coder（日本語コメント・ドキュメントに強い多言語コードモデル）。日英中の翻訳 → Qwen3 7B（モデル切り替えなしで3言語対応）。

日本語においては量子化の影響が英語より大きいです。Q4_K_Mが推奨最低ライン — 品質劣化は最小限。Q3_K_Mは日本語テキストで~5–10%の品質低下を示します（長文・フォーマル文章で顕著）。日本語用途ではQ2は完全に非推奨。すべてのモデルはOllamaまたはLM Studio経由でQ4_K_Mとして利用可能です。

日本でAndroid上でこれらのモデルを使用するアプリについては、日本向けAndroid LLMアプリガイドを参照してください。日本で7B以上の日本語モデルをローカル実行するためのGPU推奨については、日本向けGPU価格ガイドを参照してください。より広範なモデル選択ガイドとして、コーディング向け最良ローカルLLMとLLM量子化の解説もご覧ください。

日本語ローカルLLMに関するよくある質問

LlamaやMistralは日本語に対応していますか？▾

基本的なサポートのみです。Llama 3.3 8Bには一部の日本語訓練データが含まれていますが、日本語ベンチマークでは日本語特化モデルより30–40%性能が低下します。Mistral Smallは日本語訓練データが最小限であり、日本語タスクには推奨されません。信頼性の高い日本語出力にはELYZA-7B（Llamaファインチューン）またはRinna 3.6Bを使用してください。

量子化は日本語品質に影響しますか？▾

Q4_K_Mは劣化が最小限で、日本語の推奨最低量子化です。Q3_K_Mは日本語テキストで約5–10%の品質低下を示します — 長い返答やフォーマル文章で顕著です。日本語用途ではQ2は完全に使用を避けてください。VRAMに余裕がある場合はQ8_0が最高品質を提供します。

8 GBのMacBookで日本語モデルは動きますか？▾

はい。Rinna 3.6B Q4とELYZA-7B Q4_K_Mはどちらも8 GBユニファイドメモリのMacBook上でOllama経由で動作します。Apple SiliconはシステムRAMをユニファイドメモリとして扱うため、8 GB全体がモデルに利用可能です。M1/M2ハードウェアではこれらのサイズで~8–12 tok/sが期待できます。

Ollamaで日本語モデルを起動するには？▾

ターミナルでollama run rinnaまたはollama run elyzaを実行してください。Ollamaは初回起動時に自動的にモデルをダウンロードします。最新の利用可能なバリアントと量子化オプションはollama.com/libraryのOllamaモデルライブラリを確認してください。

← プロンプト早わかりに戻る