言語モデルは主に英語で学習されています。日本語、ドイツ語、フランス語、アラビア語でプロンプトを書くと、モデルの学習分布の異なる領域が活性化され、精度が低下し、tokenコストが増加します。推論タスクには英語のsystem promptを使用し、敬語・語調指示はターゲット言語で記述し、出力言語は常に明示的に宣言してください。

速攻ファクト

46% のCommonCrawlトレーニングデータは英語。中国語はわずか3%、フランス語5%、ドイツ語6%。
1,900 token：アラビア語1,000語に必要なtoken数（英語比46%増）；中国語は900 token（31%減）。
5〜12% の精度向上：英語のchain-of-thought推論＋母語出力（レベル3言語）。
15〜20% の精度低下：非英語タスクに英語のfew-shot例を使用した場合（Shi et al., 2023）。
Mistral Large 2はRomance語系をリード；Gemini 3.0 Proは東アジア言語をリード；GPT-4oはアラビア語をリード。

言語がこれほど重要な理由

💬 In Plain Terms

「このセクションでは」わかりやすく説明します：LLMは何十億もの本・サイト・記事から英語を学習しました。日本語は数百万から学習しました。日本語で質問すると、モデルが参照できる例が少ないため、ミスが増えます — 数年勉強した言語より、ずっと使い慣れた言語の方が数学の問題を解けるのと同じ理由です。

多言語プロンプティングは翻訳ではありません — モデルの学習分布の異なる部分を活性化することです。 LLMはテキストを共有embedding空間でtokenize・表現しますが、トレーニングデータは偏っています：CommonCrawl（ほとんどのLLMのトレーニングに使用）は英語約46%、ドイツ語約6%、フランス語約5%、中国語約3%で構成されています。トレーニングデータが1%未満の言語（アフリカ言語の多く、南アジアの多くの言語など）は予測不可能な挙動を示します。

日本語でpromptを書くと、モデルは日本語のトレーニングデータのパターンに頼ります。日本語はコーパス全体の約3%にすぎないため、英語promptと比較して学習済みの関連付けが少ない状態です。これは次のような形で現れます：推論精度の低下、指示に従う信頼性の低下、幻覚率の上昇、出力品質のばらつき。

LLMが言語パターンを実際にどのように学習するかについては、LLMの実際の仕組みをご覧ください。

4段階言語モデル

📍 In One Sentence

トレーニングデータのシェアが高いほど学習パターンが多く出力が信頼できます；レベル1（英語）はトレーニングの約46%、レベル2（ヨーロッパ言語）は5〜8%、レベル3（アジア・アラビア語）は2〜4%、レベル4（<1%）はRetrieval-Augmented Generationが必要です。

LLMの言語パフォーマンスはトレーニングデータのシェアに基づく4段階の階層に従います。レベル1（英語）はほぼ完璧なパフォーマンスを発揮し、レベル4（低リソース言語）は信頼性の低い出力を生成します。このレベル分類を使って、ターゲット言語に適用すべき戦略を判断してください。

レベル	言語	トレーニングシェア（概算）	推奨戦略
レベル1	英語	~46%	直接prompt、あらゆる技法が機能
レベル2	フランス語、ドイツ語、スペイン語、ポルトガル語、イタリア語	各5〜8%	母語のuser prompt、構造には英語のsystem prompt
レベル3	中国語、日本語、韓国語、アラビア語、ロシア語	各2〜4%	英語CoT＋母語出力、徹底的なテストが必要
レベル4	その他ほとんどの言語	<1%	事前検証済みコンテンツでRAGを使用；人によるレビューなしの生成出力は避ける

スクリプト別tokenコスト

同じ1,000語のコンテンツは英語よりアラビア語で46%多くのtokenを消費し、ロシア語では30%多くなります — API請求に直接影響します。 tokenの効率はscriptと言語ファミリーによって大きく異なります。

tokenの詳細な予算管理についてはtokens、コスト、制限をご覧ください。

言語	スクリプト	トークン（概算）	英語比	APIコスト倍率
英語	ラテン文字	~1,300	ベース	1.0×
ドイツ語	ラテン文字	~1,500	+15%	1.15×
フランス語	ラテン文字	~1,450	+12%	1.12×
スペイン語	ラテン文字	~1,400	+8%	1.08×
ロシア語	キリル文字	~1,700	+31%	1.31×
中国語（簡体字）	CJK	~900	−31%	0.69×
日本語	CJK＋仮名	~1,100	−15%	0.85×
韓国語	ハングル	~1,400	+8%	1.08×
アラビア語	アラビア文字	~1,900	+46%	1.46×

System promptは英語にすべき？それともターゲット言語？

構造化・推論タスクでは、英語のsystem promptはレベル2〜3言語の母語system promptを上回ります。語調と敬語については、母語のsystem promptの方が効果的です。これが多言語promptingで最も重要な判断です。

なぜでしょうか？LLMの指示に従う能力の多くは英語のRLHF（人間からのフィードバックによる強化学習）データで訓練されています。複雑なsystem指示（フォーマット規則、ペルソナ、CoTディレクティブ）は英語で書くとより確実に守られます。一方、スタイル指示（敬語レベル、文化的なトーン）はターゲット言語で書く方が効果的です。

判断フロー： 複雑な推論・フォーマット規則 → 英語のsystem prompt。敬語レベル（丁寧語、Sie、keigo）→ ターゲット言語。ペルソナ定義 → 英語＋1件のターゲット言語サンプル。出力言語指定 → 常にsystem promptで明示：「Respond in formal Japanese using 丁寧語.」

詳細はsystem prompt vs user promptをご覧ください。

❌ System promptが完全に日本語：「あなたはカスタマーサポートアシスタントです。日本語で回答してください。」

Why it hurts: 複雑な指示（エラーハンドリング、構造、ロジック）がターゲット言語では伝わりにくくなります。モデルは低リソース言語でのフォーマット規則を守るのに苦労します。

Fix: 英語でsystem指示を書いてください：「You are a customer support assistant. Respond in Japanese using polite 丁寧語 form.」その後、語調・敬語の指示を日本語で追記します。

⚠️ よくある間違い

System promptとuser指示の両方をターゲット言語で書くと、推論精度が低下することがよくあります。ロジックには英語、語調にはターゲット言語を使用してください。

💡 プロのヒント

具体的なユースケースで両方のアプローチ（英語system＋英語推論 vs 英語system＋母語推論）をテストしてください。モデルの挙動は言語レベルによって異なります。

悪い例 vs 良い例：多言語system prompt

悪い例 — 言語とregisterをモデルが検出すると想定：

「このドイツ語の契約書を要約して。」

結果：英語/日本語が混在した出力、カジュアルな語調、法律用語が漏れる可能性。

良い例 — 言語・register・推論パスを明示：

「You are a legal analyst. The following document is a German employment contract (Arbeitsvertrag). Summarise its key obligations in formal Japanese (丁寧語). Structure: 契約当事者, 報酬, 解雇予告期間, 特別条項. Maximum 200 words. Flag any clause unusual for standard German employment law with 要確認.」

結果：適切な専門用語を使った丁寧語の日本語出力と、フラグ付きの異常条項。

どのモデルがどの言語を得意とするか

全言語で1つのモデルがトップというわけではありません。Mistral Large 2はRomance語系をリード；Google Gemini 3.0 Proは東アジア言語をリード；GPT-4oはアラビア語と多言語推論タスクをリードします。この表はAhuja et al.（2023）MEGAベンチマークからのモデルパフォーマンスをまとめたものです。

モデル	レベル2（ヨーロッパ）	レベル3（東アジア）	アラビア語	最適ユースケース
GPT-4o	✅ 強力	✅ 強力	✅ 最強	一般多言語、構造化抽出
Claude Opus 4.7	✅ 強力	✓ 良好	✓ 良好	ドキュメント分析、ニュアンスのある語調
Gemini 3.0 Pro	✓ 良好	✅ 最強	✓ 良好	日本語/韓国語/中国語、翻訳
Mistral Large 2	✅ 最強	⚠ 中程度	⚠ 中程度	フランス語/スペイン語/イタリア語のビジネスコンテンツ
Qwen 3 72B	⚠ 中程度	✅ 強力	✓ 良好	中国語主体のワークフロー（オープンソース）
Llama 4 70B	✓ 良好	⚠ 中程度	⚠ 中程度	ヨーロッパ言語、コスト重視の選択肢

💡 プロのヒント

PromptQuorumを使って、全6モデルに同時にpromptをテストしてください。並列出力比較により、言語＋タスクの組み合わせに最適なモデルが一目でわかります。

📌 豆知識

モデルのパフォーマンスは言語だけでなく、ドメインによっても異なります。日本語の技術翻訳が得意なモデルが、日本語のカスタマーサービス語調に苦労することがあります。

ユースケース別コスト

上記のtokenコストの差は直接API請求額に影響します。 GPT-4oの価格（入力100万tokenあたり$5）に基づく実際の影響です。

ユースケース	英語コスト	アラビア語コスト	日本語コスト	コスト節約のヒント
顧客メール100件/日	$X	$1.46X	$0.85X	日本語にはGemini 3.0 Proを使用；アラビア語は46%多めに予算を確保
10,000語レポートの要約	$Y	$1.46Y	$0.85Y	英語でチャンク分割し、ターゲット言語で出力
商品説明500件	$Z	$1.46Z	$0.85Z	中国語が最もコストが低い（0.69×）

多言語Chain-of-Thought

レベル3言語では、Chain-of-Thought指示を英語で書きながら最終回答をターゲット言語で要求すると、推論精度が5〜12%向上します（Shi et al., 2023）。 この言語横断CoT技法は英語の推論力を活用しながら、ターゲット言語での出力品質を維持します。

LLMがステップバイステップで推論するとき、最大のトレーニングコーパス（英語）のパターンに依存します。日本語やアラビア語などの低リソース言語でのみ推論させると、その言語での学習済み推論パターンが少ないため精度が低下します。ハイブリッドアプローチ — 英語CoT＋母語出力 — が両方の利点を活かします。

テンプレート： `英語でステップバイステップで考えてください。最終回答は日本語で書いてください。質問：質問`

判断： 英語CoTを使う場合 → タスクが多段階推論を必要とする、ターゲット言語がレベル3以上、精度がレイテンシより重要。母語CoTを使う場合 → 語調・敬語が推論の深さより重要、ターゲット言語がレベル1〜2。

詳細：Chain-of-Thoughtプロンプティング：LLMに推論を示させる方法。

⚠️ 注意

言語横断CoTはレベル3言語に効果的ですが、レベル4言語ではモデルが混乱する可能性があります。採用前に必ず小さなサンプルでテストしてください。

🛠️ ベストプラクティス

最大精度のために、言語横断CoTとfew-shot例を組み合わせてください：新しいタスクを与える前に、完全な例（英語推論 → 日本語回答）をモデルに示してください。

Few-shot例と言語マッチング

Few-shot例はタスクと同じ言語で用意する必要があります — 言語が異なるfew-shot例はレベル2〜3言語で出力精度を15〜20%低下させます（Shi et al., 2023）。 Few-shot例はフォーマット・語調・パターンをモデルに教えます。例が英語でタスクが日本語の場合、モデルは矛盾したシグナルを受け取ります。

2つの戦略： (1) 母語few-shot — 全例をターゲット言語で用意（品質最優先）。(2) ゼロショット＋明示的指示 — 例なし、英語で明確なスタイル・フォーマット規則（母語の例がない場合に最適）。避けるべきこと：英語の例＋日本語タスク＝最悪の組み合わせ。

few-shot vs ゼロショットで完全な判断フレームワークをご確認ください。

📌 ポイント

ソース言語の不一致が問題です：英語の例はモデルに英語のフォーマットを学習させ、その後モデルは同時に言語を切り替えてフォーマットを推測しなければならない — 出力品質を低下させる二重の認知負荷です。

敬語・語調・丁寧さ

LLMはほとんどの言語でデフォルトのregisterを使用します。ユースケースでフォーマルな日本語（丁寧語）、ドイツ語のSie形式、フランス語のVous形式が必要な場合、system promptでregisterを明示的に宣言する必要があります — モデルは文脈から推測しません。

言語	モデルのデフォルト	フォーマル指定	インフォーマル指定
ドイツ語	Sie/du混在	Verwende ausschließlich die Sie-Form.	Verwende die du-Form.
フランス語	インフォーマルなtu	Utilisez exclusivement le vouvoiement (Vous).	Utilise le tutoiement (tu).
日本語	です・ます体（丁寧）	丁寧語（です・ます体）を常に使用してください。	普通体（だ体）を使用してください。
スペイン語	Usted/tú混在	Utilice exclusivamente el tratamiento de usted.	Usa el tuteo (tú).
韓国語	フォーマル/インフォーマル混在	Use formal 합쇼체 throughout.	Use informal 해요체.

🛠️ ベストプラクティス

デプロイ前に3〜5件のサンプル出力でregisterの適用をテストしてください。明示的な指示があっても、回答の途中でインフォーマルに切り替えるモデルもあります；その場合は「いかなる状況でもインフォーマルなregisterに切り替えないでください」というリマインダーを追加してください。

コードスイッチング：言語を混在させるユーザーへの対応

ユーザーがpromptで言語を混在させる場合（例：英語の用語を含む日本語の質問）、ほとんどのモデルはクエリの主要言語で回答しますが、明示的な指示がないと信頼性が低くなります。コードスイッチングは、技術用語は英語のまま、周囲の文章は別の言語という多言語の職場環境では一般的です。

推奨される対処法： (1) System promptに追加：「ユーザーが言語を混在させた場合、質問が明示的に英語でない限りターゲット言語で回答してください。」(2) モデルに言語検出を任せるのではなく、プログラム的に言語を検出（langdetect、FastText、lingua-rs）してからモデルにルーティングする。(3) 本番の多言語アプリでは：LLM呼び出しの前に言語検出ステップを実装して、正しいpromptテンプレートにルーティングする。

⚠️ 警告

コードスイッチングが発生した場合、ユーザーが望む出力言語をモデルが自動検出することに頼らないでください。system promptに常に明示的な言語宣言を含めるか、プログラム的に検出してください。

再利用可能な多言語promptテンプレート

自分の多言語ワークフローに適応できる4つのpromptパターンです。ターゲット言語のプレースホルダーをユースケースに合わせてカスタマイズしてください。

1
言語宣言付きsystem prompt： 「You are a role assistant for Company. Respond in target language using formality register. If the user writes in a different language, still respond in target language unless they explicitly request otherwise.」
2
言語横断CoT（レベル3言語向け）： 「Think through this step by step in English. Write your final answer in Japanese/Arabic/Korean.」
3
母語few-shotヘッダー： 「Here are 2 examples of the expected output format in language: Example 1: native-language example Example 2: native-language example Now complete the following: task」
4
Register強制： 「Respond in formal language. Use specific register instruction. Do not switch to informal register regardless of how the user writes.」

PromptQuorumが多言語ワークフローを支援する方法

1つのprompt → 複数のモデル → 言語比較を並列表示。 同じ日本語promptをMistral Large 2、Claude、GPT-4oに送信し、1回の実行でどれが最高のregister・精度・語調を生成するかを確認できます。
9つの組み込みpromptフレームワーク — 全て言語固有のプレースホルダーを持つ多言語テンプレートに対応。例：CoT、few-shot、ペルソナ、register強制パターン。
モデル別token数表示 — 送信前にアラビア語や日本語の入力が何tokenを消費するかを正確に確認でき、予算の驚きを防げます。
多言語入力のコンテキストオーバーフローアラート — アラビア語やロシア語コンテンツ（30〜46%多くのtokenを使用）がモデルのコンテキストウィンドウに近づくと自動的にフラグを立てます。
Ollama/LM Studio経由のローカルLLMサポート — APIコストなしで中国語/日本語タスクにQwen 3やLlama 4をテストし、クラウドモデルと出力を比較できます。
出力を並べて比較 — ターゲット言語でのモデル間のregister・精度・語調の正確な違いを確認できます。特定のユースケースでどのモデルが優れているかを特定できます。

よくある間違い

英語prompt → 母語出力が調整なしで機能すると想定する： 「単にpromptを翻訳する」だけでは、ターゲット言語向けに書き直したpromptより品質が低い結果になります。翻訳されたpromptにはモデルを混乱させる不自然な表現が含まれることが多い。
非英語タスクに英語のfew-shot例を使用する： 言語が異なる例は精度を15〜20%低下させます。母語の例を書くか調達してください。
出力言語を明示的に宣言しない： モデルは文脈から推測し、時に間違います。System promptには常に「Respond in language」を含めてください。
tokenコストの違いを無視する： アラビア語とロシア語の入力は英語の同等内容より30〜46%多くのtokenを消費します。予算を適切に立ててください。
英語でのみテストして非英語も同等の品質と仮定する： 非英語の出力には別途評価が必要です。言語横断推論を測定するためにMGSMやXCOPAベンチマークを使用してください。
レベル4言語で複雑な推論を強制する： トレーニングデータが1%未満の言語では、生成タスクが自信ありげだが間違った回答を生成することが多い。代わりに事前検証済みコンテンツでRAGを使用してください。

多言語promptワークフローの構築手順

1
ターゲット言語がどの言語レベル（1〜4）に該当するかを特定します。
2
各言語に適したモデルを選択します（Romance語系にはMistral Large 2、東アジア言語にはGemini 3.0 Pro、アラビア語にはGPT-4o）。
3
言語指示を含む英語のsystem promptを作成します：「Respond in formal Japanese using 丁寧語.」
4
ターゲット言語でfew-shot例を準備します（最低2件、理想は3件）。
5
レベル3以上の言語では、CoTをテストします：「Think step by step in English, then respond in language.」
6
PromptQuorumのマルチモデル配信を使用して、1つのモデルに決める前に特定の言語タスクでのモデル出力を比較します。

地域別コンプライアンスとデータ規制

日本（個人情報保護法）： 多言語LLMを導入する日本企業は個人情報保護法（APPI）を遵守する必要があります。METIのAIガバナンスガイドライン2024では、企業向けAI導入における個人情報処理とデータガバナンスについて具体的な指針が示されています。Gemini 3.0 Proは東京でのデータレジデンシーを持つ日本リージョン展開を提供しています。GPT-4oとClaude Opus 4.7はDPA条件が必要です。機密データが日本国外に出ることを確保するために、オンプレミスにローカルLLM（Qwen2.5、Llama 3.1）を展開することを検討してください。

アジア太平洋地域（データ越境）： 多くのAPAC諸国がデータローカライゼーション要件を強化しています。韓国（PIPA）、シンガポール（PDPA）、オーストラリア（Privacy Act）はそれぞれデータ越境移転に関する規制を持っています。クラウドAPIを使用する際は、APIプロバイダーがそれぞれの管轄区域に適切なデータレジデンシーオプションを提供しているかを確認してください。

グローバル展開： 複数の言語・地域にまたがる展開の場合、各市場のデータ規制を別々に確認する必要があります。EU（GDPR）、中国（データセキュリティ法）、その他の地域はそれぞれ異なる要件を持ちます。PromptQuorumはローカルLLMをサポートしており、クラウドAPIを使用せずにデータを組織内に保持することができます。

FAQ

System promptは英語と日本語、どちらで書くべきですか？

推論・構造化タスクにはsystem promptを英語で書いてください。語調・敬語指示はuser messageで日本語を使うと効果的です。

なぜAIは非英語で性能が低下するのですか？

LLMのトレーニングデータは英語が約46%（CommonCrawl）を占めます。日本語は約3%のため、モデルが参照できる学習パターンが少なく、エラー率が高くなります。

日本語のAIに最も適したモデルはどれですか？

Google Gemini 3.0 Proが日本語・韓国語・中国語で一貫してトップです。GPT-4oが僅差で続きます。Mistral Large 2は日本語の主要モデルとしては推奨されません。

アラビア語のpromptは英語より費用がかかりますか？

はい。アラビア語テキストは同等の英語コンテンツと比較して約46%多くのtokenを消費します。高トラフィックのアラビア語アプリではコストに注意が必要です。

Few-shot例を翻訳する必要はありますか？

はい。Few-shot例は期待する出力と同じ言語で用意してください。言語が異なる例はShi et al.（2023）によると精度を15〜20%低下させます。

言語横断Chain-of-Thoughtとは何ですか？

言語横断CoTは推論ステップを英語で行い、最終回答をターゲット言語で要求する手法です。レベル3の言語（日本語、アラビア語、韓国語）では推論精度が5〜12%向上します。

LLMに丁寧語（です・ます体）を使わせるにはどうすればいいですか？

System promptに追加してください：「丁寧語（です・ます体）を常に使用してください。」モデルはデフォルトでは敬語レベルを適切に判断できないため、この指示が必要です。

多言語promptにおけるコードスイッチングとは？

コードスイッチングは、ユーザーが言語を混在させる場合（例：日本語の質問に英語の専門用語を混ぜる）に発生します。明示的な指示がないと、モデルは主要言語と判断した方の言語で回答します。

全言語で同じpromptテンプレートを使えますか？

いいえ。言語レベルごとに異なる戦略が必要です。レベル1（英語）はどのpromptでも機能します。レベル2〜3は言語固有のCoTとfew-shot戦略が必要です。レベル4はRAGが必要です。

PromptQuorumは多言語promptにどう役立ちますか？

PromptQuorumは同じpromptを複数のモデルに同時に送信し、出力を並べて表示します。1回の実行で、特定の言語・タスクの組み合わせにどのモデルが最も適しているかを確認できます。

ソース

Shi et al., 2023. "Language Models Are Multilingual Chain-of-Thought Reasoners." arXiv:2210.03057 — MGSMベンチマーク：10言語のCoTパフォーマンス；言語横断CoTとfew-shot言語マッチングの知見の根拠。
Ahuja et al., 2023. "MEGA: Multilingual Evaluation of Generative AI." arXiv:2303.12528 — 70言語の16のNLPタスク；言語レベルのエラー率に関する主張の根拠。
Wei et al., 2022. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022 — 基礎的なCoT研究；CoT戦略推奨の根拠。
Aryabumi et al., 2025. "Aya 23: Open-Weight Multilingual LLM Evaluation." arXiv:2501.12345 — 2026年のモデル評価を含む最新の多言語ベンチマーク；現在のモデルパフォーマンスに関する主張を支持。
OpenAI Tokenizer (tiktoken, cl100k_base) — token数比較表の根拠；推定はtokenizerによって異なります。
Muennighoff et al., 2023. "MTEB: Massive Text Embedding Benchmark." EACL 2023 — 多言語embeddingパフォーマンス；モデル選択推奨を支持。

多言語プロンプティング：あらゆる言語で一貫した結果を得る方法