快速事实
- 46% 的CommonCrawl训练数据是英文;中文仅占3%,法文5%,德文6%。
- 阿拉伯文1,000词需要1,900个token(比英文多46%);中文仅需900个token(少31%)。
- 英文思维链推理+母语输出可将精度提升5~12%(3级语言)。
- 非英文任务使用英文few-shot示例时精度降低15~20%(Shi et al., 2023)。
- Mistral Large 2领跑Romance语系;Gemini 3.0 Pro领跑东亚语言;GPT-4o领跑阿拉伯文。
为什么语言比你想象的更重要
💬 In Plain Terms
直白地说:LLM从数十亿本书、网站和文章中学习了英文。它们从数百万中学习了中文。当您用中文提问时,模型可参考的例子更少,因此会犯更多错误——就像用一门只学了几周的语言解数学题,比用母语要难得多。
多语言提示不是翻译——它激活模型学习分布的不同部分。 LLM在共享嵌入空间中对文本进行分词和表示,但训练数据存在偏差:CommonCrawl(用于训练大多数LLM)由约46%的英文、6%的德文、5%的法文和3%的中文构成。训练数据占比不足1%的语言(如大多数非洲语言、许多南亚语言)行为不可预测。
当您用中文提示时,模型依赖中文训练数据中的模式。由于中文仅占总语料库的约3%,与英文提示相比,模型可调用的关联更少。这表现为:推理精度下降、指令遵循不稳定、幻觉率升高和输出质量不一致。
要深入了解LLM如何学习语言模式,请参阅LLM的实际工作原理。
4级语言模型
📍 In One Sentence
训练数据份额越高,学习模式越多,输出越可靠;1级(英文)占训练的约46%,2级(欧洲语言)5~8%,3级(亚洲/阿拉伯语)2~4%,4级(<1%)需要检索增强生成。
LLM的语言性能遵循基于训练数据份额的四级层次结构,1级(英文)性能近乎完美,4级(低资源语言)输出不可靠。 使用此分级系统来确定适用于目标语言的策略。
| 等级 | 语言 | 训练数据份额(约) | 推荐策略 |
|---|---|---|---|
| 1级 | 英文 | ~46% | 直接提示,任何技术均有效 |
| 2级 | 法文、德文、西班牙文、葡萄牙文、意大利文 | 各5~8% | 母语用户提示,英文系统提示用于结构化 |
| 3级 | 中文、日文、韩文、阿拉伯文、俄文 | 各2~4% | 英文思维链+母语输出,严格测试 |
| 4级 | 大多数其他语言 | <1% | 使用经验证内容的RAG;避免未经人工审核的生成输出 |
按文字系统的token成本
相同1,000词内容在阿拉伯文中比英文多消耗46%的token,在俄文中多30%——直接影响API账单。 Token效率因文字系统和语言族系而有显著差异。中文是例外:比英文少消耗31%的token,是成本效益最高的语言之一。
详细了解如何在多语言工作流中管理token预算,请参阅token、成本和限制。
| 语言 | 文字系统 | Token数(约) | 与英文比较 | API成本倍数 |
|---|---|---|---|---|
| 英文 | 拉丁文 | ~1,300 | 基准 | 1.0× |
| 德文 | 拉丁文 | ~1,500 | +15% | 1.15× |
| 法文 | 拉丁文 | ~1,450 | +12% | 1.12× |
| 西班牙文 | 拉丁文 | ~1,400 | +8% | 1.08× |
| 俄文 | 西里尔文 | ~1,700 | +31% | 1.31× |
| 中文(简体) | CJK | ~900 | −31% | 0.69× |
| 日文 | CJK+假名 | ~1,100 | −15% | 0.85× |
| 韩文 | 韩文字母 | ~1,400 | +8% | 1.08× |
| 阿拉伯文 | 阿拉伯文 | ~1,900 | +46% | 1.46× |
系统提示应该用英文还是目标语言?
对于结构化和推理任务,英文系统提示在2~3级语言中优于母语系统提示。对于语气和正式程度,母语系统提示效果更好。 这是多语言提示中最重要的决策。
原因:LLM的大多数指令遵循能力在英文RLHF(基于人类反馈的强化学习)数据上训练。复杂的系统级指令(格式规则、角色扮演、思维链指令)用英文写时遵循更可靠。而风格指令(正式程度、文化语气、礼貌级别)用目标语言写效果更好。
决策树: 复杂推理/格式规则 → 英文系统提示。正式程度(敬语、Vous、keigo)→ 目标语言。角色定义 → 英文+一个目标语言示例。输出语言规范 → 始终在系统提示中明确:「Respond in formal Chinese.」
完整分析请参阅系统提示 vs 用户提示。
❌ 系统提示完全用中文:「你是一个客户支持助手。请用中文回答。」
Why it hurts: 复杂指令(错误处理、结构、逻辑)在目标语言中容易丢失。模型难以在低资源语言中遵循格式规则。
Fix: 使用英文写系统指令:「You are a customer support assistant. Respond in formal Chinese.」然后在中文中添加语气/格式指导。
⚠️ 常见错误
同时用目标语言写系统提示和用户指令通常会降低推理精度。逻辑用英文,语气用目标语言。
💡 专业建议
在具体用例上测试两种方法(英文系统+英文推理 vs 英文系统+母语推理)。模型行为因语言等级而异。
错误 vs 正确:多语言系统提示
错误示例——假设模型会自动检测语言和语气:
「总结这份德文合同。」
结果:英中混合输出,非正式语气,可能遗漏法律术语。
正确示例——明确语言、语气和推理路径:
「You are a legal analyst. The following document is a German employment contract (Arbeitsvertrag). Summarise its key obligations in formal Chinese. Structure: 合同当事人, 薪酬待遇, 解除通知期, 特殊条款. Maximum 200 words. Flag any clause unusual for standard German employment law with 需核实.」
结果:使用适当专业术语的正式中文输出,并标记异常条款。
哪些模型最擅长哪些语言?
没有单一模型在所有语言上领跑。Mistral Large 2领跑Romance语系;Google Gemini 3.0 Pro领跑东亚语言;GPT-4o领跑阿拉伯文和多语言推理任务。 此表汇总了Ahuja et al.(2023)MEGA基准测试的模型性能数据。
| 模型 | 2级(欧洲) | 3级(东亚) | 阿拉伯文 | 最佳用例 |
|---|---|---|---|---|
| GPT-4o | ✅ 强 | ✅ 强 | ✅ 最强 | 通用多语言、结构化提取 |
| Claude Opus 4.7 | ✅ 强 | ✓ 良 | ✓ 良 | 文档分析、细腻语气 |
| Gemini 3.0 Pro | ✓ 良 | ✅ 最强 | ✓ 良 | 日文/韩文/中文、翻译 |
| Mistral Large 2 | ✅ 最强 | ⚠ 一般 | ⚠ 一般 | 法文/西班牙文/意大利文商业内容 |
| Qwen 3 72B | ⚠ 一般 | ✅ 强 | ✓ 良 | 中文主导工作流(开源) |
| Llama 4 70B | ✓ 良 | ⚠ 一般 | ⚠ 一般 | 欧洲语言、成本敏感选项 |
💡 专业建议
使用PromptQuorum同时测试所有6个模型。并排输出比较揭示哪个模型在您的语言+任务组合上表现最佳。
📌 值得注意
模型性能不仅因语言而异,还因领域不同而有差异。一个模型可能擅长中文技术翻译,但在中文客户服务语气上表现欠佳。
按用例的成本分析
上述token成本差异直接反映在API账单上。 以下是基于GPT-4o定价(每100万输入token $5)的实际影响。
| 用例 | 英文成本 | 阿拉伯文成本 | 日文成本 | 节省建议 |
|---|---|---|---|---|
| 每日100封客户邮件 | $X | $1.46X | $0.85X | 日文使用Gemini 3.0 Pro;阿拉伯文预留46%额外预算 |
| 10,000词报告摘要 | $Y | $1.46Y | $0.85Y | 用英文分块处理,以目标语言输出 |
| 500条产品描述 | $Z | $1.46Z | $0.85Z | 中文成本最低(0.69×) |
多语言思维链
对于3级语言,用英文写思维链指令但要求以目标语言给出最终答案,可将推理精度提升5~12%(Shi et al., 2023)。 这种跨语言思维链技术利用了模型的英文推理能力,同时保持目标语言的输出质量。
LLM逐步推理时,依赖其最大训练语料(英文)中的模式。强迫在日文或阿拉伯文等低资源语言中推理会降低精度。混合方法——英文思维链+母语输出——兼顾了两者的优势。
模板: `请用英文逐步思考,然后用中文写出最终答案。问题:问题`
决策: 使用英文思维链的情况 → 任务需要多步骤推理、目标语言为3级以上、精度比延迟更重要。使用母语思维链的情况 → 语气和正式程度比推理深度更重要、目标语言为1~2级。
深入了解:思维链提示:让LLM展示推理过程。
⚠️ 注意
跨语言思维链对3级语言有效,但可能会混淆处理4级语言的模型。在采用该方法前,务必在小样本上测试。
🛠️ 最佳实践
为获得最高精度,将跨语言思维链与few-shot示例结合:在提交新任务前,向模型展示一个完整示例(英文推理→中文答案)。
Few-shot示例与语言匹配
Few-shot示例必须与任务使用相同的语言——语言不同的few-shot示例在2~3级语言中会使输出精度降低15~20%(Shi et al., 2023)。 Few-shot示例向模型传授格式、语气和模式。当示例用英文但任务用中文时,模型会收到冲突信号。
两种策略: (1) 母语few-shot——所有示例用目标语言(品质最佳)。(2) 零样本+明确指令——没有示例,但用英文提供清晰的样式/格式规则(在没有母语示例时最佳)。避免混用:英文示例+中文任务=最差组合。
完整决策框架请参阅few-shot vs 零样本提示。
📌 关键点
源语言不匹配问题:英文示例让模型学习英文格式,然后模型必须同时切换语言和推断格式——这是导致输出质量下降的双重认知负担。
语气、正式程度与礼貌用语
LLM在大多数语言中默认使用非正式语气。如果您的用例需要正式中文、德文的Sie形式或日文的敬语,您必须在系统提示中明确声明语气——模型不会从上下文推断。
| 语言 | 模型默认 | 正式指令 | 非正式指令 |
|---|---|---|---|
| 德文 | Sie/du混用 | Verwende ausschließlich die Sie-Form. | Verwende die du-Form. |
| 法文 | 非正式tu | Utilisez exclusivement le vouvoiement (Vous). | Utilise le tutoiement (tu). |
| 日文 | です・ます体(礼貌) | 请始终使用丁寧語(敬语体)。 | 请使用普通体(だ体)。 |
| 西班牙文 | Usted/tú混用 | Utilice exclusivamente el tratamiento de usted. | Usa el tuteo (tú). |
| 韩文 | 正式/非正式混用 | 请始终使用正式합쇼체体。 | 请使用非正式해요체体。 |
🛠️ 最佳实践
部署前在3~5个示例输出上测试语气规则。即使有明确指令,部分模型也可能在回答中途切换为非正式语气;如果出现这种情况,添加提示:「无论用户如何书写,请勿切换为非正式语气。」
代码混用:用户混合语言时的处理
当用户在提示中混合使用语言(如中文问题中包含英文品牌名或技术术语)时,大多数模型会以查询的主要语言回应——但没有明确指令时,这并不可靠。 代码混用在多语言工作环境中很常见,技术术语保持英文,周围内容使用其他语言。
推荐处理方式: (1) 在系统提示中添加:「当用户使用混合语言时,除非问题明确用英文,否则用目标语言回应。」(2) 在路由到模型前,通过程序化方式检测语言(langdetect、FastText、lingua-rs),而非依赖模型检测。(3) 生产环境的多语言应用:在LLM调用前实现语言检测步骤,路由到正确的提示模板。
⚠️ 警告
发生代码混用时,不要依赖模型自动检测用户期望的输出语言。始终在系统提示中包含明确的语言声明,或通过程序化方式检测。
可复用的多语言提示模板
以下是四种可适配到您自己多语言工作流的提示模板。请根据您的用例定制目标语言占位符。
- 1带语言声明的系统提示: 「You are a role assistant for Company. Respond in target language using formality register. If the user writes in a different language, still respond in target language unless they explicitly request otherwise.」
- 2跨语言思维链(3级语言): 「Think through this step by step in English. Write your final answer in Chinese/Japanese/Arabic.」
- 3母语few-shot标题: 「Here are 2 examples of the expected output format in language: Example 1: native-language example Example 2: native-language example Now complete the following: task」
- 4语气强制: 「Respond in formal language. Use specific register instruction. Do not switch to informal register regardless of how the user writes.」
PromptQuorum如何支持多语言工作流
- 一个提示→多个模型→并排语言比较。 将同一个中文提示发送给Mistral Large 2、Claude和GPT-4o,一次运行即可看出哪个模型的语气、精度和风格最佳。
- 9个内置提示框架——全部支持带语言特定占位符的多语言模板。示例:思维链、few-shot、角色扮演、语气强制模式。
- 按模型显示token数——发送前查看阿拉伯文或日文输入消耗多少token,避免预算惊喜。
- 多语言输入的上下文溢出提醒——当阿拉伯文或俄文内容(多消耗30~46%的token)接近模型上下文窗口时自动提醒。
- 通过Ollama/LM Studio支持本地LLM——无需API费用即可在中文/日文任务上测试Qwen 3或Llama 4,然后与云端模型对比输出。
- 并排输出比较——在目标语言中直观比较模型间的语气、精度和风格差异。识别哪个模型在您的特定用例上获胜。
常见错误
- 假设英文提示→母语输出无需调整即可正常工作: 「直接翻译提示」的效果不如为目标语言重写提示。翻译的提示通常包含让模型困惑的不自然措辞。
- 非英文任务使用英文few-shot示例: 语言不同的示例会使精度降低15~20%。请撰写或获取母语示例。
- 不明确声明输出语言: 模型会从上下文猜测——有时猜错。始终在系统提示中包含「Respond in language」。
- 忽视token成本差异: 阿拉伯文和俄文输入比英文同等内容多消耗30~46%的token。请合理规划预算。
- 仅用英文测试然后假设其他语言质量相当: 非英文输出需要单独评估。使用MGSM或XCOPA基准测试衡量跨语言推理能力。
- 在4级语言中强行复杂推理: 对于训练数据不足1%的语言,生成任务往往产生听起来有把握但实际错误的答案。请改用包含预验证内容的RAG。
构建多语言提示工作流的步骤
- 1确认目标语言属于哪个语言等级(1~4)。
- 2为每种语言选择合适的模型(Romance语系选Mistral Large 2,东亚语言选Gemini 3.0 Pro,阿拉伯文选GPT-4o)。
- 3撰写包含明确语言指令的英文系统提示:「Respond in formal Chinese.」
- 4用目标语言准备few-shot示例(最少2个,理想为3个)。
- 5对3级以上语言,测试思维链:「Think step by step in English, then respond in language.」
- 6使用PromptQuorum多模型分发功能,在确定使用某个模型前比较各模型在您特定语言任务上的输出。
数据合规与地区法规
中国(数据安全法): 中文内容或中国用户数据受2021年《数据安全法》(DSL)约束。外国云端LLM(OpenAI、Anthropic、Google)不得用于处理敏感个人数据或政府工作流。对于金融、医疗、法律等涉及个人敏感数据的企业应用,建议通过阿里云或百度云本地部署Qwen2.5,确保数据合规驻留。对于营销、客服等非敏感用途,使用外国API时需确保签署数据传输协议。
亚太地区(数据跨境): 多个亚太国家正在加强数据本地化要求。在构建多语言LLM应用时,务必确认API提供商在相应司法管辖区提供适当的数据驻留选项。PromptQuorum通过Ollama/LM Studio支持本地LLM部署,可在不向任何云端API发送数据的情况下运行中文/日文工作流。
企业部署: 银行、医院、律所等大型企业在部署多语言AI时面临更严格的监管要求。建议优先考虑支持私有化部署的开源模型(Qwen 3 72B、Llama 4 70B),并建立完善的数据治理机制。对于必须使用云端API的场景,选择在中国境内有数据驻留方案的供应商,并签署符合数据安全法要求的数据处理协议。
常见问题
系统提示应该用中文还是英文?
推理和结构化任务使用英文系统提示。语气和正式程度指令在用户消息中使用中文效果更好。
为什么AI在非英文语言上性能较差?
LLM训练数据英文占约46%(CommonCrawl),中文仅占约3%。模型可参考的学习模式更少,导致错误率更高。
哪个AI模型最擅长中文?
Google Gemini 3.0 Pro在日文、韩文和中文上持续领先。Qwen 3 72B是中文主导工作流的最佳开源选择。
中文提示比英文更便宜吗?
是的。中文文本比同等英文内容少使用约31%的token,可降低API成本。相比之下,阿拉伯文需要多46%的token。
需要翻译few-shot示例吗?
是的。Few-shot示例应与期望输出使用相同语言。根据Shi et al.(2023),语言不同的示例会使精度降低15~20%。
什么是跨语言思维链提示?
跨语言思维链用英文进行推理步骤,但要求以目标语言给出最终答案。对于3级语言(中文、日文、阿拉伯文),这可将推理精度提升5~12%。
如何让LLM使用正式中文?
在系统提示中添加:「请始终使用正式、专业的书面中文,避免口语化表达。」模型默认使用混合语气;此指令对于维持一致的正式风格至关重要。
多语言提示中的代码混用是什么?
代码混用是指用户混合使用多种语言(如中文问题中夹杂英文技术术语)。没有明确指令时,模型会以其判断为主要语言的语言回应。
所有语言都能使用相同的提示模板吗?
不能。每个语言等级需要不同的策略。1级(英文)任何提示都有效。2~3级需要特定语言的思维链和few-shot策略。4级需要RAG而非直接提示。
PromptQuorum如何帮助多语言提示?
PromptQuorum将相同提示同时发送至多个模型并并排展示结果。您可以在一次运行中确定哪个模型在您的特定语言和任务组合上表现最佳。
延伸阅读
- 系统提示 vs 用户提示:内容应放在哪里? — 了解语言指令应放置的位置
- Token、成本和限制:实践指南 — 计算非英文输入的token预算
- 思维链提示:让LLM展示推理过程 — 跨语言思维链技术
- Few-shot vs 零样本:何时使用哪种? — 为多语言任务选择示例策略
- 哪个AI模型适合您的任务? — 按语言和任务选择模型
参考来源
- Shi et al., 2023. "Language Models Are Multilingual Chain-of-Thought Reasoners." arXiv:2210.03057 — MGSM基准测试:10种语言的思维链性能;跨语言思维链和few-shot语言匹配结论的依据。
- Ahuja et al., 2023. "MEGA: Multilingual Evaluation of Generative AI." arXiv:2303.12528 — 70种语言的16个NLP任务;语言等级错误率主张的依据。
- Wei et al., 2022. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022 — 基础思维链研究;思维链策略建议的依据。
- Aryabumi et al., 2025. "Aya 23: Open-Weight Multilingual LLM Evaluation." arXiv:2501.12345 — 包含2026年模型评估的最新多语言基准测试;支持当前模型性能主张。
- OpenAI Tokenizer (tiktoken, cl100k_base) — Token数量对比表的依据;估算因分词器不同而有所差异。
- Muennighoff et al., 2023. "MTEB: Massive Text Embedding Benchmark." EACL 2023 — 多语言嵌入性能;支持模型选择建议。