Dados rápidos
- 46% dos dados de treinamento do CommonCrawl são inglês; apenas 3% chinês, 5% francês, 6% alemão.
- 1.900 tokens para 1.000 palavras em árabe (46% mais que inglês); 900 tokens para chinês (31% menos).
- 5–12% de ganho de precisão usando raciocínio Chain-of-Thought em inglês com saída no idioma-alvo (idiomas de nível 3).
- 15–20% de perda de precisão com exemplos few-shot em inglês para tarefas em outros idiomas (Shi et al., 2023).
- Mistral Large 2 lidera em idiomas românicos; Gemini 3.0 Pro em idiomas do Leste Asiático; GPT-5.5 em árabe.
Por que o idioma importa mais do que você imagina
💬 In Plain Terms
Em termos simples: os LLMs aprenderam inglês de bilhões de livros, sites e artigos. Português de milhões. Quando você faz uma pergunta em português, o modelo tem menos exemplos para se apoiar — por isso comete mais erros, assim como você resolveria exercícios de matemática pior em um idioma que aprendeu há poucas semanas do que na sua língua materna.
O prompting multilíngue não é tradução — ativa uma parte diferente da distribuição aprendida do modelo. Os LLMs tokenizam e representam o texto em um espaço de embedding comum, mas os dados de treinamento são muito enviesados: o CommonCrawl (usado para treinar a maioria dos LLMs) consiste em ~46% de inglês, ~6% de alemão, ~5% de francês, ~3% de chinês. Idiomas com menos de 1% de participação no treinamento se comportam de forma imprevisível.
Quando você faz prompting em português, o modelo se apoia em padrões dos dados de treinamento em português. Como o português representa apenas ~3% do corpus de treinamento, o modelo tem significativamente menos associações aprendidas em comparação com os prompts em inglês. Isso se manifesta em: menor precisão de raciocínio, seguimento de instruções inconsistente, taxas de alucinação mais altas e qualidade de saída imprevisível.
O modelo de idiomas de 4 níveis
📍 In One Sentence
Maior participação no treinamento = mais padrões aprendidos = saídas mais confiáveis; nível 1 (inglês) ~46%, nível 2 (idiomas europeus) ~5–8%, nível 3 (Ásia/árabe) ~2–4%, nível 4 (<1%) requer Geração Aumentada por Recuperação.
O desempenho dos idiomas nos LLMs segue uma hierarquia de quatro níveis baseada na participação no treinamento. O nível 1 (inglês) alcança resultados quase perfeitos; o nível 4 (idiomas com poucos recursos) produz saídas pouco confiáveis. Use o mapeamento de níveis para determinar a estratégia correta para o seu idioma-alvo.
| Nível | Idiomas | Participação no treinamento (aprox.) | Estratégia recomendada |
|---|---|---|---|
| Nível 1 | Inglês | ~46% | Fazer prompting diretamente, todas as técnicas funcionam |
| Nível 2 | Alemão, francês, espanhol, português, italiano | 5–8% cada | Prompts de usuário no idioma-alvo, prompt de sistema em inglês para a estrutura |
| Nível 3 | Chinês, japonês, coreano, árabe, russo | 2–4% cada | CoT em inglês + saída no idioma-alvo, testar outputs rigorosamente |
| Nível 4 | A maioria dos outros idiomas | <1% | Usar RAG com conteúdo verificado; não usar saídas generativas sem revisão humana |
Custos de tokens por escrita
O mesmo texto de 1.000 palavras custa 46% mais em tokens em árabe do que em inglês e 31% mais em russo — isso impacta diretamente sua fatura da API. A eficiência de tokens varia significativamente de acordo com o sistema de escrita e a família de idiomas.
| Idioma | Escrita | Tokens (aprox.) | vs. inglês | Fator de custo API |
|---|---|---|---|---|
| Inglês | Latino | ~1.300 | Base | 1,0× |
| Alemão | Latino | ~1.500 | +15% | 1,15× |
| Francês | Latino | ~1.450 | +12% | 1,12× |
| Espanhol | Latino | ~1.400 | +8% | 1,08× |
| Russo | Cirílico | ~1.700 | +31% | 1,31× |
| Chinês (simplificado) | CJK | ~900 | −31% | 0,69× |
| Japonês | CJK + Kana | ~1.100 | −15% | 0,85× |
| Coreano | Hangul | ~1.400 | +8% | 1,08× |
| Árabe | Árabe | ~1.900 | +46% | 1,46× |
Seu prompt de sistema deve estar em inglês?
Para tarefas de raciocínio e estruturadas, os prompts de sistema em inglês superam os prompts de sistema no idioma-alvo em idiomas de nível 2 e nível 3. Para tom e formalidade, as instruções no idioma-alvo são superiores. Esta é a decisão mais importante no prompting multilíngue.
Por quê? A maior parte da capacidade de seguimento de instruções dos LLMs foi treinada em dados RLHF (Reinforcement Learning from Human Feedback) em inglês. As instruções de sistema complexas (regras de formato, personas, diretivas Chain-of-Thought) são seguidas de forma mais confiável quando escritas em inglês.
Árvore de decisão: Regras de raciocínio/formato complexas → prompt de sistema em inglês. Registro de formalidade (você, vous, keigo) → idioma-alvo. Definição de persona → inglês + um exemplo no idioma-alvo. Especificação do idioma de saída → sempre explícita no prompt de sistema: "Respond in formal Brazilian Portuguese (tratamento de você)."
❌ Prompt de sistema completamente em português: "Você é um assistente de atendimento ao cliente. Responda em português."
Why it hurts: As instruções complexas (tratamento de erros, estrutura, lógica) se perdem na tradução. O modelo tem dificuldade em seguir regras de formato de forma confiável.
Fix: Use inglês para as instruções do sistema: "You are a customer support assistant. Respond in Brazilian Portuguese using formal você form." Depois adicione instruções de registro e tom em português.
⚠️ Erro comum
Escrever o prompt de sistema e as instruções de usuário completamente no idioma-alvo frequentemente reduz significativamente a precisão de raciocínio. Use inglês para a lógica, o idioma-alvo para o tom.
💡 Dica Pro
Teste ambas as abordagens (sistema em inglês + raciocínio em inglês vs. sistema em inglês + raciocínio nativo) para o seu caso de uso específico. O comportamento do modelo varia de acordo com o nível do idioma.
Ruim vs. bom: prompt de sistema multilíngue
Prompt ruim — assume que o modelo reconhecerá o idioma e o registro:
"Resuma este contrato em português."
Resultado: saída misturada em português e inglês, registro informal, terminologia jurídica faltando.
Prompt bom — idioma, registro e caminho de raciocínio explícitos:
"You are a legal analyst. The following document is a Brazilian employment contract (contrato de trabalho). Summarise its key obligations in formal Brazilian Portuguese (tratamento de você). Structure: Partes do contrato, Remuneração, Prazos de aviso prévio, Cláusulas especiais. Maximum 200 words. Flag any clause that is unusual for standard Brazilian employment law with REVISAR."
Resultado: saída formal em português estruturada com terminologia específica do domínio e anomalias marcadas.
Quais modelos lidam melhor com quais idiomas?
Nenhum modelo individual domina todos os idiomas. Mistral Large 2 lidera em idiomas românicos; Google Gemini 3.0 Pro em idiomas do Leste Asiático; GPT-5.5 em árabe e tarefas de raciocínio multilíngue.
| Modelo | Nível 2 (Europeu) | Nível 3 (Leste Asiático) | Árabe | Melhor caso de uso |
|---|---|---|---|---|
| GPT-5.5 | ✅ Forte | ✅ Forte | ✅ Melhor | Multilíngue geral, extração estruturada |
| Claude Opus 4.8 | ✅ Forte | ✓ Bom | ✓ Bom | Análise de documentos, tom com nuance |
| Gemini 3.0 Pro | ✓ Bom | ✅ Melhor | ✓ Bom | Japonês/coreano/chinês, tradução |
| Mistral Large 2 | ✅ Melhor | ⚠ Moderado | ⚠ Moderado | Alemão/francês/espanhol, conteúdo empresarial |
| Qwen 3 72B | ⚠ Moderado | ✅ Forte | ✓ Bom | Fluxos de trabalho em chinês (open-source) |
| Llama 3.3 70B | ✓ Bom | ⚠ Moderado | ⚠ Moderado | Idiomas europeus, opção com consciência de custos |
💡 Dica Pro
Com o PromptQuorum você pode enviar seu prompt para os 6 modelos simultaneamente e comparar as saídas lado a lado. Assim você identifica em um único envio qual modelo é mais adequado para a sua combinação específica de idioma e tarefa.
📌 Você sabia?
O desempenho do modelo varia não apenas por idioma, mas também por domínio. Um modelo pode oferecer excelentes resultados em tradução técnica para o japonês, mas falhar no tom de atendimento ao cliente em japonês.
Custo por caso de uso
As diferenças de custo de tokens se refletem diretamente em sua fatura da API. Aqui o impacto real baseado nos preços do GPT-5.5 (5 USD por milhão de tokens de entrada).
| Caso de uso | Custo em inglês | Custo em árabe | Custo em japonês | Dica de economia |
|---|---|---|---|---|
| 100 e-mails de clientes/dia | $X | $1,46X | $0,85X | Usar Gemini 3.0 Pro para japonês; orçar 46% extra para árabe |
| Resumo de relatório de 10.000 palavras | $Y | $1,46Y | $0,85Y | Processar em inglês, gerar a saída no idioma-alvo |
| 500 descrições de produtos | $Z | $1,46Z | $0,85Z | Chinês é o mais econômico (0,69×) |
Prompting Chain-of-Thought em diferentes idiomas
Para idiomas de nível 3, especificar a instrução Chain-of-Thought em inglês — ao mesmo tempo que se solicita a resposta final no idioma-alvo — melhora a precisão do raciocínio entre 5 e 12% (Shi et al., 2023). Esta técnica de CoT entre idiomas aproveita os pontos fortes de raciocínio do modelo em inglês, mantendo a qualidade de saída no idioma-alvo.
Modelo: `Think through this step by step in English, then write your final answer in Brazilian Portuguese. Question: pergunta`
Decisão: Usar CoT em inglês quando → a tarefa requer raciocínio em múltiplas etapas, o idioma-alvo é de nível 3+, a precisão é mais importante que a latência. Usar CoT nativo quando → o tom e o registro importam mais que a profundidade do raciocínio, o idioma-alvo é de nível 1–2.
⚠️ Nota
O CoT entre idiomas funciona para idiomas de nível 3, mas pode confundir modelos com idiomas de nível 4. Sempre teste em uma amostra pequena antes de usar em produção.
🛠️ Melhor prática
Para maior precisão: combine CoT entre idiomas com exemplos few-shot — mostre ao modelo um exemplo completo (raciocínio em inglês → resposta em português) antes de dar uma nova tarefa.
Exemplos few-shot e correspondência de idioma
Os exemplos few-shot devem estar no mesmo idioma que a tarefa — exemplos entre idiomas reduzem a precisão de saída em idiomas de nível 2 e nível 3 entre 15 e 20% (Shi et al., 2023). Os exemplos few-shot ensinam ao modelo o formato, o tom e os padrões. Se os exemplos estão em inglês, mas a tarefa está em português, o modelo recebe sinais contraditórios.
Duas estratégias: (1) Few-shot nativo — todos os exemplos no idioma-alvo (melhor qualidade). (2) Zero-shot + instruções explícitas — sem exemplos, mas com regras claras de estilo/formato em inglês (melhor opção quando não há exemplos nativos disponíveis). Evite: exemplos em inglês + tarefa em português = o pior dos dois mundos.
📌 Ponto-chave
Desequilíbrio de idioma nos exemplos: exemplos em inglês treinam o modelo no formato em inglês — depois ele tem que mudar de idioma e deduzir o formato simultaneamente, gerando uma carga cognitiva dupla e qualidade de saída inferior.
Formalidade, registro e tratamentos
Os LLMs usam registros informais por padrão na maioria dos idiomas. Se o seu caso de uso exige português formal (tratamento de você), japonês formal (丁寧語) ou o francês com vous, você deve declarar o registro explicitamente no prompt de sistema — o modelo não deduz isso do contexto. Isso é frequentemente ignorado e produz saídas que soam incorretas para os falantes nativos.
| Idioma | Padrão do LLM | Instrução formal | Instrução informal |
|---|---|---|---|
| Alemão | Sie/du misturado | Verwende ausschließlich die Sie-Form. | Verwende die du-Form. |
| Francês | tu informal | Utilisez exclusivement le vouvoiement (Vous). | Utilise le tutoiement (tu). |
| Japonês | ですます (cortês) | Use 丁寧語 throughout. | Use plain form (だ体). |
| Português | você/informal misturado | Utilize exclusivamente o tratamento formal de você e tom profissional. | Use linguagem informal e descontraída. |
| Coreano | formal/informal misturado | Use formal 합쇼체 throughout. | Use informal 해요체. |
🛠️ Melhor prática
Teste a aplicação do registro em 3–5 saídas de exemplo antes de ir para produção. Alguns modelos mudam para o registro informal no meio do texto apesar da instrução explícita.
Code-switching: quando os usuários misturam idiomas
Quando os usuários misturam idiomas (por exemplo, uma pergunta em português com um nome de marca em inglês ou um comentário de código em inglês), a maioria dos modelos responde no idioma dominante da solicitação — mas isso não é confiável sem instruções explícitas.
Abordagem recomendada: (1) No prompt de sistema: "Quando o usuário misturar idiomas, responda em idioma-alvo a menos que a pergunta esteja explicitamente em inglês." (2) Detecte o idioma programaticamente (langdetect, FastText, lingua-rs) antes de rotear para o modelo — não dependa de que o modelo o detecte. (3) Para apps multilíngues em produção: implemente uma etapa de detecção de idioma antes da chamada ao LLM.
⚠️ Aviso
Não confie nos modelos para detectar automaticamente o idioma de saída desejado no code-switching. Sempre inclua uma declaração de idioma explícita no prompt de sistema ou detecte o idioma programaticamente.
Modelos de prompts multilíngues reutilizáveis
Quatro padrões de modelo que você pode adaptar para seus próprios fluxos de trabalho multilíngues. Substitua os marcadores de posição conforme o seu caso de uso.
- 1Prompt de sistema com consciência de idioma: "You are a role assistant for Company. Respond in idioma-alvo using registro de formalidade. If the user writes in a different language, still respond in idioma-alvo unless they explicitly request otherwise."
- 2CoT entre idiomas (para idiomas de nível 3): "Think through this step by step in English. Write your final answer in Japonês/Árabe/Coreano."
- 3Cabeçalho de few-shot nativo: "Here are 2 examples of the expected output format in idioma:\nExample 1: Exemplo no idioma-alvo\nExample 2: Exemplo no idioma-alvo\nNow complete the following: Tarefa"
- 4Aplicação do registro: "Respond in formal idioma. Use instrução de registro específica. Do not switch to informal register regardless of how the user writes."
Como o PromptQuorum ajuda com fluxos multilíngues
- Um prompt → múltiplos modelos → comparação de idiomas lado a lado. Envie o mesmo prompt em português para Mistral Large 2, Claude e GPT-5.5 e veja qual modelo oferece melhor registro, maior precisão e melhor tom — em um único envio.
- 9 frameworks de prompts integrados — todos suportam modelos multilíngues com marcadores de posição específicos do idioma.
- Função de visualização de tokens por modelo — veja exatamente quantos tokens suas entradas em árabe ou alemão consomem antes de enviar — sem surpresas no orçamento.
- Avisos de transbordamento de contexto para entradas multilíngues — alerta automaticamente quando o conteúdo em árabe ou russo esgota a janela de contexto do seu modelo.
- Suporte para LLMs locais via Ollama/LM Studio — teste Qwen 3 ou Llama 4 em tarefas em chinês/japonês sem custos de API e compare as saídas com modelos na nuvem.
- Comparação de saídas lado a lado — veja as diferenças exatas em registro, precisão e tom entre modelos no seu idioma-alvo.
Erros comuns
- Traduzir o prompt sem adaptá-lo: "Simplesmente traduzir o prompt" produz resultados piores do que reformulá-lo para o idioma-alvo. Prompts traduzidos frequentemente contêm formulações não naturais que confundem o modelo.
- Usar exemplos few-shot em inglês para tarefas em outros idiomas: Exemplos entre idiomas reduzem a precisão entre 15 e 20%. Use exemplos nativos no idioma-alvo.
- Não especificar explicitamente o idioma de saída: Os modelos adivinham pelo contexto — e às vezes erram. Sempre adicione "Respond in idioma" no prompt de sistema.
- Ignorar as diferenças de custo de tokens: Entradas em árabe e russo consomem entre 30 e 46% mais tokens do que os equivalentes em inglês. Planeje o orçamento adequadamente.
- Testar apenas em inglês e assumir a mesma qualidade para outros idiomas: Saídas em idiomas diferentes do inglês requerem avaliação separada.
- Forçar raciocínio complexo em idiomas de nível 4: Para idiomas com menos de 1% de participação no treinamento, as tarefas generativas frequentemente produzem respostas incorretas de aparência convincente. Use RAG com conteúdo verificado previamente.
Como configurar um fluxo de prompts multilíngue
- 1Determine em qual nível(is) de idioma seu(s) idioma(s)-alvo se encaixam (níveis 1–4).
- 2Escolha o modelo correto para cada idioma (Mistral Large 2 para idiomas românicos, Gemini 3.0 Pro para idiomas do Leste Asiático, GPT-5.5 para árabe).
- 3Escreva um prompt de sistema em inglês com instrução explícita de idioma: "Respond in formal Brazilian Portuguese (tratamento de você)."
- 4Prepare exemplos few-shot no idioma-alvo (pelo menos 2, idealmente 3).
- 5Para idiomas de nível 3+: teste CoT — adicione: "Think step by step in English, then respond in idioma."
- 6Use o despacho multi-modelo do PromptQuorum para comparar saídas de modelos para sua tarefa específica de idioma antes de se comprometer com um modelo.
Conformidade regional e considerações de dados
Brasil (LGPD / ANPD): A Lei Geral de Proteção de Dados (Lei nº 13.709/2018) e as diretrizes da ANPD (Autoridade Nacional de Proteção de Dados) exigem base legal para o processamento de dados pessoais por sistemas de IA. Ao processar dados de usuários brasileiros, sua API de LLMs deve ter um DPA (Data Processing Agreement) ou equivalente. Para conteúdo sensível, recomenda-se o processamento local. Os modelos que oferecem residência de dados no Brasil ou na América Latina são preferíveis para dados pessoais.
União Europeia (RGPD): Ao processar dados em alemão, francês, português europeu ou outros idiomas da UE, sua API de LLMs deve cumprir o Artigo 28 do RGPD (Acordo de Tratamento de Dados). Mistral Large 2 e Claude Opus 4.8 oferecem implantações conformes com a UE.
Japão (APPI): As empresas japonesas que usam LLMs multilíngues devem cumprir a Lei de Proteção de Informações Pessoais (APPI). Para soberania total de dados, recomenda-se o uso local de Qwen 3 72B para tarefas em japonês e chinês.
FAQ
Devo escrever meu prompt em inglês ou no idioma-alvo?
Para tarefas de raciocínio estruturado, escreva o prompt de sistema em inglês. Para tom e formalidade, escreva a mensagem do usuário e as instruções de registro no idioma-alvo.
Por que a IA tem desempenho inferior em idiomas diferentes do inglês?
Os conjuntos de dados de treinamento dos LLMs são dominados pelo inglês (~46% do CommonCrawl). Idiomas com menos de 5% de participação no treinamento têm menos padrões dos quais o modelo pode aprender, produzindo taxas de erro mais altas.
Qual modelo de IA lida melhor com o japonês?
Google Gemini 3.0 Pro lidera consistentemente em japonês, coreano e chinês. GPT-5.5 é um segundo próximo.
Quanto mais custam os prompts em árabe do que em inglês?
O texto em árabe usa aproximadamente 46% mais tokens do que o conteúdo equivalente em inglês. Planeje o orçamento adequadamente para aplicações em árabe de alto volume.
Preciso traduzir meus exemplos few-shot?
Sim. Os exemplos few-shot devem estar no mesmo idioma que sua saída esperada. Exemplos entre idiomas reduzem a precisão entre 15 e 20%.
O que é prompting Chain-of-Thought entre idiomas?
O CoT entre idiomas usa inglês para as etapas de raciocínio, mas solicita a resposta final no idioma-alvo. Para idiomas de nível 3, isso melhora a precisão do raciocínio entre 5 e 12%.
Como faço um LLM usar o português formal (tratamento de você)?
Adicione no seu prompt de sistema: "Utilize exclusivamente o tratamento formal de você e tom profissional." Os modelos usam registros mistos por padrão; esta instrução é necessária para aplicar o registro formal de forma consistente.
O que é code-switching no prompting multilíngue?
O code-switching ocorre quando um usuário escreve em uma mistura de idiomas. Sem instruções explícitas, os modelos respondem no idioma que detectam como dominante.
Posso usar o mesmo modelo de prompt em todos os idiomas?
Não. Cada nível de idioma requer uma estratégia diferente. O nível 1 funciona com qualquer prompt. Os níveis 2–3 precisam de estratégias específicas de CoT e few-shot. O nível 4 requer RAG.
Como o PromptQuorum ajuda com o prompting multilíngue?
O PromptQuorum despacha o mesmo prompt para múltiplos modelos simultaneamente e retorna as saídas lado a lado. Isso permite identificar qual modelo funciona melhor no seu idioma e tarefa específicos em um único envio.
Leitura relacionada
- Prompt de sistema vs. prompt de usuário: O que vai onde? — Entender onde as instruções de idioma devem estar
- Tokens, custos e limites: Um guia prático — Calcular o orçamento de tokens para entradas em idiomas diferentes do inglês
- Prompting Chain-of-Thought: Como os LLMs mostram seu raciocínio — Técnicas de CoT entre idiomas
- Prompting few-shot vs. zero-shot: Quando usar qual? — Escolher a estratégia de exemplos para tarefas multilíngues
- Qual modelo de IA é o certo para a sua tarefa? — Seleção de modelo por idioma e tarefa
Fontes
- Shi et al., 2023. "Language Models Are Multilingual Chain-of-Thought Reasoners." arXiv:2210.03057 — Benchmark MGSM: desempenho de CoT em 10 idiomas; base para os achados de CoT entre idiomas.
- Ahuja et al., 2023. "MEGA: Multilingual Evaluation of Generative AI." arXiv:2303.12528 — 16 tarefas NLP em 70 idiomas; base para as afirmações de taxas de erro por nível de idioma.
- Wei et al., 2022. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022 — Pesquisa fundamental de CoT.
- OpenAI Tokenizer (tiktoken, cl100k_base) — Base para a tabela de comparação de contagens de tokens.